Устройство индекса поисковой системы


Несмотря на постоянно возрастающую популярность Интернета, многие пользователи имеют весьма расплывчатое представление о том, что такое индекс. Хотя это слово очень часто встречается и упоминается в контексте тем о поисковых системах. Но ничего замысловатого в этом понятии, естественно, нет. Ведь каждый из нас пользовался «прародителем» современного сетевого индекса – предметным указателем в книгах гораздо раньше своего первого посещения Интернета.
Можно подробнее рассмотреть процесс индексирования текста, а также разобраться с устройством самого индекса. При создании индекса из выкачанных ранее страниц поисковая машина выполняет несколько основных шагов.

Преобразование в чистый текст
Прежде всего, текст, который индексируется роботом, необходимо очистить от различных нетекстовых элементов, например, от графических изображений, разметки языка HTML и многое другое. Соответственно, получается совершенно чистый текст, с которым индексный индекс может продолжать работу.

Подбор слов
Продолжение работы с текстом заключается в следующем. Слова нужно отобрать в тексте, для того чтобы далее расположить их в алфавитном порядке. Для каждой поисковой системы есть свое, индивидуальное определение того, что считать словом в тексте, а что нет, потому что стандарта в этом вопросе, к сожалению, не существует. Словом в тексте может считаться последовательность букв (причем, не только русского алфавита), числа, буквенно-цифровая цепочка, слова с предлогами или с дефисным написанием. Не считаются словами пробелы, знаки препинания и другие синтаксические элементы.
Таким образом, поисковая система тщательно выбирает слова из данного текста, а потом собирает найденное в отдельный список.
Лингвистическая обработка
Большая часть поисковых систем не заносят слова в том виде, в каком они были извлечены из обработанного роботом текста.
Традиционно у поисковых машин есть свой определенный механизм для приведения слов к первоначальному виду – так называемая лингвистическая обработка. Лингвистическая (а если быть точнее, морфологическая) обработка слов заключается в том, чтобы привести слова к их начальным грамматическим формам или основам: к именительному падежу у имен существительных, прилагательных и местоимений или к инфинитиву у глаголов. Это делается для того, чтобы сэкономить место в индексе, а также для более тщательного и эффективного поиска.