Как составляется индекс


Индексный робот поисковой системы, чтобы составить индекс, должен обязательно выбрать все слова из всех текстов, которые были выкачаны ранее, и расположить их строго в алфавитном порядке. Помимо этого рядом с этими словами должны располагаться номера страниц и различной контекстной информацией, характерной для каждой страницы.
Чтобы составить такой список, робот «пересматривает» все выкачанные странички, затем пронумеровывает каждую из них. Это нужно сделать, чтобы потом спокойно можно было найти любую страницу. Далее из текста страниц удаляется бесполезная и лишняя информация, а потом уже из текста извлекаются слова и помещаются в индекс. При этом выбранные слова непременно должны сопровождаться краткой информацией о тех страницах, с которых они были позаимствованы.

Поиск
Все шаги, которые были рассмотрены, выполняются в поисковой системе и совершенно не заметны для обычного пользователя Интернета. Пользователь видит уже конечный результат – непосредственно сам поиск и его результат. Пользователь всего лишь вводит определенные слова или сочетания слов в строку поиска и получает желаемый результат в виде списка ссылок на различные сайты в Интернете, удовлетворяющие конкретный запрос.
Чтобы узнать, как это работает, надо заглянуть внутрь этого механизма. Когда человек вводит какое-то слово в строку поиска, поисковая машина тут же обращается к готовому индексу. Там находится информация о заданном слове, соответственно поисковик извлекает все номера тех страниц, которые относятся к заданному слову, и выдает пользователю итог поиска – список страниц с ключевым запрашиваемым словом.
В каждом пункте традиционно располагаются заголовок страницы – титул, дата создания этой страницы, ее адрес и фрагмент текста искомой страницы с заданным ключевым словом.
Если в поисковике запрашиваются несколько слов, то поисковая система проводит сравнение между двумя и более списками ссылок. Например, если запрос звучит так – «обои Самара», поисковик обращается к индексу с ключевым словом «обои» и отдельно к индексу по слову «Самара». Он сравнивает два списка, выбирает только те пункты поискового результата, в которых эти два слова появляются одновременно, и выдает пользователю список сайтов с двумя ключевыми словами.
Естесственно, это самое простое и доступное описание сути механизма поиска по индексу - можно сказать, это его основной принцип. Однако у настоящих специалистов есть множество своих хитростей и секретов, которые они используют при разработке поисковой машины.