Какие слова индексирует поисковая машина


       Для того, чтобы поисковик смог проиндексировать слова на страницах, поисковой системе необходимо определить, что такое слово.

Что такое слово

        Перед нами встает вопрос, какие все-таки слова поисковик считает словами. Считаются ли слова с дефисным написанием одним словом или двумя (например, «где-нибудь» или «желто-зеленый»), относят ли цифры и числа к словам, или поисковик «пропускает» их. Иностранные слова – это слова или нет. Возможно ли индексирование почтового адреса, интернет адреса, даты, комбинаций цифр и букв при названиях?
        Этот вопрос решается специалистами для каждой поисковой системы индивидуально. Нет никакого смысла пытаться точно выяснить правила определения слов, например, для Яндекса или для Рамблера, потому что они могут изменяться даже каждый месяц – когда разработчики вводят в работу новую версию поисковой машины. Это можно проверить самостоятельно, если в этом будет необходимость.

Проверка

        Проверить индексирование определенных слов в поисковике достаточно легко. Надо просто набрать в интересующем вас поисковике запрос с сочетанием цифр/букв или слова с дефисным написанием и посмотреть результаты поиска. В связи с тем, что к каждому пункту запроса существует некое описание, можно посмотреть, как именно отразится поисковый запрос в этом описании. Таким образом, можно увидеть, в каком именно виде слова хранятся в индексе определенной поисковой системы.

Знаки препинания

        Поисковые системы не индексируют знаки препинания – тире, точки, запятые, а также пробелы, потому что в этом нет никакого смысла. Если ввести в поисковый запрос точку, поисковик выдаст ошибку или просто откажется искать. Ведь точка или запятая есть в каждом тексте, и выдать все страницы с точками не представляется возможным. К тому же это еще и получается довольно накладным, если рассматривать это с точки зрения затрат серверной мощности.

Стоп-слова

        Раньше, когда разработчики старались экономить место на дисках, в индексируемых страницах отбрасывались слова, которые не несут в себе никакой смысловой нагрузки – служебные слова, так называемые стоп-слова – предлоги, частицы, союзы, числа, сокращения. Однако, как показала практика, пользователи все активнее стали употреблять служебные слова в поисковых запросах, особенно цитатах или названиях книг, фильмов и так далее. К тому же стоимость жестких дисков заметно снизилась, и появилась возможность хранить также и служебные слова и цифры. Поэтому все стоп-слова сейчас активно индексируются всеми поисковыми системами.