Отбрасывание окончаний и работа с основами


       Разработчики программ поисковых машин пришли к выводу, что лучшим решение проблемы основ и окончаний будет таким – хранить только основы слов, а их всевозможные окончания поместить отдельно, что, несомненно, сэкономит место, а также даст возможность при поиске объединять различные грамматические формы одного слова. Естесственно, это даст более эффективный и качественный поисковый результат в системе.
        Это достигается с помощью приведения слов к начальным формам при индексации страниц – к инфинитиву или к именительному падежу единственному числу, но чаще всего, просто к основам слов или корням слов. В таком виде слова и добавляются в индекс поисковым роботом. Для этого традиционно поисковая система работает со словарем, то есть обрабатывает исключительно известные ему слова.
        В результате обработки основ слов получается, что при задании любой формы слова в поисковом запросе, эта форма будет сведена к основе, и искаться будут все формы данного слова в текстах.
       Знание о машинной морфологии
       На сегодняшний день три современных российских поисковых системы (Яндекс, Рамблер и Апорт) уже очень давно применяют машинную морфологию при индексировании и поиске. Всего несколько лет назад к ним присоединилась русскоязычная поисковая система Google. Каждая поисковая система обладает своими морфологическими особенностями, но в целом, они более или менее идентичны.
        Знать о машинной морфологии необходимо, прежде всего, для владельцев сайтов, особенно при наполнении сайта контентом, при управлении ссылками, а также при раскрутке и продвижении сайтов и различных рекламных кампаний в системах контекстной рекламы (например, Бегун или Яндекс.Директ).
       Неизвестные слова и нечеткая морфология
       Не посмотреть на окончание и найти основу или корень слова можно только у известных слов, которые есть в справочных словарях поисковика. Но язык постоянно пополняется новыми формами и словами. Поисковые машины такие слова хранит в том виде, в котором они ему встречаются, не изменяя и не разделяя на окончание или основу. Точно также обстоит дело и с опечатками – они хранятся в неизменном виде. Но для более качественного поиска рекомендуется грамотно употреблять общеизвестные слова при поисковых запросах.
        Бывает, что поисковик пытается разобраться с неизвестными ему словами по аналогии с общеизвестными. Это называется нечеткая морфология. Например, слово «квазиметр» поисковик посчитает нужным склонять как слово «метр». Этим алгоритмом пользуются две поисковых системы – Google и Яндекс. Но чистота подобного процесса весьма относительна, поэтому опираться на нее при составлении контента не рекомендуется.