Доступные версии документации

Индексы

Все поисковые системы производят поиск с помощью заранее построенного индекса. Поэтому документы, участвующие в поиске, должны быть предварительно проиндексированы. Системы, не производящие индексацию (производящие поиск с помощью просмотра текстов), просто не в состоянии провести поиск в реальном времени по уже нескольким десяткам мегабайт текстовой информации. Для индексирования могут использоваться следующие методы:

  1. индексирование ключевыми словами – в индекс входит каждое слово, встречающееся в словосочетании, за исключением слов, отнесенных к стоп-словам. Стоп-слова – это, как правило, высокочастотные служебные слова – предлоги, союзы. Из словосочетания «Война и мир» в индекс войдут два слова «война» и «мир». При поиске порядок введенных слов не имеет значения – каждое слово ищется отдельно, затем результаты поиска пересекаются;

  2. фразовое индексирование: содержание поля или подполя заносится в индекс целиком. Из словосочетания «война и мир» в индексе получится один вход – «война и мир». При поиске нужно вводить слова в правильном порядке;

  3. индексирование ключами – усечение каждого слова до определенного числа букв;

  4. пермутационное индексирование – словосочетание «переворачивается», выводя на первое место каждое из слов, входящих в него.

В СУБД ЛИНТЕР реализованы сочетания первого и второго способов.

Примечание

В настоящее время список стоп-слов пуст.

Заметили ошибку?
Выделите текст и нажмите Ctrl + Enter