- Главная
- Документация
- Справочники и руководства
- Полнотекстовый поиск в базе данных
- Элементы языка
- Фильтры
- Правила распознавания слов при полнотекстовом поиске
- Оглавление
- Быстрый старт
- Технический обзор
- FAQ
- Установка и запуск
- Справочники и руководства
- Программные интерфейсы
- Графические утилиты администратора
- Утилиты командной строки
- Псевдографические утилиты
Поиск по документации
СУБД ЛИНТЕР© 1990-2024
АО НПП "РЕЛЭКС"© 1990-2024 - В формате PDF
- Одним файлом
Поиск по документации
СУБД ЛИНТЕР© 1990-2024
АО НПП "РЕЛЭКС"© 1990-2024
Правила распознавания слов при полнотекстовом поиске
Распознаваемый элемент «Слово» текста документа может включать:
-
буквенно-цифровые символы (согласно стандарту UNICODE) и символ '_';
-
символы, значимые в середине слова: '@', '-', '/'. Данные символы являются частью слова, если окружены указанными выше символами (буквенно-цифровыми и знаком подчеркивания). В частности, эти символы не могут быть первым или последним символом слова.
Имена и значения атрибутов подчиняются правилам, устанавливаемым спецификацией XML.
Фильтр xml2text использует следующие правила:
-
имя атрибута начинается с символов a-z, A-Z, А-Я, а-п, р-я, Ё, ё, '_', ':';
-
имя атрибута продолжается символами a-z, A-Z, А-Я, а-п, р-я, Ё, ё, 0-9, '_', ':', '.', '-';
-
кодировка по умолчанию CP866;
-
если документ содержит атрибут CONTENT, то кодировка документа определяется значением подстроки charset=… внутри значения атрибута CONTENT.
Фильтр unixml2text использует следующие правила:
-
имя атрибута начинается с буквенно-цифровых символов (согласно стандарту UNICODE) или символов '_', ':';
-
имя атрибута продолжается буквенно-цифровыми символами, а также '_', ':', '.', '-'.
Значением атрибута является заключенная в одинарные или двойные кавычки строка с учетом следующих замен:
Последовательность | Символ |
---|---|
" | '"' |
& | '&' |
< | '< ' |
> | ' >' |
  | ' ' |
Максимальная длина слова, имени и значения атрибута составляет 64 однобайтового символа. Длинные слова при поиске усекаются до 64 однобайтовых символов.