ЛИНТЕР

Правила распознавания слов при полнотекстовом поиске

Распознаваемый элемент «Слово» текста документа может включать:

буквенно-цифровые символы (согласно стандарту UNICODE) и символ '_';
символы, значимые в середине слова: '@', '-', '/'. Данные символы являются частью слова, если окружены указанными выше символами (буквенно-цифровыми и знаком подчеркивания). В частности, эти символы не могут быть первым или последним символом слова.

Имена и значения атрибутов подчиняются правилам, устанавливаемым спецификацией XML.

Фильтр xml2text использует следующие правила:

имя атрибута начинается с символов a-z, A-Z, А-Я, а-п, р-я, Ё, ё, '_', ':';
имя атрибута продолжается символами a-z, A-Z, А-Я, а-п, р-я, Ё, ё, 0-9, '_', ':', '.', '-';
кодировка по умолчанию CP866;
если документ содержит атрибут CONTENT, то кодировка документа определяется значением подстроки charset=… внутри значения атрибута CONTENT.

Фильтр unixml2text использует следующие правила:

имя атрибута начинается с буквенно-цифровых символов (согласно стандарту UNICODE) или символов '_', ':';
имя атрибута продолжается буквенно-цифровыми символами, а также '_', ':', '.', '-'.

Значением атрибута является заключенная в одинарные или двойные кавычки строка с учетом следующих замен:

Последовательность	Символ
"	'"'
&	'&'
<	'<'
>	'>'
	' '

Максимальная длина слова, имени и значения атрибута составляет 64 однобайтового символа. Длинные слова при поиске усекаются до 64 однобайтовых символов.