Распознаваемый элемент «Слово» текста документа может включать:
буквенно-цифровые символы (согласно стандарту UNICODE) и символ '_';
символы, значимые в середине слова: '@', '-', '/'. Данные символы являются частью слова, если окружены указанными выше символами (буквенно-цифровыми и знаком подчеркивания). В частности, эти символы не могут быть первым или последним символом слова.
Имена и значения атрибутов подчиняются правилам, устанавливаемым спецификацией XML.
Фильтр xml2text использует следующие правила:
имя атрибута начинается с символов a-z, A-Z, А-Я, а-п, р-я, Ё, ё, '_', ':';
имя атрибута продолжается символами a-z, A-Z, А-Я, а-п, р-я, Ё, ё, 0-9, '_', ':', '.', '-';
кодировка по умолчанию CP866;
если документ содержит атрибут CONTENT, то кодировка документа определяется значением подстроки charset=… внутри значения атрибута CONTENT.
Фильтр unixml2text использует следующие правила:
имя атрибута начинается с буквенно-цифровых символов (согласно стандарту UNICODE) или символов '_', ':';
имя атрибута продолжается буквенно-цифровыми символами, а также '_', ':', '.', '-'.
Значением атрибута является заключенная в одинарные или двойные кавычки строка с учетом следующих замен:
Последовательность | Символ |
---|---|
" | '"' |
& | '&' |
< | '<' |
> | '>' |
  | ' ' |
Максимальная длина слова, имени и значения атрибута составляет 64 однобайтового символа. Длинные слова при поиске усекаются до 64 однобайтовых символов.