ЭЛЕКТРОННОЕ УЧЕБНО-МЕТОДИЧЕСКОЕ ПОСОБИЕ

Microsoft Excel 2000


Тема 7. Статистическая обработка данных
>>
Анализ текста

В связи с бурным развитием массовой и деловой коммуникации, ростом информационных потоков, интенсивным накоплением информации, предназначенной для систематизации, хранения и использования актуальной становится задача извлечения информации (информационного поиска) и ее анализа. Компьютерный анализ текстов в настоящее время начинает приобретать самостоятельное значение в проблематике гуманитарной информатики. Наиболее разработанным направлением является использование статистических методов для обработки текста, например, построение частотных словарей, конкордансов (словарей словосочетаний) и т.п. Анализ может вестись на разных уровнях - от грамматических форм (характерно для стилометрики) до смысловых категорий, обнаруживаемых в тексте (контент-анализ). Цель анализа - выявить некоторые закономерности, характеризующие текст, и сделать выводы, например, об авторстве текста или политических пристрастиях автора. Известны различные методы выбора ключевых слов: статистические, выбор с помощью анкет или кодограмм, выбор по совпадению данного слова со словами некоторого положительного словаря и ряд других. Определение ключевых слов является основой для создания тезаурусов, используемых в процессах автоматического поиска информации, автоматического аннотирования, реферирования и перевода. Статистические методы выделения специфичной лексики основываются на анализе частоты употребления того или иного слова в определенной совокупности текстов.

Пусть имеется текст T, следует взять любое слово и посчитать, сколько раз оно встречается в тексте - эта величина называется частотой вхождения (употребления) слова . Вероятность встретить выбранное случайным образом слово равна отношению частоты вхождения слова к общему числу слов n в тексте:

Некоторые слова будут иметь одинаковую частоту, то есть входить в текст равное количество раз. Следует сгруппировать слова, имеющие одинаковую частоту вхождения и взять только одно значение из каждой группы. Расположить частоты в порядке убывания и пронумеровать их. Порядковый номер частоты называется рангом частоты. Наиболее часто встречающиеся слова будут иметь ранг 1, следующие за ними - 2 и т.д.

Исследования показывают, что наиболее значимые слова лежат в средней части графика зависимости ранга от частоты. Слова, которые попадаются слишком часто, в основном оказываются предлогами, местоимениями, в английском языке - артиклями и т.п. Редко встречающиеся слова тоже, в большинстве случаев, не имеют решающего смыслового значения.
Например, провести анализ следующего текста, построить график зависимости ранга и частоты, выделить зону значимых слов:

таблица слов текста с частотой их вхождения, слова с частотой 2 и 3 наиболее точно отражают смысл абзаца:
таблица ранжирования:

график зависимости частота-ранг:

зона значимых слов: слова с рангом 2, 3 и частотой 3, 2 соответственно.
Анализ выделенной области значимых слов. Не все слова, которые попали в нее, отражают смысл текста. Смысл абзаца очень точно выражают слова: зипфа, манускриптов, войнича, законам. Однако в область попали и слова: не, для, это. Эти слова являются "шумом", который затрудняет правильный выбор. "Шум" можно уменьшить путем предварительного исключения из исследуемого текста некоторых слов. Для этого создается словарь ненужных слов - стоп-словарь. Есть и другие способы повысить точность оценки значимости терминов.

Был рассмотрен отдельно взятый документ, но при выделении ключевых слов исследуется совокупность текстов. Чтобы избавится от лишних слов, и поднять рейтинг значимых слов, часто используется инверсная частота термина i. Значение этого параметра тем меньше, чем чаще слово встречается в документах. Вычисляется инверсная частота по следующей формуле:

где N - общее количество документов, - количество документов с термином i.
Далее каждому термину присваивается весовой коэффициент, отражающий его значимость. Весовой коэффициент термина в документе равен произведению частоты термина на инверсную частоту данного термина.

В примере термин "не" получит нулевой или близкий к нулю весовой коэффициент, поскольку практически во всех текстах попадается это слово. Термин "зипфа" - напротив, приобретет высокий вес.

Современные способы индексирования не ограничиваются анализом перечисленных параметров текста. Поисковая машина может строить весовые коэффициенты с учетом местоположения термина внутри документа, взаимного расположения терминов, частей речи, морфологических особенностей и т.п. 
В качестве терминов могут выступать не только отдельные слова, но и словосочетания. Без этих законов сегодня не обходится ни одна система автоматического поиска информации.

вверх