Автор: Пользователь скрыл имя, 18 Ноября 2012 в 22:37, реферат
Наибольшее распространение сегодня получили три метода оценки сходства документов: метод выделения ключевых слов, метод взвешенных ключевых слов и метод латентных семантик (latent semantic indexing - LSI) - скрытых семантических зависимостей.
Методы построения функции схожести документов
Одним из решений проблемы построения функции схожести является применение различных методов лингвистического анализа для определения «схожести» двух различных документов, хотя эти методы не лишены определенных недостатков, связанных со сложностью их реализации и настройки.
Наибольшее распространение сегодня получили три метода оценки сходства документов: метод выделения ключевых слов, метод взвешенных ключевых слов и метод латентных семантик (latent semantic indexing - LSI) - скрытых семантических зависимостей.
Основной принцип - выделение списка ключевых слов для каждого документа и формирования на основе этого списка единого информационного массива ключевых слов.
Совокупность документов В можно представить как массив: В = {D1,D2,D3,..., Dn}, где D — документ. Не акцентируя внимание на структуре каждого из этих документов, их можно представить как набор ключевых слов: D = {ki1,ki2,ki3,..., kim}, где kij — ключевое слово. Объединяя наборы ключевых слов всех документов, можно сформировать информационный массив ключевых слов: K = {k1,k2,k3,...,kN}.
Определение значимости ключевого слова основывается на оценке частоты встречаемости его во всех документах. Чем чаще то или иное слово встречается в базе данных, тем, вероятно, оно менее значимо с точки зрения способности однозначно идентифицировать конкретный документ из В, поскольку меньше характеризует тематическую направленность конкретного документа, в котором оно имеется.
В качестве примера одной из наиболее простых функций сходства можно привести следующую функцию сходства: F(Di,Dj) = [Qij]/[Mij], где Qij — множество совпавших ключевых слов, Mij — общее для Di и Dj множество ключевых слов.
Усовершенствованием метода выделения ключевых слов является метод взвешенных ключевых слов. Данный метод основывается на представлении документов в виде неупорядоченного набора слов, встречающихся в этом документе, с присвоенным каждому из них весовым коэффициентом, характеризующим значимость этого слова для выражения общего смысла всего документа. Расчет весовых коэффициентов часто производится по методике TFIDF (term frequency times inverse document frequency), определяющей вес того или иного слова в документе на Основе частоты его встречаемости в данном документе и относительно общего количества документов, в которых это слово присутствует. Если документ имеет некоторую структуру (заголовок, аннотацию, авторов и т.п.), то весовые коэффициенты слов могут быть модифицированы в соответствии с их месторасположением в тексте: например, коэффициенты слов, присутствующих в заголовке, могут быть увеличены.
Метод латентных семантик LSI. Одним из методов, учитывающих скрытые взаимосвязи, является латентное семантическое индексирование LSI.
LSI представляет собой расширение стандартного векторного метода. Основная идея алгоритма — статистическая оценка и учет скрытых (латентных) ассоциаций между словами в документах. Вместо представления документов как дискретных векторов в пространстве независимых слов LSI рассматривает и ключевые слова, и документы как непрерывные вектора в базисе из к ортогональных "индексирующих" размерностей, полученных в ходе SVD-анализа. Разные исследователи определяют меру сходства между этими векторами либо через их скалярное произведение, либо через косинус угла между ними. Авторы отдают предпочтение первому подходу, так как он учитывает вклад слов, встречающихся в документах более одного раза.
Данный
метод, несмотря на более высокую
сложность математического
Основная идея метода LSI заключается
в использовании методов
Информация о работе Методы построения функции схожести документов