Введение к работе
Актуальность темы исследования. Развитие информационных сетей, объединение их в единую глобальную сеть Интернет, появление электронных библиотек и иных баз данных привело к росту объема текстовой информации в Интернете, продолжающемуся и сейчас. Это, в свою очередь, стало причиной снижения уровня информированности людей из- за роста объемов шумовой и дублирующейся информации; сложности построения запроса, отвечающего интересам пользователя; использования коммерческими организациями результатов поиска как площадки для продвижения своих товаров; сложности построения эффективного и удовлетворяющего пользователя с позиции длительности поиска.
Степень разработанности темы исследования. Основные модели информационного поиска представлены в работах Э.Э. Гасанова, В.Б. Кудрявцева, А.А. Санарского, И.В. Безсудова, Г. Солтона, Э.А. Фокса, Г. Ву, С.Э. Робертсона, К. Спарк-Джонса, М.В. Бэрри, Е.В. Ягуновой, Л.М. Пи- воваровой.
Эффективность информационного поиска оценивается множеством метрик или характеристик, с большой частью которых можно ознакомиться в серии документов «Официальные метрики РОМИП». Основными характеристиками информационного поиска являются полнота и точность. Под эффективностью информационного поиска в дальнейшем будем понимать именно эти его характеристики. Естественно, полнота и точность конкретного информационного поиска являются случайными величинами, для оценки которых используются средние значения. Максимальные значения полноты и точности, равные 1, характеризуют идеальный поиск, но на современном этапе не удается достичь одновременно высоких значений обеих характеристик. Так, например, в своей книге «Интернетика» Д.В. Ландэ приводит следующие данные по работе современных информационно-поисковых машин (ИПМ): для значений полноты информационного поиска от 0,6 до 0,7 средняя его точность равна 0,75, а для значений полноты от 0,8 до 0,9 точность поиска достигает всего 0,27. При этом точность, близкая к 1, достигается лишь при полноте 0,4 и менее.
Но даже такой подход к определению эффективности является спорным, если оценка документов с точки зрения их необходимости пользователю проводится на основе релевантности - соответствия результатов поиска запросу. Альтернативой является оценка на основе пертинентно- сти - соответствия результатов поиска информационной потребности пользователя. Но при этом возникает новая нетривиальная задача - оценка пертинентности.
На современном этапе наиболее распространенным подходом к обработке информационных массивов с целью повышения эффективности поиска является кластеризация - автоматическое разбиение группы объектов на подгруппы, к каждой из которых автоматически строится аннотация и предоставляется пользователю для выбора интересующего его кластера.
Большой объем семантической информации скрыт в коллокациях - группах термов (слов), расположенных относительно друг друга в определенном порядке. Однако большинство современных моделей либо не учитывают этот фактор, либо учет в модели текстового документа коллока- ций сводится к рассмотрению пар слов, встречающихся непосредственно рядом друг с другом, в то время как фактически на семантику текста влияют группы из двух, трех и более слов, встречающихся на некотором расстоянии друг от друга. Под расстоянием между двумя словами в тексте будем понимать количество слов, расположенных между ними.
Таким образом, актуальность разработки эффективной и удовлетворяющей по времени работы требованиям пользователя системы поиска текстовой информации следует из несоответствия потребностей пользователя в данной области и возможностей существующих ИПМ по причине показанного выше несовершенства современных моделей и алгоритмов поиска текстовой информации. Это определяет практическую задачу - повышение эффективности поиска за счет оптимизации запроса к информационно-поисковым машинам на основе кластеризации информационных массивов, для решения которой необходимо рассмотреть научную задачу, заключающуюся в разработке моделей: оптимизации запроса, текстового документа и алгоритма кластеризации информационных массивов для обеспечения эффективного поиска.
Объект исследования: модели и алгоритмы анализа текста.
Предмет исследования: математическая модель оптимизации запроса и алгоритм кластеризации текстовой информации.
Цели и задачи. Целью исследования являлось повышение эффективности анализа текста на основе оптимизации запроса с помощью кластеризации по нечетким коллокациям. Для достижения цели были решены следующие задачи:
анализ и синтез математической модели параметрической оптимизации запроса;
построение векторно-пространственной модели текстового документа на основе нечеткого представления коллокаций;
разработка алгоритма кластеризации информационного массива, на основе построенной векторно-пространственной модели;
оценка эффективности полученных в ходе исследования моделей и алгоритмов.
Методология и методы исследования. Методология исследования основывается на принципах системного анализа и общей теории систем, при этом используются методы теории информационного поиска, теории нечетких множеств и кластерного анализа.
Результаты диссертационной работы, выносимые на защиту, и их научная новизна:
-
-
Математическая модель оптимизации запроса, отличающаяся адаптацией к числу найденных документов и информационной потребности пользователя.
-
Нечеткая векторно-пространственная модель текстового документа, отличающаяся использованием в качестве элементов вектора функций принадлежности, формализующих расстояние между термами в коллокации.
3. Алгоритм кластеризации информационного массива с помощью предложенной метрики, отличающийся учетом встречающихся в тексте коллокаций, формализованных функциями принадлежности.
Теоретическая и практическая значимость работы. Теоретическая значимость исследования обоснована разработанными моделями оптимизации поискового запроса, текстового документа и алгоритмом кластеризации информационного массива, дополняющими теорию информационного поиска и учитывающими встречающиеся в тексте коллокации, формализованные нечетким образом.
Практическая значимость работы заключается в разработке специализированного комплекса программного обеспечения для анализа текстов на основе разработанных моделей и алгоритма кластеризации, позволяющего повысить эффективность поиска текстовой информации путем оптимизации запроса к информационно-поисковой машине.
Степень достоверности и апробация результатов. Достоверность результатов работы основана на корректном применении математического аппарата к элементам теорий информационного поиска, нечетких множеств и кластерного анализа, а также на результатах вычислительного эксперимента, подтверждающих повышение эффективности поиска текстовых сведений в некоторых условиях.
Основные результаты работы представлены и обсуждены на IV Межвузовской научно-практической конференции «Новые технологии и инновационные разработки», проходившей в Тамбовском государственном техническом университете в 2011 г., XI Международной научно- методической конференции «Информатика: проблемы, методология, технологии», проходившей 10-11 февраля в Воронежском государственном университете, Международной научно-практической конференции «Техника и безопасность объектов уголовно-исполнительной системы - 2011», проходившей в Воронежском институте ФСИН России в 2011 г., VIII Всероссийской научно-практической конференции «Математические методы и информационно-технические средства», проходившей 22-23 июня в Краснодарском университете МВД России. Кроме того, результаты диссертационного исследования представлены на Всероссийском конкурсе научно-исследовательских работ студентов и аспирантов в области информатики и информационных технологий, проходившем в Белгородском государственном университете в 2011 г. В этом же году получен грант на основе результатов диссертационной работы по программе «Участник молодежного научно-инновационного конкурса» («У.М.Н.И.К.»). В 2012 г. по результатам диссертационного исследования направлена заявка под номером 13-07-00182 на конкурс инициативных научно-исследовательских проектов по программе РФФИ.
Внедрение результатов исследования. Основные положения диссертационной работы использованы при обучении студентов кафедры «Информационные системы и защита информации» на факультете «Информационные технологии» ФГБОУ ВПО «ТГТУ». Результаты диссертационной работы приняты к внедрению в 1084-м межвидовом центре подготовки и боевого применения войск РЭБ, на кафедре «Информационные системы и защита информации» ФГБОУ ВПО «ТГТУ», в ООО «СОВТЕХ» и ООО «КОНУС-ИТ», что подтверждено актами о внедрении результатов исследований.
Публикации. По теме диссертации опубликовано 25 работ, из них 15 статей, в том числе 6 статей в изданиях, рекомендованных ВАК РФ, 9 статей в рецензируемых изданиях, и 10 тезисов докладов на всероссийских и международных научных конференциях.
Структура и объем работы. Диссертация состоит из введения, трех глав, заключения, списка использованных источников, содержащего 153 наименования, и приложений. Общий объем диссертации составляет 139 страниц, из них список использованных источников - 12 страниц. Основной текст работы содержит 27 рисунков и 14 таблиц. Работа соответствует п. 5. «Разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечениях разработка и исследование методов и алгоритмов анализа текста, устной речи и изображений» Паспорта специальности 05.13.17 - Теоретические основы информатики.
Похожие диссертации на Математические модели и алгоритмы эффективного поиска текстовой информации на основе кластеризации по нечетким коллокациям
-