Введение к работе
Актуальность проблемы.
Глобальная сеть Интернет и компьютерные технологии сформировали целостное и быстро растущее информационное пространство, порождающее новые потребности в обработке, представлении и поиске информации. Сегодня все публикуемые бумажные документы оцифровываются и размещаются в электронных хранилищах различного назначения, активно используются поисковые машины и сервисы. На научных форумах активно обсуждается обработка текстовой информации и тесно связанные с ней информационный поиск и классификация документов, автореферирование, автоаннотирование и пр. Отмечается, что в информационном поиске критерий релевантности, основанный на встречаемости слов, при различении документов одинаковой терминологии, не дает приемлемого качества выдач, а решения предлагается искать в выделении семантической составляющей документов.
Отсутствие хороших решений в обработке семантики текстов связаны с многозначностью ее выражения в естественных языках, а также различными стилистическими приемами их оформления. Например, литературным текстам присущ художественный стиль со свойственной ему метафоричностью и образностью, научно- технической стиль отличает предельно точное выражение смысла в форме правдоподобного рассуждения. Однако семантика текстов всегда имеет грамматическое оформление и через него распознается.
Настоящая диссертационная работа выполнена в рамках данной проблематики и посвящена разработке и исследованию формализованных представлений и семантических схем предложений текстов научно-технического стиля и их использованию для повышения эффективности информационного поиска.
Объект исследований. Особенности текстов документов научно-технического стиля, формализованные представления и семантические схемы предложений, эффективность информационного поиска.
Цели работы. Разработка и исследование новых формализованных представлений и семантических схем предложений текстов научно-технического стиля и их использование для повышения эффективности информационного поиска
Задачи работы:
-
Провести анализ естественного языка и его грамматики, особенностей научно-технического стиля, существующих методов формализации представления предложений. Определить функционал смысловыразительности и проанализировать лингвистическое обеспечение различных видов информационного поиска.
-
Разработать и исследовать формализованное словно-зависимое представление предложения и его атрибуты: цепочки зависимостей, характеристические слов- ные множества, размеченные степени отношения непосредственного подчинения, размеченное транзитивное замыкание отношения непосредственного подчинения и алгоритмы восстановления цепочек зависимостей.
-
Разработать и исследовать формализованное словно-шкальное представление предложения и его атрибуты: словную шкалу, ее разбиения на непересекающиеся классы, нумерацию разбиений, мощностные оценки, системы разбиений. Сконструировать алгоритмы построения систем разбиений и нотации их представления.
-
Определить и исследовать понятия контекста, контекстной связки, дерева контекстной связки, операции контекстного уточнения смысла, сконструировать обратную польскую запись функционала смысловыразительности, процедуры ее вычисления и представления в виде семантических схем.
-
Разработать критерий сравнения фрагментов текстов на близость, процедуры формирования ВЫДАЧ, а также провести экспериментальное сравнение семантического информационного поиска на основе сравнения семантических схем предложений и базового, учитывающего вхождение слов запроса в тексты.
Методы исследования. Для решения диссертационных задач использованы теория отношений, теория графов, комбинаторика; теория формальных языков и грамматик, информационного поиска, элементы теории нечеткой математики.
Научная новизна работы. Разработаны новые:
-
-
Формализованные словно-зависимое и словно-шкальное представления предложений текстов научно-технического стиля, алгоритмы их построения и обработки, позволяющие выделять и анализировать фрагменты предложений на смысловую целостность.
-
Функционал смысловыразительности, его представление в нотации обратной польской записи, процедуры ее получения и вычисления, позволяющие строить семантические схемы предложений, используемые в информационном поиске для сравнения предложений или их фрагментов на близость.
-
Критерий сравнения и система решающих правил вычисления близости текстовых фрагментов, процедуры включения документов в ВЫДАЧУ, составляющие основу семантического информационного поиска.
Основные положения, выносимые на защиту. На защиту выносятся следующие научные положения и результаты диссертационного исследования:
-
-
-
Формализованное словно-зависимое представление предложения и его атрибуты: цепочки зависимостей, характеристические словные множества, размеченные степени отношения непосредственного подчинения, размеченное транзитивное замыкание отношения непосредственного подчинения и алгоритмы восстановления цепочек зависимостей
-
Формализованное словно-шкальное представление предложения и его атрибуты: словная шкала, разбиения на непересекающиеся классы, нумерация разбиений, мощностные оценки, система разбиений, ее нотации, правила и алгоритмы конструирования.
-
Функционал смысловыразительности и его представление в нотации обратной польской записи, способы ее получения и вычисления, семантическая схема предложения.
-
Критерий сравнения и система решающих правил вычисления близости текстовых фрагментов и процедуры включения документов в ВЫДАЧУ.
Теоретическая и практическая значимость результатов исследования.
1. Проведен анализ естественного языка, грамматики, особенностей научно- технического стиля, существующих формальных представлений предложений. Определен функционал смысловыразительности, исследована смысловыразительность лингвистического обеспечения различных видов информационного поиска.
-
-
-
-
Разработано и исследовано формализованное словно-зависимое представление предложения и его атрибуты: цепочки зависимостей, характеристические словные множества, размеченные степени отношения непосредственного подчинения, размеченное транзитивное замыкание отношения непосредственного подчинения и алгоритмы восстановления цепочек зависимостей.
-
Разработано и исследовано формализованное словно-шкальное представление предложения и его атрибуты: словная шкала, разбиения на непересекающиеся классы, нумерация разбиений, мощностные оценки, системы разбиений и их нотации. Построены правила и алгоритмы конструирования систем разбиений.
-
Определены и исследованы понятия контекста, контекстной связки, дерева контекстной связки, операции контекстного уточнения смысла и сконструирован функционал смысловыразительности в нотации обратной польской записи, процедуры вычисления и представления его виде семантических схем.
-
Разработаны критерий сравнения и система решающих правил вычисления близости текстовых фрагментов и процедуры включения документов в ВЫДАЧУ, а также проведено экспериментальное сравнение семантического информационного поиска на основе сравнения семантических схем предложений и базового, учитывающего вхождение слов запроса в тексты.
Достоверность результатов. Подтверждается использованием теории отношений, теория графов, комбинаторики; нумераций, теория формальных грамматик и языков, информационного поиска, элементов нечеткой математики, а также результатами экспериментов.
Использование результатов работы. Результаты диссертационного исследования используются в ряде научных работ, выполненных в международной лаборатории ELDIC, и в учебном процессе, что подтверждается актами о внедрении результатов исследования госбюджетных НИР и учебном процессе магистерской программы "Интеллектуальные системы" по направлению 230100 "Информатика и вычислительная техника" факультета автоматики и вычислительной техники Таганрогского технологического института Южного федерального университета.
Апробация результатов работы. Основные результаты работы неоднократно докладывались и обсуждались на конференциях и семинарах различного уровня:
-
Всероссийской научной конференции молодых ученых, аспирантов и студентов «Информационные технологии, системный анализ и управление», (Таганрог, 2006, 2008, 2009, 2010, 2011 гг.);
-
Международной конференции по системам искусственного интеллекта при поддержке IEEE AIS'06, AIS'08, AIS'11 (Дивноморское, 2006,2008,2011гг.);
-
Всероссийской научной конференции студентов и аспирантов «Техническая кибернетика, радиоэлектроника и системы управления», (Таганрог, 2006 г.).
-
Всероссийской научной школе-семинар молодых ученых аспирантов и студентов «Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки (Таганрог, 2007, 2008, 2009, 2010 гг.).
-
Всероссийской конференции студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования» (Таганрог, 2008).
-
Всероссийской научной школе-семинаре молодых ученых аспирантов и студентов «Семантическая интерпретация и интеллектуальная обработка текстов, их приложения в информационном поиске, хранении и обработке документов в электронных архивах и библиотеках» (Таганрог, 2011, 2012 гг.).
Публикации. По материалам диссертации автором опубликовано 24 печатных работ, в том числе четыре статьи в изданиях из списка, рекомендованного ВАК, в которых отражены основные результаты диссертационного исследования.
Структура и объем работы. Диссертация состоит из введения, пяти разделов и заключения. Основной текст изложен на 141 странице, содержит 58 рисунков, 21 таблицу, список литературы из 177 наименований.
Похожие диссертации на Разработка и исследование формализованных представлений и семантических схем предложений текстов научно-технического стиля для повышения эффективности информационного поиска
-
-
-
-
-
-