Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Разработка и исследование формализованных представлений и семантических схем предложений текстов научно-технического стиля для повышения эффективности информационного поиска Вишняков, Ренат Юрьевич

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Вишняков, Ренат Юрьевич. Разработка и исследование формализованных представлений и семантических схем предложений текстов научно-технического стиля для повышения эффективности информационного поиска : диссертация ... кандидата технических наук : 05.13.17 / Вишняков Ренат Юрьевич; [Место защиты: Юж. федер. ун-т].- Таганрог, 2012.- 157 с.: ил. РГБ ОД, 61 12-5/3051

Введение к работе

Актуальность проблемы.

Глобальная сеть Интернет и компьютерные технологии сформировали целостное и быстро растущее информационное пространство, порождающее новые потребности в обработке, представлении и поиске информации. Сегодня все публикуемые бумажные документы оцифровываются и размещаются в электронных хранилищах различного назначения, активно используются поисковые машины и сервисы. На научных форумах активно обсуждается обработка текстовой информации и тесно связанные с ней информационный поиск и классификация документов, автореферирование, автоаннотирование и пр. Отмечается, что в информационном поиске критерий релевантности, основанный на встречаемости слов, при различении документов одинаковой терминологии, не дает приемлемого качества выдач, а решения предлагается искать в выделении семантической составляющей документов.

Отсутствие хороших решений в обработке семантики текстов связаны с многозначностью ее выражения в естественных языках, а также различными стилистическими приемами их оформления. Например, литературным текстам присущ художественный стиль со свойственной ему метафоричностью и образностью, научно- технической стиль отличает предельно точное выражение смысла в форме правдоподобного рассуждения. Однако семантика текстов всегда имеет грамматическое оформление и через него распознается.

Настоящая диссертационная работа выполнена в рамках данной проблематики и посвящена разработке и исследованию формализованных представлений и семантических схем предложений текстов научно-технического стиля и их использованию для повышения эффективности информационного поиска.

Объект исследований. Особенности текстов документов научно-технического стиля, формализованные представления и семантические схемы предложений, эффективность информационного поиска.

Цели работы. Разработка и исследование новых формализованных представлений и семантических схем предложений текстов научно-технического стиля и их использование для повышения эффективности информационного поиска

Задачи работы:

  1. Провести анализ естественного языка и его грамматики, особенностей научно-технического стиля, существующих методов формализации представления предложений. Определить функционал смысловыразительности и проанализировать лингвистическое обеспечение различных видов информационного поиска.

  2. Разработать и исследовать формализованное словно-зависимое представление предложения и его атрибуты: цепочки зависимостей, характеристические слов- ные множества, размеченные степени отношения непосредственного подчинения, размеченное транзитивное замыкание отношения непосредственного подчинения и алгоритмы восстановления цепочек зависимостей.

  3. Разработать и исследовать формализованное словно-шкальное представление предложения и его атрибуты: словную шкалу, ее разбиения на непересекающиеся классы, нумерацию разбиений, мощностные оценки, системы разбиений. Сконструировать алгоритмы построения систем разбиений и нотации их представления.

  4. Определить и исследовать понятия контекста, контекстной связки, дерева контекстной связки, операции контекстного уточнения смысла, сконструировать обратную польскую запись функционала смысловыразительности, процедуры ее вычисления и представления в виде семантических схем.

  5. Разработать критерий сравнения фрагментов текстов на близость, процедуры формирования ВЫДАЧ, а также провести экспериментальное сравнение семантического информационного поиска на основе сравнения семантических схем предложений и базового, учитывающего вхождение слов запроса в тексты.

Методы исследования. Для решения диссертационных задач использованы теория отношений, теория графов, комбинаторика; теория формальных языков и грамматик, информационного поиска, элементы теории нечеткой математики.

Научная новизна работы. Разработаны новые:

    1. Формализованные словно-зависимое и словно-шкальное представления предложений текстов научно-технического стиля, алгоритмы их построения и обработки, позволяющие выделять и анализировать фрагменты предложений на смысловую целостность.

    2. Функционал смысловыразительности, его представление в нотации обратной польской записи, процедуры ее получения и вычисления, позволяющие строить семантические схемы предложений, используемые в информационном поиске для сравнения предложений или их фрагментов на близость.

    3. Критерий сравнения и система решающих правил вычисления близости текстовых фрагментов, процедуры включения документов в ВЫДАЧУ, составляющие основу семантического информационного поиска.

    Основные положения, выносимые на защиту. На защиту выносятся следующие научные положения и результаты диссертационного исследования:

        1. Формализованное словно-зависимое представление предложения и его атрибуты: цепочки зависимостей, характеристические словные множества, размеченные степени отношения непосредственного подчинения, размеченное транзитивное замыкание отношения непосредственного подчинения и алгоритмы восстановления цепочек зависимостей

        2. Формализованное словно-шкальное представление предложения и его атрибуты: словная шкала, разбиения на непересекающиеся классы, нумерация разбиений, мощностные оценки, система разбиений, ее нотации, правила и алгоритмы конструирования.

        3. Функционал смысловыразительности и его представление в нотации обратной польской записи, способы ее получения и вычисления, семантическая схема предложения.

        4. Критерий сравнения и система решающих правил вычисления близости текстовых фрагментов и процедуры включения документов в ВЫДАЧУ.

        Теоретическая и практическая значимость результатов исследования.

        1. Проведен анализ естественного языка, грамматики, особенностей научно- технического стиля, существующих формальных представлений предложений. Определен функционал смысловыразительности, исследована смысловыразительность лингвистического обеспечения различных видов информационного поиска.

              1. Разработано и исследовано формализованное словно-зависимое представление предложения и его атрибуты: цепочки зависимостей, характеристические словные множества, размеченные степени отношения непосредственного подчинения, размеченное транзитивное замыкание отношения непосредственного подчинения и алгоритмы восстановления цепочек зависимостей.

              2. Разработано и исследовано формализованное словно-шкальное представление предложения и его атрибуты: словная шкала, разбиения на непересекающиеся классы, нумерация разбиений, мощностные оценки, системы разбиений и их нотации. Построены правила и алгоритмы конструирования систем разбиений.

              3. Определены и исследованы понятия контекста, контекстной связки, дерева контекстной связки, операции контекстного уточнения смысла и сконструирован функционал смысловыразительности в нотации обратной польской записи, процедуры вычисления и представления его виде семантических схем.

              4. Разработаны критерий сравнения и система решающих правил вычисления близости текстовых фрагментов и процедуры включения документов в ВЫДАЧУ, а также проведено экспериментальное сравнение семантического информационного поиска на основе сравнения семантических схем предложений и базового, учитывающего вхождение слов запроса в тексты.

              Достоверность результатов. Подтверждается использованием теории отношений, теория графов, комбинаторики; нумераций, теория формальных грамматик и языков, информационного поиска, элементов нечеткой математики, а также результатами экспериментов.

              Использование результатов работы. Результаты диссертационного исследования используются в ряде научных работ, выполненных в международной лаборатории ELDIC, и в учебном процессе, что подтверждается актами о внедрении результатов исследования госбюджетных НИР и учебном процессе магистерской программы "Интеллектуальные системы" по направлению 230100 "Информатика и вычислительная техника" факультета автоматики и вычислительной техники Таганрогского технологического института Южного федерального университета.

              Апробация результатов работы. Основные результаты работы неоднократно докладывались и обсуждались на конференциях и семинарах различного уровня:

              1. Всероссийской научной конференции молодых ученых, аспирантов и студентов «Информационные технологии, системный анализ и управление», (Таганрог, 2006, 2008, 2009, 2010, 2011 гг.);

              2. Международной конференции по системам искусственного интеллекта при поддержке IEEE AIS'06, AIS'08, AIS'11 (Дивноморское, 2006,2008,2011гг.);

              3. Всероссийской научной конференции студентов и аспирантов «Техническая кибернетика, радиоэлектроника и системы управления», (Таганрог, 2006 г.).

              4. Всероссийской научной школе-семинар молодых ученых аспирантов и студентов «Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки (Таганрог, 2007, 2008, 2009, 2010 гг.).

              5. Всероссийской конференции студентов, аспирантов и молодых ученых «Технологии Microsoft в теории и практике программирования» (Таганрог, 2008).

              6. Всероссийской научной школе-семинаре молодых ученых аспирантов и студентов «Семантическая интерпретация и интеллектуальная обработка текстов, их приложения в информационном поиске, хранении и обработке документов в электронных архивах и библиотеках» (Таганрог, 2011, 2012 гг.).

              Публикации. По материалам диссертации автором опубликовано 24 печатных работ, в том числе четыре статьи в изданиях из списка, рекомендованного ВАК, в которых отражены основные результаты диссертационного исследования.

              Структура и объем работы. Диссертация состоит из введения, пяти разделов и заключения. Основной текст изложен на 141 странице, содержит 58 рисунков, 21 таблицу, список литературы из 177 наименований.

              Похожие диссертации на Разработка и исследование формализованных представлений и семантических схем предложений текстов научно-технического стиля для повышения эффективности информационного поиска