Введение к работе
Актуальность темы диссертации. К середине XX века непрерывный рост объемов вырабатываемой человечеством информации сделал крайне актуальными задачи поиска информации в огромных массивах данных, ее выбора и упорядочения по тем или иным признакам. К этим задачам относятся классификация, кластеризация, составление картотек, словарей и энциклопедий и др. Появление вычислительной техники способствовало в 1960-е гг. созданию различных теорий в области лингвистики и представления знаний (Ю.Д. Апресян, М. Мински, Д.А. Поспелов, Р. Шенк, И. Уилкс, В.А. Звягинцев, Т. Виноград, А.К. Жолковский, Ч. Филмор и др.), развитию методов автоматизированного анализа текста, проектированию и разработке систем, реализующих их.
В последние десятилетия появилось множество систем автоматизированного анализа текста, предназначенных для решения отдельных задач или небольшого набора задач. Большая часть этих систем является экспериментальными и предназначены для работы с ограниченными объемами информации. При этом изменение алгоритма решения или расширение функционала системы пользователем практически невозможно.
Это определяет актуальность как теоретических работ по созданию новых подходов к построению систем автоматизированного анализа текста, открытых для расширения и модификации пользователями, так и практических разработок пользовательских инструментов, реализующих в рамках этих систем функции обработки текста.
Цель диссертационной работы. Целью диссертационной работы является создание новой системы автоматизированного анализа текста, предоставляющей пользователю возможность гибкой настройки на решаемую задачу путем выбора оптимального набора инструментов и создания новых инструментов.
Для достижения поставленной цели, в работе необходимо решить следующие задачи:
-
Выделение круга задач обработки текста для решения средствами новой системы автоматизированного анализа текста.
-
Анализ существующих методов автоматизированной обработки текста.
-
Анализ существующих систем автоматизированной обработки текста, решающих названные выше задачи.
-
Определение структуры и функционала создаваемой системы автоматизированной обработки текста.
-
Разработка ядра системы автоматизированной обработки текста.
-
Разработка инструментальных средств анализа текста.
-
Разработка метода оценки времени обработки текста и методики его прогнозирования.
-
Экспериментальная проверка разработанной системы автоматизированной обработки текста и инструментальных средств анализа текста.
Предмет исследования. Предметом исследования в диссертационной работе являются методы анализа естественно-языковых текстов на русском языке и реализующие их автоматизированные системы.
Методы исследования. Методы исследования заимствованы из следующих областей:
-
компьютерная и структурная лингвистика;
-
математический анализ;
-
теория вероятностей и математическая статистика;
-
теория множеств;
-
базы данных;
-
языки программирования высокого уровня.
Научная новизна. Научную новизну диссертационной работы составляют следующие результаты, полученные в ходе решения поставленных задач:
-
структура открытой системы автоматизированной обработки текста;
-
инструментальные средства обработки текстов и анализа полученных результатов;
-
методика прогнозирования времени обработки текста.
Практическая ценность работы. Практическую ценность работы составляют следующие результаты:
-
базовые компоненты системы автоматизированного анализа текста;
-
инструментальные средства построения алгоритмов анализа текстов.
Положения, выносимые на защиту. На защиту выносятся следующие основные положения:
-
концептуальная модель и структурная схема открытой системы автоматизированной обработки текста;
-
принципы организации инструментальных средств анализа результатов обработки текста;
-
методика оценки времени обработки текста.
Апробация результатов исследований. Основные результаты, полученные в ходе выполнения диссертационной работы, докладывались на международных молодёжных научных конференциях ХХХП Гагаринские чтения (Москва, 2006 г.), ХХХШ Гагаринские чтения (Москва, 2007 г.), XXXIV Гагаринские чтения (Москва, 2008 г.), ХХХУІ Гагаринские чтения (Москва, 2010 г.), ХХХУІІ Гагаринские чтения (Москва, 2011 г.), ХХХУІІІ Гагаринские чтения (Москва, 2012 г.), XI Санкт-Петербургской международной конференции «Региональная информатика - 2008» (Санкт-Петербург, 2008 г.), ХІІ Санкт-Петербургской международной конференции «Региональная информатика - 2010» (Санкт- Петербург, 2010 г.), УІІІ Международной научно-методической конференции «Информатика: проблемы, методология, технологии» (Воронеж, 2008 г.), ІХ Международной научно-методической конференции «Информатика: проблемы, методология, технологии» (Воронеж, 2009 г.), Х Международной научно-методической конференции «Информатика: проблемы, методология, технологии» (Воронеж, 2010 г.), ХІ Международной научно-методической конференции «Информатика: проблемы, методология, технологии» (Воронеж, 2011 г.), Всероссийских научно-технических конференциях: «Новые материалы и технологии - 2006» (Москва, 2006 г.), «Новые материалы и технологии - 2008» (Москва, 2008 г.), а также докладывались и обсуждались на научных семинарах кафедры «Проектирование вычислительных комплексов» «МАТИ» - РГТУ имени К.Э. Циолковского и Института системного программирования РАН.
Публикации. По теме диссертации опубликованы шестнадцать печатных работ, в том числе две статьи, из них одна статья в журнале, входящем в Перечень ведущих изданий, рекомендованных ВАК.
Структура и объем работы. Работа состоит из введения, четырех глав, заключения, списка литературы и 5 приложений. Работа изложена на 123 страницах и включает 20 рисунков, 6 таблиц, список литературы из 123 наименований, а также приложения на 13 страницах. Общий объём работы - 136 страниц.