Введение к работе
Актуальность темы. На современном этапе развития науки и техники все чаще возникают междисциплинарные проблемы, и для их решения привлекается большое число специалистов из различных областей. Это обуславливает потребность развития новых методов работы с сложными системами и системами большой размерности.
При разработке компьютерной дедуктивной системы синтеза и исследования описаний сложных явлений, выявилась необходимость разработки нового модуля автоматизированного анализа отчетов пользователя, позволяющего автоматически извлекать знания из систем большой размерности (СБР).
Исследования проблемы извлечения знаний из больших баз данных сосредоточены на развитии новых алгоритмов или усовершенствовании скорости или точности существующих: концепция Фаяда, нечеткие DM, концепция Рейнартса.
Современные программные продукты, предназначенные для извлечения знаний, не подходят для решения вопросов, требующих привлечения большого числа узких специалистов. В первую очередь это вызвано сложностью в их освоении; требованиями к предварительной подготовке данных и большим количеством нерелевантных результатов. Практическая значимость подходов к решению проблем извлечения знаний, необходимость использования новых методов извлечения информации обуславливают актуальность данного диссертационного исследования.
В диссертационной работе показаны основные методы автоматизированного извлечения знаний из систем большой размерности.
Объектом исследования являются системы большой размерности.
Предметом исследования является математическое обеспечение
извлечения знаний из исследовательских отчетов на естественном языке.
Цели и задачи исследования
Целью данной работы является исследование и разработка моделей, методов и программных средств автоматизированного извлечения знаний из печатных исследовательских отчетов для системы большой размерности (МАЛО). Для достижения указанной цели в работе решаются следующие задачи:
разработать требования к инструментам извлечения знаний из систем большой размерности;
разработать средства автоматизированного извлечения знаний из естественно-языковых отчетов;
провести экспериментальную апробацию предложенных алгоритмов и разработанных программных решений для системы большой размерности.
Основными теоретическими результатами работы, выносимыми на защиту и определяющими научную новизну работы, являются:
-
Методика анализа естественно-языковых печатных отчетов, включает в себя: автоматизированный выбор синонимов, идентификацию системы (анализ наличия системы в отчетах) и реконструкцию системы (анализ зависимостей между элементами системы), использование матрицы значений на неполных информационных системах из отчетов (с целью упрощения систем).
-
Впервые был предложен алгоритм анализа естественно-языковых отчетов, который применяется для извлечения знаний в том числе и на неполных наборах данных.
-
Модуль автоматизированного анализа естественно-языковых печатных исследовательских отчетов системы большой размерности, созданный на основе предложенной методики. Он позволяет получить упрощенную модель системы (если таковая содержится в отчетах), выявить структурные связи между элементами системы и обнаружить
менее важные (наиболее слабо связанные с другими) элементы, упростить систему.
Практическая значимость подтверждается возможностью построения упрощенной модели представления знаний, содержащихся в исследовательских отчетах. На примере показано:
как проводить анализ наличия системы знаний (идентификацию системы);
как делать анализ взаимосвязей внутри системы (реконструкцию системы);
как производить упрощение системы за счет сокращения наиболее слабо влияющих на поведение системы элементов (редукцию признаков).
Научная значимость результатов исследования заключается в совершенствовании методов обработки экспериментальных естественноязыковых данных с целью выявления параметрически инвариантных связей между ними на основе методов системологии.
Спроектированный модуль позволяет:
-
Выявлять подсистемы знаний из естественно-языковых печатных отчетов исследователей, проанализировать возможность объединения их в обобщенную систему и объединять их в систему.
-
На основе знаний из подсистем выявлять взаимосвязи между компонентами объединенной системы.
-
Проводить редукцию признаков в случае неполной системы (в случае если известны не все значения параметров системы).
Благодаря использованию системного подхода, созданный модуль универсален, т.е. его можно использовать для анализа целого ряда системных задач в разных областях знаний (биологии, экологии, медицине, и т.д.), где используются системы больших размерностей.
Апробация работы. Основные научные выводы и результаты работы докладывались на следующих конференциях: «Научно-техническая конференция МИРЭА» 56, 57 и 58 и Международной научно-технической
конференции Intermatic-2009. Материалы работы были опубликованы в 8-й печатных работах (тезисы и материалы международных и российских конференций). Три статьи опубликованы в журналах, рекомендованных ВАК. Имеется 2 акта внедрения результатов исследования в работу компании ООО "Форинтранс" и в работу кафедры МОВС МИРЭА.
Структура и объем работы: Диссертация, объемом в 119 страниц, состоит из введения, трех глав, заключения, списка использованной литературы из 129 наименований, двух приложений.