Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Методы автоматической предобработки текста проектной документации с использованием информации о сочетаемости слов Литвинов, Максим Игоревич

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Литвинов, Максим Игоревич. Методы автоматической предобработки текста проектной документации с использованием информации о сочетаемости слов : диссертация ... кандидата технических наук : 05.13.12 / Литвинов Максим Игоревич; [Место защиты: Моск. гос. ин-т электроники и математики].- Москва, 2012.- 120 с.: ил. РГБ ОД, 61 12-5/2497

Введение к работе

Актуальность темы.

На различных этапах разработки изделий, особенно в процессе проектирования, предприятия накапливают большие о&ьемы документации, которая может быть: техническим заданием, эскизом проекта, чертежами, протоколами информационного обмена, отчетами, приказами, служебными записками и даже электронной перепиской. Эффективным и действенным средством контроля информационных потоков на предприятии выступают следующие технологии: ILM (Information Lifecycle Management) и PLM (Product Lifecycle Management). Под этими технологиями понимается комплекс аппаратных и программных средств, обеспечивающих доступ к различным информационным ресурсам в процессе разработки продукта и выпуска сопутствующей документации по нему.

Жизненный цикл продукта можно описать следующими пятью
основными этапами: разработка продукта; начало реализации продукта
потребителям; совершенствование продукта; прекращение

совершенствования продукта, но с продолжением его реализации конечному потребителю; прекращение производства продукта.


ф» -

;...

Product Bevetepmtmi

Life-cycle '

Рисунок l Общий вид системы, описывающей жизненный цикл продукта.

В задачи PLM и ILM систем входит анализ содержимого документов и обеспечение доступа к ним со стороны внешних программ, не касаясь напрямую того вопроса, какими средствами эти документы были созданы. Такие технологии позволяют отказаться от бумажных хранилищ текстовых документов. Развитие информационных технологий позволяет обеспечивать качественно новый подход по обработке электронной документации. В настоящее время производится интеллектуализация обработки текстовой информации среди таких задач: выделение требований к изделию; поиск прецедентных документов; контроль структурной и информационной целостности документации; автогеиерация документации; автоматический подбор компонентов изделия. Перечисленный круг задач далеко неполный и, до недавнего времени, решался лишь с помощью человека, без какой-либо автоматизации.

Методы по обработке проектной документации проходят через этап морфологического анализа и предсинтаксического, на котором происходит устранение морфологической неоднозначности в тексте на естественном языке. Имеющиеся современные методы по снятию омонимии требует существенных затрат на составление эталонных корпусов, по которым будет происходит обучение систем. Зачастую корпуса свободно не доступны широкому кругу разработчиков и исследователей, и не охватывают узкоспециализированных предметных областей, для которых не выгодно производить разметку эталонных дорожек.

Целью диссертационной работы является разработка методов, позволяющих снизить затраты на разработку систем автоматической предобработки проектной документации за счёт использования более доступных средств, которые обеспечат качество на уровне уже имеющихся методов.

Для достижения цели данной диссертационной работы были поставлены и решены следующие задачи:

Анализ существующих методов устранения морфологической неоднозначности;

Разработка метода автоматического построения базы сочетаемости слов по неразмеченным базам проектной документации;

Разработка комплексного метода устранения морфологической неоднозначности с использованием статистики совместного употребления слов и вероятностных правил, содержащих морфологические параметры;

Разработка структуры программы и её реализация на языке программирования C++.

Методы исследования. При решении поставленных задач использовалась теоретическая база вычислительной лингвистики, теория вероятностей и математическая статистика, машинное обучение, методы принятия решений, алгоритмы и методы обработки данных, объектно-ориентированное программирование. Основные научные результаты, выносимые на защиту.

  1. Метод автоматического сбора статистики совместного употребления слов на неразмеченных базах проектных документов произвольной предметной области;

  2. Комплексный метод устранения морфологической неоднозначности, включающий в себя применение статистики совместного употребления слов и вероятностных правил, содержащих морфологические параметры.

При решении задач, поставленных в диссертационной работе, получены следующие новые научные результаты:

метод автоматического сбора статистики совместного употребления слов на неразмеченных базах проектных документов соответствующей предметной области;

комбинированный метод устранения морфологической

неоднозначности, включающий в себя применение статистики совместного словоупотребления и вероятностных правил, содержащих морфологические параметры.

Практическая ценность результатов. Предложено новое программное решение, позволяющее в полностью автоматическом режиме обучаться на неразмеченных корпусах любой направленности, эффективно снимать морфологическую неоднозначность, даже в случае отсутствия статистики употребления слов, а также строить частичные и поверхностные синтаксические связи между словами в предложении. Данный подход позволяет свести к минимуму участие человека при наполнении лингвистических баз данных и, тем самым, значительно сократить экономические затраты на разработку систем автоматической обработки текстов.

Полученные в рамках данной диссертационной работы алгоритмы вошли в состав машинного переводчика «Кросслейтор», который разрабатывается в ИПМ им. М.В. Келдыша РАН и при выполнении гос. контракта П-261 в рамках ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009-2013 гг., заключенного между Министерством образования и науки и МИЭМ. Работа была поддержана грантом РФФИ № 10-01-00800. Проведенные вычислительные эксперименты показали практическую эффективность предложенных подходов.

Реализация и внедрение результатов. Описанные в данной работе алгоритмы и методы реализованы автором в виде компьютерной подпрограммы, что позволяет подтверждать теоретические исследования в области моделирования естественного языка, а также использовать в машинном переводчике «Кросслейтор», разрабатываемом в ИПМ им. М.В. Келдыша РАН.

Апробация работы и публикации. Основные положения диссертационной работы докладывались и обсуждались на следующих конференциях и семинарах:

«Ежегодная научно-техническая конференция студентов,
аспирантов и молодых специалистов МИЭМ», Москва,
МИЭМ, 17 февраля - 01 марта 2010.

«Новые информационные технологии в автоматизированных системах», МИЭМ, 25 марта 2010 года.

Компьютерная лингвистика и интеллектуальные технологии ежегодная Международная конференция «Диалог» (2010).

ХП-ая Национальная конференция по искусственному интеллекту с международным участием.

«Ежегодная научно-техническая конференция студентов, аспирантов и молодых специалистов МИЭМ», Москва, МИЭМ, 17 февраля - 01 марта 2011.

«Автоматическая обработка естественного языка», СпбГУ, Санкт-Петербург, 26-ое марта 2011.

Основное содержание диссертационной работы и ее результатов отражено в 6 научных работах, из них 2 в журнале из перечня ВАК. Объем и структура диссертации. Диссертационная работа содержит введение, четыре главы с выводами, заключение, список литературы и приложения, включающие в себя акты внедрения и результаты расчетов. Основная часть работы изложена на 121 страницах машинописного текста, содержит 18 таблиц и 8 рисунков. Список литературы включает 103 наименования.

Похожие диссертации на Методы автоматической предобработки текста проектной документации с использованием информации о сочетаемости слов