Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Метод автоматизированной генерации правил синтаксического анализа проектной документации Дроздов, Вячеслав Вадимович

Метод автоматизированной генерации правил синтаксического анализа проектной документации
<
Метод автоматизированной генерации правил синтаксического анализа проектной документации Метод автоматизированной генерации правил синтаксического анализа проектной документации Метод автоматизированной генерации правил синтаксического анализа проектной документации Метод автоматизированной генерации правил синтаксического анализа проектной документации Метод автоматизированной генерации правил синтаксического анализа проектной документации
>

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Дроздов, Вячеслав Вадимович. Метод автоматизированной генерации правил синтаксического анализа проектной документации : диссертация ... кандидата технических наук : 05.13.12 / Дроздов Вячеслав Вадимович; [Место защиты: Моск. гос. ин-т электроники и математики].- Москва, 2010.- 123 с.: ил. РГБ ОД, 61 11-5/1336

Введение к работе

Актуальность темы. В ходе своего существования крупные предприятия формируют большой архив, содержащий в себе различного рода документацию, связанную с их функционированием. К подобным документам относятся не только результаты официального документооборота (приказы, распоряжения и пр.), но и техническая документация по выполняемым и выполненным проектам: технические отчеты, проектная документация, планы и так далее. В последнее время довольно широкое распространение получили системы ILM (Information Lifecycle Management) и PDM (Product Data Management). ILM охватывает все процессы управления размещением, хранением, распределением, миграцией, архивированием и удалением данных в инфраструктуре предприятия. Задачей ШУТ является хранение документов, и обеспечение оптимального времени доступа к ним со стороны пользователя и его систем.

PDM - это технология управления данными об изделии, которая позволяет решить две проблемы, возникающие при разработке и поддержке жизненного цикла наукоемкой промышленной продукции: управление данными об изделии и управление информационными процессами жизненного цикла изделия, создающими и использующими эти данные.

Чертеж, Конструкторекая спецификация изделия

Модель продукта

Конструкция Технология

Техпроцесс, нормы раскола материалов,

НОРМЬІ ЕРЄМЄНИ

Справочники

конструкторской номенклатуры

Конструкторский состзв изделия

Управление документооборотом

Конструкторская Технологическ. документация документация

Справочник материалов

Нормы расхода материалов

Техпроцессы,

маршруты

Планирование, управление произв.

Номенклатура Спецификация Маршрут
Список отступлений от норм РЦ

Рис. 1. Общая схема интеграции CAD/CAM, PDMu ERP систем

Данные об изделии представляют собой всю информацию, созданную в течение жизненного цикла. Они включают в себя состав и структуру изделия, технические задания, геометрические параметры, чертежи, планы

проектирования и производства, спецификации, нормативные документы, программы для станков с числовым программным управлением, результаты анализа, эксплуатационные данные и многое другое. Поскольку при их создании все чаще используются компьютерные средства, то поиск ответа на вопросы: «Существуют ли необходимые данные?», «Где они находятся?», «Являются ли они актуальными?» - не всегда представляется тривиальным.

Большая часть информации о начальном и конечном этапе проектирования и создания изделия содержится в текстовом виде, поэтому качество ответов на эти вопросы напрямую зависит от качества обработки текстов на естественном языке.

Одним из наиболее сложных при обработке текста, как с вычислительной точки зрения, так и с точки зрения разработчиков, является этап синтаксического анализа текста. Синтаксическим анализом называется процесс структурирования линейной репрезентации в соответствии с заданной грамматикой. Этап работы с синтаксисом играет важную роль в задаче моделирования и понимания естественных языков.

В ходе синтаксического анализа решаются следующие основные задачи: определение типов словосочетаний и предложений; рассмотрение видов синтаксической связи; соединение простых предложений в сложные.

Можно выделить два основных направления развития технологии синтаксического анализа: традиционная технология, основанная на применении грамматик (алгоритмов), и технология, основанная на взаимоотношениях слов. Обе технологии имеют свои плюсы и минусы.

Грамматические модели, в отличие от моделей, основанных на взаимоотношениях слов, требуют большего внимания при построении, и их автоматическое обучение представляется крайне затруднительным. Несмотря на то, что методы на основе грамматик используют заведомо неполные своды правил, они показывают результаты, не уступающие в эффективности самым современным подходам, основанным на взаимоотношениях слов. При этом одной из основных причин, сдерживающих развитие систем, использующих грамматический синтаксический анализ, является сложность в сопровождении грамматики, в частности, добавление новых правил. В этих условиях задача создания системы автоматизированной генерации правил для грамматических

моделей приобретает особую актуальность.

Цель работы и задачи исследования. Целью диссертационной работы является разработка метода автоматизированной генерации правил для системы, использующей синтаксический анализ на основе правил. Успешное решение этой задачи ускорит процесс создания правил для синтаксического анализа проектной документации и сделает его экономически более эффективным.

В данной работе рассматриваются различные методы синтаксического анализа, их достоинства и недостатки, с целью показать актуальность создания метода автоматизированной генерации правил. Основные усилия были направлены на разработку метода, позволяющего производить генерацию правил в автоматизированном режиме и допускающего эффективную программную реализацию на современных персональных компьютерах.

Для достижения поставленной цели необходимо решить следующие задачи.

Проанализировать возможность использования деревьев

синтаксического подчинения в качестве источника априорной информации для создания новых правил.

Разработать формат деревьев синтаксического подчинения, пригодный для программной реализации метода автоматизированной генерации правил, на основе деревьев синтаксического подчинения А.В.Гладкого.

Проанализировать возможность использования журнала синтаксического разбора предложения для задачи поиска неразобранной части предложения и для поиска предложения, которое можно разобрать имеющимися в базе правилами.

Разработать алгоритм поиска неразобранной части предложения. То есть такой минимальной части (или частей) предложения, убрав которую, можно будет разобрать предложение, имеющимися в базе правилами.

Разработать алгоритм поиска максимального фрагмента неразобранного предложения, который удается разобрать имеющимися в базе правилами.

Разработать алгоритм генерации новых правил с использованием деревьев синтаксического подчинения и журнала разбора.

Разработать метод, позволяющий в автоматизированном режиме

создавать правила синтаксического анализа проектной документации.

Методы исследования. При решении поставленных задач использовались основные понятия теории компиляторов, компьютерной лингвистики, методы анализа текстов на естественных языках, основные положения дискретной математики и, в частности, теории графов, алгоритмы и методы обработки данных, методы объектно-ориентированного программирования и разработки интеллектуальных систем.

Научная новизна результатов работы. Основным сдерживающим фактором для развития систем синтаксического анализа на основе правил является очень большая трудоемкость при добавлении новых правил. Необходимое количество правил, описывающих синтаксический анализ, исчисляется сотнями. Для их составления требуется долгий труд профессиональных лингвистов, сопоставимый и даже превосходящий по сложности программирование системы интерпретации подобных правил. При этом возникают те же сложности: необходимость контроля версий, отладки, поддержки. Существующих известных методов обучения систем синтаксического анализа на основе правил крайне мало. Вероятно, самый известный среди них, метод генетических алгоритмов, заслуживает серьезного рассмотрения, но и он к практическому применению не готов.

Автором разработаны метод и алгоритмы, позволившие решить поставленные в диссертационной работе задачи по созданию автоматизированной системы генерации правил для грамматического синтаксического анализа с использованием деревьев подчинения и журнала разбора. Разработанный метод позволяет создавать по введенному дереву подчинения именно те правила, которые нужны для успешного синтаксического разбора неразобранного предложения, существенно увеличивая скорость создания новых правил, так как от лингвиста требуется построение дерева синтаксического подчинения предложения вместо ручного редактирования базы правил. Деятельность лингвиста смещается в сторону контроля над правильностью формирования новых правил, их размещением в грамматике, группировкой и согласованием.

Практическая ценность результатов. Предложено новое техническое решение, позволяющее в автоматизированном режиме создавать правила для синтаксического анализа и синтеза текстов на русском языке, которое ускоряет

процесс генерации правил и делает его экономически более эффективным. Внедрение программного обеспечения позволяет быстро настраивать существующую систему синтаксического анализа документации под предметную область и стилистику заказчика.

Автором самостоятельно спроектирована и реализована подсистема генерации новых правил для системы машинного перевода «Кросслейтор», разрабатываемой в ИПМ им. М.В. Келдыша. Проведенные испытания показали эффективность применения предложенных решений.

Достоверность научных положений и выводов подтверждается:

корректностью использования математического аппарата и методов испытаний;

апробацией и публикациями основных результатов исследований;

результатами внедрения разработанного метода и рекомендаций в практику.

Реализация и внедрение результатов. Алгоритмы и методы, описанные в данной работе, реализованы автором в компьютерной программе. Программа создавалась как с целью апробации и совершенствования разрабатываемых методов и алгоритмов, так и с целью практического использования в машинном переводчике «Кросслейтор», разрабатываемом в ИПМ им. М.В. Келдыша РАН, и при выполнении гос. контракта П-261 в рамках ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009-2013 гг., заключенного между Министерством образования и науки и МИЭМ.

Апробация работы и публикации. Основные положения диссертационной работы докладывались и обсуждались на следующих конференциях и семинарах:

«Ежегодная научно-техническая конференция студентов, аспирантов и молодых специалистов МИЭМ», МИЭМ, 19 февраля - 29 февраля 2008.

«Ежегодная научно-техническая конференция студентов, аспирантов и молодых специалистов МИЭМ», МИЭМ, 24 февраля - 05 марта 2009.

«Еоризонты прикладной лингвистики и лингвистических технологий», Мегалинг 2009, Украина, Киев, 20- 27 сентября 2009.

«Ежегодная научно-техническая конференция студентов, аспирантов и молодых специалистов МИЭМ», МИЭМ, 17 февраля - 01 марта 2010.

«Новые информационные технологии в автоматизированных системах»,
МИЭМ, 25 марта 2010 года.

Основное содержание диссертационной работы и ее результатов отражено в следующих научных и научно-технических работах автора: Всего автором опубликовано 8 научных работ из них 1 в журнале из перечня ВАК. На защиту выносятся следующие основные положения:

Метод, позволяющий в автоматизированном режиме генерировать правила синтаксического анализа проектной документации.

Алгоритм поиска неразобранной части предложения. То есть такой

минимальной части (или частей) предложения, убрав которую, можно будет разобрать предложение, имеющимися в базе правилами.

Алгоритм поиска максимального фрагмента неразобранного

предложения, которое удается разобрать имеющимися в базе правилами.

Алгоритм генерации новых правил с использованием деревьев

синтаксического подчинения и журнала разбора. Структура работы. Работа состоит из введения, четырех глав с выводами, заключения, списка использованной литературы и приложения. Основная часть работы изложена на 117 страницах машинописного текста, содержит 1 таблицу и 61 рисунок. Список литературы включает 100 наименований.

Похожие диссертации на Метод автоматизированной генерации правил синтаксического анализа проектной документации