Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Логико-лингвистический интегратор русскоязычных текстов для информационной системы в строительстве Марлов Александр Владимирович

Логико-лингвистический интегратор русскоязычных текстов для информационной системы в строительстве
<
Логико-лингвистический интегратор русскоязычных текстов для информационной системы в строительстве Логико-лингвистический интегратор русскоязычных текстов для информационной системы в строительстве Логико-лингвистический интегратор русскоязычных текстов для информационной системы в строительстве Логико-лингвистический интегратор русскоязычных текстов для информационной системы в строительстве Логико-лингвистический интегратор русскоязычных текстов для информационной системы в строительстве Логико-лингвистический интегратор русскоязычных текстов для информационной системы в строительстве Логико-лингвистический интегратор русскоязычных текстов для информационной системы в строительстве Логико-лингвистический интегратор русскоязычных текстов для информационной системы в строительстве Логико-лингвистический интегратор русскоязычных текстов для информационной системы в строительстве
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Марлов Александр Владимирович. Логико-лингвистический интегратор русскоязычных текстов для информационной системы в строительстве : Дис. ... канд. техн. наук : 05.13.01 : Москва, Воронеж, 2004 166 c. РГБ ОД, 61:04-5/4140

Содержание к диссертации

Введение

ГЛАВА 1 Анализ существующего методического обеспечения и технических средств обработки текстовой информации 11

1.1 Классификация автоматизированных систем обработки текстовой информации 11

1.2 Анализ лингвистических подходов к формализации языка 14

1.3 Анализ моделей обработки текстовой информации 19

1.3.1 Классификация моделей текстовой информации 19

1.4 Анализ методов автоматической обработки (классификации) текстовой информации 20

1.5 Анализ существующих информационных систем автоматизированного анализа текстовой информации 23

1.6 Выбор показателей эффективности извлечения дополнительной информации из множества семантически связанных текстов. Постановка научной задачи 24

1.7 Общая схема решения задачи. Частные задачи исследований 29

Выводы 35

ГЛАВА 2 Формализация и семантический анализ текстовой информации 36

2.1 Формализация текстовой информации 36

2.1.1 Матрица лексических связей текста 38

2.1.2 Текст как ориентированный граф 39

2.1.3 Представление объектов (ситуаций) предметной области в виде семантической сети 42

2.1.4 Описание объектов (ситуаций) предметной области в виде фреймов 46

2.2 Семантический анализ текстовой информации 52

2.2.1 Табличный метод анализа текстовой информации 52

2.2.2 Методы анализа текста с семантической ориентацией 52

2.2.3 Классификация текстов на основе их семантического анализа... 55

2.2.3.1 Ассоциативный метод порождения текста в задаче классификации 55

2.2.3.2 Метод проведения тематического анализа текста с выявлением сверхфразовой структуры 59

Выводы 63

ГЛАВА 3 Разработка специального математического обеспечения фрагментарного логико-лингвистического интегратора русскоязычных текстов 66

3.1 Алгоритм графематической обработки текста 69

3.2 Алгоритм морфологического анализа текста 73

3.3 Алгоритм фрагментационной обработки текста 78

3.4 Алгоритм синтаксической обработки текста 79

3.5 Алгоритм объединения результатов фрагментационной и синтаксической обработки текста 85

3.6 Модель семантической обработки текста 86

3.7 Алгоритм формирования терминологического портрета текста 95

3.8 Алгоритм рубрицирования текста 97

3.9 Алгоритм извлечения дополнительных данных 103

Выводы 106

ГЛАВА 4 Разработка автоматизированного рабочего места анализа русскоязычных текстов в строительстве с использованием фрагментарного логико-лингвистического интегратора 109

4.1. Основные результаты разработки математического обеспечения автоматизированного рабочего места 110

4.2 Логическая структура и особенности функционирования автоматизированного рабочего места 111

4.3 Характеристика используемого общего программного обеспечения.. 116

4.4 Порядок работы оператора на автоматизированном рабочем месте... 119

4.5 Алгоритм проведения исследований основных характеристик автоматизированного рабочего места 127

4.6 Результаты апробации автоматизированного рабочего места 130

Выводы 136

Заключение 138

Литература 140

Введение к работе

Актуальность темы. Значительный рост объёмов текстовой информации, используемой в строительстве обуславливает повышенный интерес к разработке систем, позволяющих автоматизировать процесс её (информации) обработки и анализа. Автоматизированные системы, решающие подобные задачи относятся к классу интеллектуальных. Их анализ позволил выявить следующие особенности: наработки в области проектирования подобных систем в строительстве отсутствуют; из-за высокой стоимости программного обеспечения и сложности требуемой лингвистической технологии, их разработка в других предметных областях носит фрагментарный характер и ограничивается простыми и дешёвыми решениями в ущерб качеству и эффективности; из-за особенностей русского языка аналогичные иностранные системы, разработанные для других предметных областей удовлетворительно работающие с английскими текстами (как наиболее развитые), не позволяют обеспечить требуемый уровень качества при работе с текстами на русском языке.

Таким образом, актуальность темы диссертационной работы продиктована, с одной стороны, необходимостью автоматизации процессов обработки русскоязычной текстовой информации в строительстве и, с другой стороны, отсутствием в настоящее время математического и программного обеспечения, позволяющего такую обработку реализовать в пределах заданного времени с приемлемым качеством.

Диссертационная работа выполнена в рамках научно-технической программы «Разработка методов проектирования и создания новых информационно-управляющих и телекоммуникационных систем» Министерства образования.

Цель и задачи исследования. Целью диссертационной работы является разработка математического и программного обеспечения информационной системы фрагментарного логико-лингвистического интегрирования русскоязычных текстов в строительстве.

Для достижения поставленной цели необходимо решить следующие основные задачи:

Проанализировать существующее методическое обеспечение и технические средства обработки текстовой информации в строительстве или других предметных областях и выбрать среди них наиболее эффективные по точности и оперативности в интересах их использования в качестве базы для дальнейшего совершенствования.

Разработать модель формализации текстовой информации в строительстве.

Разработать систему моделей и алгоритмов, обеспечивающих извлечение дополнительной информации из семантически взаимосвязанных текстов в строительстве.

Разработать автоматизированное рабочее место извлечения дополнительной информации из семантически взаимосвязанных текстов применительно к области строительства.

Методы исследования в данной работе основаны на теории математического моделирования, системного анализа и нейронных сетей, булевой алгебре, теориях распознавания образов, графов, лингвистики и многоуровневых иерархических систем, а также теории проектирования и разработки автоматизированных информационных систем.

Научная новизна. В работе получены следующие результаты, характеризующиеся научной новизной: - модель семантического анализа русскоязычного текста в области строительства, основанная на его (текста) фрагментарном представлении в виде фрейм - сценариев, позволяющая реализовать параллельный способ об- работки информации с оперированием, как отдельными предложениями, так и законченными в смысловом отношении, фрагментами; полиномиальная нейросетевая модель классификации семантически однородных фрагментов русскоязычного текста в области строительства, основанная на расширенном перечне классифицирующих признаков, учитывающих ассоциативные связи между предложениями и модифицированной технологии моделирования, обеспечивающая более компактное представление формализуемого текста и более точное определение смысла, как отдельных его фрагментов, так и в целом; комплекс взаимосвязанных моделей и алгоритмов обработки русскоязычных текстов в строительстве, позволяющий повысить достоверность руб-рицирования и дополнительно извлекаемой информации из семантически взаимосвязанной текстовой информации; - элементы специального программного обеспечения, реализующего процедуры формализации текстовой информации и комплекс моделей и ал горитмов её обработки, обеспечивающие повышение оперативности извле чения дополнительной информации из семантически взаимосвязанных тек стов применительно к области строительства.

Практическая ценность работы. Предложенные в работе модели семантического анализа и классификации русскоязычных текстов, а также алгоритмы их обработки, могут быть включены в состав специального математического и программного обеспечения некоторых автоматизированных интеллектуальных систем обработки текстовых данных в строительстве, различающихся как степенью сложности, так и характером решаемых задач.

Разработанное автоматизированное рабочее место, на конкретных примерах, показало высокую эффективность обработки русскоязычных текстов, что подтверждено результатами численного исследования и актами внедрения.

Реализация и внедрение результатов работы. Результаты проведенных исследований были использованы в интересах автоматизации деятельно- сти Департамента имущества города Москвы, при выполнении плановых научно-исследовательских работ в Государственном научно-исследовательском институте проблем технической защиты информации (г. Воронеж), институте точной механики и вычислительной техники им. С.А. Лебедева (г. Москва).

Апробация работы. Основные результаты исследований докладывались и обсуждались на следующих конференциях и семинарах:

IX, X, XI Всесоюзных научно-практических конференциях «Проблемы информационной безопасности в системе высшей школы» (Москва) в 2002...2004 гг.; XI Всероссийской научно-практической конференции «Проблемы разработки автоматизированных информационно-аналитических систем мониторинга» (Москва, 2004); V Международной научно-практической конференции «Информационная безопасность» (Таганрог, 2003);

IV Международной научно-практической конференции «Методы и технические средства обеспечения безопасности информации» (Санкт-Петербург, 2003); VII научной сессии МИФИ (Москва, 2004).

Публикации* Основные результаты диссертации опубликованы в 13 печатных работах, из них 2 работы без соавторов. В работах, опубликованных в соавторстве, лично соискателем предложены: в [70] автором разработана модель семантического анализа русскоязычных текстов (лично автором выполнено 3 с); в [67] автором предложен подход к обучению тематических рубрик (лично автором выполнено 2 е.); в [66] автором разработана модель классификации русскоязычных текстов, основанная на полиномиальной нейронной сети (лично автором выполнено 4 е.); в [64] автор разработал алгоритм фрагментарной обработки сетевого графа применительно к системе телефонной связи (лично автором выполнено 1 с); в [69,71] автором предложена система взаимосвязанных моделей и алгоритмов обработки текстовой информации применительно к сейсмическому мониторингу (лично автором выполнено 3 с. и 2 с. соответственно); в [13] автор разработал алгоритм извлечения дополнительной информации из семантически однородных фрагментов русскоязычного текста в строительстве (лично автором выполнено 3 с); в [16,14] автором описан комплекс взаимосвязанных моделей и алгоритмов рубрицирования русскоязычных текстов; в [15] автором разработана модель семантического анализа русскоязычных текстов основанная на фрейм -сценариях (лично автором выполнено 2 с); в [68] автором обоснована целесообразность использования в качестве идейной основы для разработки информационно-аналитической системы в строительстве категоризации лексики (лично автором выполнено 2 е.).

Структура и объем работы. Диссертация состоит из введения, четырёх глав, заключения, списка литературы из 141 наименования и семи приложений. Работа изложена на 152 страницах, включая 39 рисунков и 8 таблиц.

В первой главе дан обзор и приведён анализ существующего методического обеспечения и технических средств обработки текстовой информации в строительстве, показавший, что в качестве идейной теоретической основы решения поставленной задачи целесообразно использовать категоризацию лексики, впервые изложенную в подходах Ньютона и Лейбница, развитую в лямбда-исчислении, семантическом и нейронном подходах, обеспечивающую построение более адекватных моделей представления текстовой информации, по сравнению с другими подходами.

На основе проведенного анализа сделаны выводы о предпочтительности использования для представления текстовой информации семантической модели, основанной на смысловых отношениях между словами, обеспечивающую более адекватную передачу смысла текста, по сравнению с другими моделями и о перспективности применения для автоматической обработки текстовой информации метода семантического анализа текста как более достоверного и практически реализуемого, по сравнению с другими методами.

Сформулирована математическая постановка основной решаемой задачи. Предложена схема её решения и перечень частных задач исследований.

Вторая глава посвящена разработке модели формализации текстовой информации в строительстве. Для формализации текстовой информации предложена модель, представляющая симбиоз семантической сети и фреймов. Семантическая сеть обеспечивает представление текста как совокупности связанных между собой понятий (слов и словосочетаний), несущих основную смысловую нагрузку и наиболее часто встречающихся в тексте. При этом в качестве формализма текстовой семантики используется матрица лексических связей, характеризующая частоту появления тех или иных лексем (минимально значимых единиц смыслового содержания) заданного текста. Использование фреймов для представления предметной области обеспечивает более жёсткое, чем при подходе, основанном на семантической сети, выделение объектов и ситуаций проблемной среды и их свойств. Практическая реализация предложенного подхода позволяет при обработке текстовой информации (рубрикации, аннотировании) оперировать не только словами (словосочетаниями), но и отдельными блоками информации, тем самым, повышая её (обработки) оперативность. На примере газетных новостей в области строительства показана реализуемость предложенного подхода.

В третьей главе представлено описание системы взаимосвязанных моделей и алгоритмов классификации (рубрицирования) и извлечения дополнительных данных из семантически взаимосвязанной текстовой информации в области строительства, включающей: модель семантической обработки текста и алгоритмы: графематической обработки, морфологического анализа, фрагментации и синтаксической обработки, формирования терминологического портрета, рубрицирования и извлечения дополнительных данных. Приведены аналитические выражения расчёта весов терминов и принадлежности исследуемого текста заданной рубрике. Разработана нейросетевая модель классификации однородных русскоязычных текстов в строительстве, основанная на расширенном перечне классифицирующих признаков, учитываю- щих ассоциативные связи между предложениями и описан процесс её (модели) построения.

В четвёртой главе приведено описание результатов разработки автоматизированного рабочего места анализа русскоязычных текстов в строительстве, специальное математическое и программное обеспечение которого базируется на системе моделей и алгоритмов, предложенных в главе 3. Приведена логическая структура и особенности функционирования автоматизированного рабочего места. Представлены характеристики используемого общего программного обеспечения, а также технических и программных средств автоматизированного рабочего места. Описан порядок работы оператора на автоматизированном рабочем месте. Приведено описание алгоритма проведения численных исследований, разработанного в интересах оценки эффективности автоматизированного рабочего места. Представлены результаты практической апробации автоматизированного рабочего места на конкретных примерах.

В заключении сформулированы основные результаты, полученные в ходе решения задач поставленных в диссертационной работе.

Классификация автоматизированных систем обработки текстовой информации

Обобщённая классификационная схема автоматизированных систем обработки текстовой информации приведена на рисунке 1.

При проведении классификации использованы следующие признаки: тип информации, поступающей на вход СОТИ; тип обработки информации; способы изменения состояния и поведения СОТИ при обработке информации; способность к обучению СОТИ.

Информация, поступающая на вход системы может быть структурированной и неструктурированной (слабо структурированной) [17]. Структурированная информация представляет собой текстовые данные среди которых выделены значимые элементы, установлены смысловые взаимосвязи между фрагментами, определены раскрываемые темы и т.д. Неструктурированная информация представляет собой текстовые данные с выделенными простейшими элементами (заголовок, автор и т.п.). Она может обрабатываться ручным способом либо с использованием неструктурированных СОТИ. Примером неструктурированной информации являются сообщения информационных агенств, размещаемые в Интернете и др. В зависимости от вида входной текстовой информации СОТИ подразделяются на структурированные и неструктурированные.

По периоду актуальности обрабатываемой информации, СОТИ разделяются на статические и динамические. Статические СОТИ предназначены для обработки массивов текстовых данных, не изменяющихся с течением времени, таких как сборники законов, справочники, подборки документов по определённой тематике и др. Динамические СОТИ осуществляют обработку массивов текстовых данных, изменяющихся во времени, например сообщений средств массовой информации, периодических журналов и др. Динамические СОТИ более сложные, поскольку при поступлении новой информации требуют перенастройки. В свою очередь динамические СОТИ в зависимости от способности изменения своего состояния и поведения классифицируются на адаптивные и неадаптивные. Адаптивные СОТИ изменяют свои состояние и поведение (параметры, структуру, алгоритм функционирования и др.) в зависимости от изменения условий внешней среды путём накопления и использования информации о ней [17].

По способности к обучению, то есть к накоплению новых знаний при обращении к учителю [17] или обобщения наблюдаемых фактов, СОТИ делятся на обучающиеся и детерминированные. Первые способны к обучению, а вторые -нет.

Кроме вышеперечисленных классификационных признаков целесообразно классифицировать СОТИ в соответствии с решаемыми ими задачами. Описание назначения существующих СОТИ данных классов с примерами атрибутов конкретных систем приведено в приложении А.

Обобщая полученные результаты классификации СОТИ, следует отметить, что, во-первых, одни системы могут решать сразу несколько перечисленных выше задач, другие только одну конкретную, во-вторых, разные системы могут использоваться совместно в виде единого комплекса, либо включаться в состав более сложных систем обработки текстовой информации.

В каждой СОТИ из вышеперечисленных классов осуществляется формализация языка, эволюция развития которой основывалась на следующих основных лингвистических подходах.

Впервые, попытка выделить универсальное начало в естественных языках была предпринята в работе И. Ньютона "Об универсальных языках" [76]. Он считал, что общность языков обусловлена их предназначением для обозначения субстанций (духов или тел), которые у всех народов одинаковы. Носителем слов, обозначающих отношения (предикаты) является субъект предиката. Каждый корень универсального языка должен относиться к какой-то одной субстанции (например, должна быть специальная буква для обозначения видов людей, ангелов, домов и т.д.). Однако полный перечень субстанций не приводится.

Достоинством работы является впервые предложенная оценочная шкала использования грамматических префиксов и аффиксов, типа плохой-хороший, большой-маленький и т.д. Современная интерпретация шкал в Московской лингвистической школе беднее Ньютоновской: в ней используются только две степени (полюса), только по трем шкалам (Bon-AntiBon, Magn-AntiMagn, Ver-Antiver).

Кроме того, Ньютоном проработаны глубинные падежи (отношения, связывающие участника ситуации с ситуацией). Однако, в работе приведен один единственный пример с глаголом "рисовать" (с субъектом рисования-художником), что не позволяет достоверно спроектировать ньютоновские падежи на какую-либо современную систему.

Представление объектов (ситуаций) предметной области в виде семантической сети

Семантическая сеть представляет собой совокупность связанных между собой понятий (слов и словосочетаний), несущих основную смысловую нагрузку и наиболее часто, встречающихся в тексте. Она, как и граф, состоит из вершин и рёбер.

Имена, приписываемые вершинам и рёбрам семантической сети, совпадают с именами соответствующих сущностей и отношений используемыми в естественном языке. Ребро и связываемые им вершины образуют подграф семантической сети, несущий минимальную информацию-факт наличия связи определённого типа между соответствующими объектами.

На рисунках 2.3 и 2.4 приведены примеры семантических сетей [80], отображающих отношение «имеет супруга» (рисунок 2.3) и агрегатный объект «БРАК» (рисунок 2.4).

На данных рисунках двойной пунктирной стрелкой представлено отношение «является видом», тройной - «является представителем», перечёркнутой - «является частью», двойной сплошной чёрной стрелкой - нефундаментальные отношения, обычными ребрами - связи между объектами, определяемыми этими отношениями. Данные рисунки иллюстрируют возможность гибкого представления элементов предметной области.

Более сложные подграфы семантической сети отображают структуру текстовой информации большего объема. Пример фрагмента более сложной семантической сети представлен на рисунке 2.5 [54].

Данный фрагмент сети описывает объекты с общими названиями «ТАНК» и «САМОЛЕТ». Принадлежность объектов к структуре «ТАНК» определяется отношением «ЯВЛЯЕТСЯ». Этим отношением связаны объекты «Т-90» и «Т-80», т.е. таким образом в сети фиксируется тот факт, что Т-90 и Т-80 это танки. Структура «ТАНК», в свою очередь, является объектом, который с помощью связи типа «ЯВЛЯЕТСЯ» к структуре «ТРАНСПОРТНОЕ СРЕДСТВО» и к структуре «БОЕВАЯ ЕДИНИЦА». Атрибуты объекта, обозначающие его способность к определённому действию, связаны с объектом отношением «УМЕЕТ». Принадлежность одного объекта другому обозначается отношением «ИМЕЕТ». Так объект «ДВИГАТЕЛЬ» является атрибутом структуры «ТАНК» и структуры «САМОЛЁТ». Фрагмент семантической сети Необходимо отметить тот факт, что при построении данного фрагмента семантической сети, подразумевалось наследование, выражаемое отношением «ЯВЛЯЕТСЯ». Например, если объект «ИСТРЕБИТЕЛЬ» связан со структурой «САМОЛЁТ» отношением «ЯВЛЯЕТСЯ», та в свою очередь тем же отношением со структурой «ТРАНСПОРТНОЕ СРЕДСТВО», то подразумевается, что выполнено свойство односторонней транзитивности, т.е. подразумевается, что «ИСТРЕБИТЕЛЬ» связан отношением «ЯВЛЯЕТСЯ» с «ТРАНСПОРТНОЕ СРЕДСТВО».

Пример, приведенный на рисунке 2.5, является упрощённым фрагментом семантической сети, и может быть проработан на любую глубину, вплоть до значения атрибута «ШАГ РЕЗЬБЫ» объекта «ГАЙКА». Слова, используемые при обозначении объектов в семантической сети, могут быть сколь угодно раз продублированы в других названиях. Например, слово «ОРЁЛ» будет объектом, связанным со структурой «ПТИЦА» отношением «ЯВЛЯЕТСЯ», и в то же время оно входит в наименование объекта «ЧЁРНЫЙ ОРЁЛ», связанного с со структурой «ТАНК» через объект «Т-90», через отношения «ПСЕВДОНИМ» и «ЯВЛЯЕТСЯ». Фрейм можно рассматривать как фрагмент семантической сети, предназначенный для описания объекта (ситуации) предметной области со всей совокупностью присущих ему свойств.

Более строгое определение фрейма формулируется [104] как іструктура представления информации, которая при заполнении её элементов-слотов определёнными значениями превращается в описание конкретного факта, события, процесса. Основная идея фреймового подхода [104,55] к представлению предметной области - более жёсткое, чем при подходе основанном на семантической сети, вьщеление объектов и ситуаций проблемной среды и их свойств, т.е. всё, что касается объекта или ситуации и важно с позиций понимания смысла, не "размывается по сети", а представляется во фрейме. С точки зрения уровня обобщения информации выделяются три основных типа фреймов: обобщённые, конкретные и агрегатные фреймы [80]. При их формировании важную роль играют механизмы представления знаний и в первую очередь процедурные знания. Представляя фреймом обобщённый объект предметной области, можно ассоциировать процедуры с некоторыми свойствами объекта. При создании конкретного фрейма, отображающего объект, который является представителем обобщённого, можно не указывать конкретных значений для соответствующих свойств. Со свойством объекта может также ассоциироваться процедура, проверяющая корректность указанного значения свойства при создании соответствующего конкретного фрейма. Поскольку фрейм может представлять значительную часть общей системы знаний, появляется возможность связывания с ним знаний, полезных для операции сопоставления. В частности, это могут быть ассоциированные с фреймом как с целым процедуры, обеспечивающие необходимые для сопоставления преобразования. Такая возможность применения ассоциированных процедур является специфической для фреймового подхода.

Следует отметить, что, как правило, объекты предметных областей представляются в виде множества иерархически связанных фреймов. В подобных множествах фреймы называются терминалами. Необходимость в иерархиях становится более явной на примере фреймоподобного представления комнаты (рисунок 2.6) [107].

Алгоритм графематической обработки текста

Специальное математическое обеспечение фрагментарного логико-лингвистического интегратора русскоязычных текстов в строительстве представляет собой систему взаимосвязанных по "входу-выходу" моделей и алгоритмов, классификации (рубрицирования) и извлечения дополнительных данных из семантически-взаимосвязанной текстовой информации, структурная схема которой (системы) приведена на рисунке 3.1.

Исходный текст поступает на вход алгоритма графематической обработки. Данный алгоритм предназначен для разбивки текста на абзацы и предложения, а также выделения аббревиатур, личных имён с инициалами, цифровой и символьной информации (даты, формулы и др.). Преобразованный в соответствии с данным алгоритмом текст в табличной форме поступает на вход алгоритма морфологического анализа текста.

Алгоритм морфологического анализа текста обеспечивает разбор слов в предложениях по частям речи и выделение специфических форм, получающих их статус, в зависимости от окончаний и структуры слов. Текст, прошедший морфологический анализ поступает на вход алгоритма фрагментационной обработки текста.

Алгоритм фрагментационной обработки текста используется в интересах выделения в предложениях неразрывных синтаксических единств (фрагментов), больших или равных словосочетанию (синтаксической группе) и их иерархическому упорядочиванию. Применение данного алгоритма позволяет повысить эффективность проведения синтаксической обработки текста. Алгоритм синтаксического анализа обеспечивает построение синтаксических структур предложений, учитывающих данные морфологического анализа и синтаксические правила объединения слов и словосочетаний. Синтаксическая структура отражает связи, существующие между словами предложения.

С целью сохранения смысловой целостности текста, необходимой для семантической обработки текста, иерархически упорядоченные фрагменты и синтаксические структуры предложений поступают на вход алгоритма объединения результатов фрагментационной и синтаксической обработки текста. Алгоритм объединения результатов фрагментационной и синтаксической обработки текста предназначен для построения дерева зависимостей, узлами которого являются отдельные слова или так называемые "жёсткие" группы-наборы слов, связанные синтаксическими отношениями. Дерево зависимостей используется в качестве основы для построения семантического графа текста, составляющего суть модели семантической обработки текста.

Модель семантической обработки текста обеспечивает формирование семантической сети, представляющей собой совокупность взаимосвязанных понятий (слов и словосочетаний) несущих основную смысловую нагрузку и наиболее часто встречающихся в тексте. Исходный текст, преобразованный в семантическую сеть, поступает на вход алгоритма формирования терминологического портрета-текста.

Алгоритм формирования терминологического портрета текста позволяет построить массив его статистических наиболее значимых параметров в виде вектора проранжированных весов информационных признаков. Терминологический портрет текста поступает на вход алгоритма рубрицирования текста. Назначение алгоритма рубрицирования текста заключается в отнесении терминологического портрета к соответствующей рубрике. Поэтому на вход данного алгоритма поступают также терминологические портреты рубрик. В случае принадлежности исследуемого текста данной рубрике, последний поступает на вход алгоритма извлечения дополнительных данных. Алгоритм извлечения дополнительных данных реализует сравнение содержания аннотированного текста с содержанием текущей информации и} в случае новизны её вывод. Содержание текущей информации выделяется из терминологического портрета рубрики.

Детальное описание вышеприведенных алгоритмов и моделей приводится в последующих подразделах данной главы диссертационной работы.

Логическая структура и особенности функционирования автоматизированного рабочего места

При отличной от нуля длине семантической связи существуют общие информационные признаки между двумя текстами. Причём пары информационных признаков отличаются по весу.

Общие информационные признаки, а также сами тела текстов подаются на вход текстового компилятора, который последовательно извлекает из текстов предложения, содержащие верхнюю часть таблицы информационных признаков (верхние узлы семантической сети). Таким образом, на выходе текстового компилятора формируется текст, содержащий до этого этапа разрозненную информацию об упоминающихся в обоих текстах объектах. При этом текст не выверяется стилистически, тем не менее, он даёт прямое представление о возможности извлечения дополнительной информации на основе обнаруженной семантической взаимосвязи. Извлечение такой информации из текстов может происходить как в проекции на отдельные рубрики, так и на группу рубрик, отобранных экспертом. В последнем случае в список информационных признаков будут входить только элементы терминологических портретов тематических рубрик, отобранных экспертом.

При извлечении дополнительной информации по указанному выше методу, возможно построение запросов в соответствии с алгеброй множеств. Запрос представляет собой выражение вида:

С помощью подобных запросов возможно исключение семантически малоинформативного мусора и извлечение только той информацию, которая семантически связана с интересующими объектами. 1. Специальное математическое обеспечение фрагментарного логико лингвистического интегратора русскоязычных текстов в строительстве пред ставляет собой систему взаимосвязанных по "входу-выходу" моделей и алго ритмов, классификации (рубрицирования) и извлечения дополнительных дан ных из семантически-взаимосвязанной текстовой информации. При этом перечень алгоритмов и моделей в интеграторе реализуют следующие виды обработки текста: графематическую, морфологическую, фрагментационную, синтаксическую, семантическую. Кроме того, интегратор формирует терминологический портрет текста или рубрики, рубрицирует тексты и извлекает из них дополнительные данные. 2. В результате графематической обработки текста, основанной на методе сравнения текущих данных с эталонными, содержащихся в специализированных словарях, адаптированных к области строительства, формируются структурные портреты предложений в виде последовательностей чередующихся лексем и, дескрипторов, а также выделяются из текста аббревиатуры, личные имена с инициалами, цифровая и символьная информация (даты, формулы и др.). 3. Морфологическая обработка текста, результатом реализации которой является текст, представленный в виде цепочки основ или лемм с соответствующей морфологической информацией, основана на комбинированном методе анализа и словоформ объектов (слов) предложений нивелирующего недостатки декларативного и процедурного методов. Реализация данного метода потребовала разработки специального вспомогательного канонического словаря, содержащего различные словоформы с соответствующим комплексом морфологической информации и грамматического справочника в области строительства, содержащего набор из более 1200 правил, используемых для определения различных словоформ (морфологических форм). 4. Синтаксический анализ текста применительно к области строительства базируется на смешанном представлении синтаксических структур предложений в виде системы составляющих и дерева зависимостей. При этом система составляющих описывает словосочетания в явном виде, а деревья зависимостей представляют направленные связи между словами. В результате, сформированные структуры предложений содержат не только выделенные группы слов, но и связность как слов внутри групп, так и групп между собой. Кроме того, при построении структур выделяются различные типы грамматических групп, устраняется омонимия и реализуется упорядочение предложений по покрытию. Технологическая реализация синтаксического анализа предполагает использование соответствующих правил из базы знаний адаптивной к области строительства. 5. Семантический анализ текста в строительстве представляет в строительстве собой сложный многоэтапный процесс построения его семантической сети, содержащей совокупность узлов (понятий), наиболее часто встречающихся в тексте и несущих основную смысловую нагрузку, а также бинарных отношений между ними. В интересах проведения семантического анализа текста, разработан оригинальный метод, основанный на фрагментарном представлении текста в виде фрейм-сценариев, как совокупности объединенных в единое целое по смыслу, групп узлов семантической сети.

При построении семантических сетей, в ряде промежуточных этапов (построение множества словарных интерпретаций узлов, временных групп, узлов в кавычках, узлов типа "друг друга", устойчивых словосочетаний, лексических функций параметров и др.) использованы современные методы анализа русскоязычных текстов, аппробированные в действующих системах (проекты "ДИАЛИНГ" и "ФРАП").

Похожие диссертации на Логико-лингвистический интегратор русскоязычных текстов для информационной системы в строительстве