Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Структурированная семантическая модель контента текстов научно-теоретического характера Ярных Юлия Анатольевна

Структурированная семантическая модель контента текстов научно-теоретического характера
<
Структурированная семантическая модель контента текстов научно-теоретического характера Структурированная семантическая модель контента текстов научно-теоретического характера Структурированная семантическая модель контента текстов научно-теоретического характера Структурированная семантическая модель контента текстов научно-теоретического характера Структурированная семантическая модель контента текстов научно-теоретического характера Структурированная семантическая модель контента текстов научно-теоретического характера Структурированная семантическая модель контента текстов научно-теоретического характера Структурированная семантическая модель контента текстов научно-теоретического характера Структурированная семантическая модель контента текстов научно-теоретического характера Структурированная семантическая модель контента текстов научно-теоретического характера
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Ярных Юлия Анатольевна. Структурированная семантическая модель контента текстов научно-теоретического характера : диссертация ... кандидата технических наук : 05.25.05.- Москва, 2005.- 179 с.: ил. РГБ ОД, 61 05-5/3904

Содержание к диссертации

Введение

ГЛАВА 1. Анализ методов и технологий систематизации контента 11

1.1. Систематизация контента в работе с текстовой информацией 11

1.2. Существующие подходы к систематизации контента 20

1.3. Задача систематизации на основе структурированной семантической модели (ССМ) контента текстов научно-теоретического характера в учебной деятельности 39

Выводы по главе 1 54

ГЛАВА 2. Структурированная семантическая модель 55

2.1. Использование семантических микроструктур для построения моделей предметной области 55

2.2. Семантические микроструктуры и порождаемые ими новые типы отношений в семантических сетях. Базисный набор отношении 65

2.3, Иерархические отношения в семантических сетях 87

2.4, Межаспектные связи 99

2.5. Формальное описание структурированной семантической модели ... 112

Выводы по главе 2 119

ГЛАВА 3. Автоматизация процессов систематизации контента и решения задач учебно-методического характера на основе структурированной семантической модели 121

3.1. Основные задачи инструментальных средств автоматизации процесса систематизации контента и требования предъявляемые к ним 121

3.2. Обзор инструментальных средств автоматизации процесса систематизации контента 130

3.3. Использование аппарата структурированной семантической модели при решении задач учебно-методического характера 150

Выводы по главе 3 160

Заключение 162

Список использованных источников 164

Приложения 174

Введение к работе

Актуальность темы исследования. В настоящее время тексты на естественном языке являются основным способом хранения и передачи знаний. В связи с усиливающейся тенденцией к хранению текстов в цифровом виде и с быстрым ростом объема текстовой информации актуальной является проблема автоматизации обработки подобной информации, в частности проблема машинного анализа текста.

Системы, автоматизирующие обработку текста с целью выявления его смысла и структурирования информационного содержимого, крайне немногочисленны, что объясняется в первую очередь сложностью объекта моделирования, разнородностью используемых методов и т.д. [26].

Существуют различные методы структуризации текста, такие как: гипертекст, семантические сети, методы массированной онтологии концептуальных значений, частотно-вероятностные и логико-статистические модели и методы, метод рубрицирования, метод автоматического нелингвистического анализа неструктурированной текстовой информации, реализованный на основе нейросетевых алгоритмов и т.д.

Существующие методы структуризации текста позволяют выделить структуру модели предметной области по одному из аспектов описания и рассмотрения систем, но не дают механизма структурирования информационного содержимого предметной области по нескольким аспектам рассмотрения и описания систем.

Следовательно, с целью автоматизации процессов обработки информации, требуется разработка эффективных подходов к структуризации контента (информационное содержимое документа (текста), отражающего предметную область), основанного на выделении определенного класса взаимосвязанных аспектных описаний, каждое из которых имеет собственную структуру - систематизация контента.

Среди актуальных задач современных информационных технологий особое место занимают проблемы разработки эффективных подходов к систематизации контента, которые затрагивают многие сферы человече-

4 ской жизнедеятельности, работа в которых основывается на информационных ресурсах. К таким областям можно отнести: СМИ, Интернет, библиотечные системы, законодательно-правовые документы, образовательные системы и т.д.

В настоящее время все большее распространение получают полнотекстовые базы данных. Крупные образовательные центры организуют в Интернете для студентов и сотрудников базы научных статей, авторефератов, многие организации предоставляют доступ к ресурсам электронных библиотек, оргкомитеты конференций публикуют тысячи полных текстов докладов и т.п. Таким образом, в последние годы количество текстовой информации в электронном виде возросло настолько, что возникает угроза ее обесценивания в связи с трудностями поиска требуемых сведений среди множества доступных текстов.

Поэтому для структурирования информационного содержимого в сети Интернет, для обеспечения эффективных механизмов фильтрации, информационного поиска и навигации требуются механизмы систематизации, работающие с различными корпоративными приложениями, позволяющие анализировать любые данные — Web-страницы, документы Microsoft Word, файлы Adobe Acrobat, динамически генерируемый контент и т.д.

Проблема систематизации контента возникает и при работе с библиотечными ресурсами. В последнее время возрастают полнотекстовые базы данных, создаваемые библиотекой как часть электронного фонда библиотеки, возникает задача смыслового поиска и экспертного статистического анализа данных с целью предоставить пользователю возможность правильно ориентироваться в среде электронных фондов большого объема, а эксперту - возможность выделять подклассы текстов по заданной тематике. Наряду с этим, возникает необходимость использования лингвистического обеспечения с целью перевода содержания поступающих в информационно-поисковую систему текстов с естественного языка на информационно-поисковый язык для решения задач информационного по-

5 иска и структурирования информационного содержимого библиотечных

баз данных.

Все больше к вопросам систематизации контента обращаются и в законотворческой деятельности, с целью создания механизмов автоматизированного анализа и обработки текстов законопроектов.

В системах высшего звена организационного управления на основе технологий комплексной аналитической обработки разнородной информации, решают проблемы глубины обработки информации, достоверности получаемых результатов, своевременности и оперативности представления информации.

Задача систематизации контента остро встает и в сфере образования, при структурировании учебной информации при её компьютерном представлении, и связано это в первую очередь с тем, что характерной особенностью информационной культуры педагога в настоящий момент является необходимость осмысления большого объема информации, выраженной в различных видах, например, в виде временных диаграмм, логических функций, таблиц, электрических схем, алгоритмов функционирования и микропрограмм. Кроме того, при работе со средствами вычислительной техники имеет место множество разнообразных проявлений человеческих знаний о реальных объектах. Все это предполагает применение новых обучающих технологий, современных методов представления учебной информации, ее использование при логическом выводе.

Таким образом, любая деятельность, связанная с большими объемами информации, требует решения вопросов систематизации контента.

Актуальными остаются задачи определения методов и средств систематизации контента, разработка методики систематизации контента на основе анализа семантической сети и её использование для систематизации текстов научно-теоретического характера в учебной деятельности.

Возникает необходимость создания такого механизма систематизации контента на основе семантической сети, который бы позволял выделять более укрупненные единицы, создавать отдельные типовые блоки из

семантической сети (семантические микроструктуры), использовать принципы абстрагирования и укрупнения для семантической сети. Таким средством систематизации контента является структурированная семантическая модель - семантическая модель фрагмента предметной области, построенная на основе укрупненных семантических микроструктур.

Все это определяет актуальность темы диссертационного исследования — «Структурированная семантическая модель контента текстов научно-теоретического характера».

Степень разработанности проблемы.

Представляемое исследование основывается на работах российских и зарубежных ученых, которые условно можно поделить на три группы:

работы в области систематизации контента, основанные на различных методах и средствах систематизации и используемые в различных предметных областях, принадлежат Р. Абельсону, В.А. Ефремову, Е.В. Мячиной, Т.Н. Нельсону, Д.А. Поспелову, Й. Уилксу, С.А. Холодовой, Э. Черняку, Р. Шенку и др.

работы в области семантического моделирования, представляющего моделирование структуры данных, опираясь на смысл этих данных, принадлежат Т.Р. Груберу, Т.А. Гавриловой, Т.В. Левашовой, Г.С. Осипо-ву, М.П. Пашкину, А.В. Смирнову, В.Ф. Хорошевскому, Ю.И. Шемакину, Н.Г. Шилову и др.

работы, связанные с использованием механизмов систематизации контента в учебной деятельности, принадлежат С.А. Бешенкову, А,Г. Гей-ну, Р.С. Гиляревскому, Т.А. Кувалдиной, А.С. Лесневскому, Е.А. Ракити-ной, В.Ю. Строганову и др.

Менее разработанными остаются проблемы использования семантического моделирования как механизма систематизации контента для структурирования учебных дисциплин и решения задач учебно-методического характера в учебной деятельности.

Данное обстоятельство предопределило выбор темы, постановку цели и задач исследования.

Цель диссертационной работы заключается в разработке концепции систематизации контента и решении задач учебно-методического характера на основе построения структурированной семантической модели.

Объектом исследования является процесс систематизации контента текстов научно-теоретического характера, описывающих сложные активные системы.

Предметом исследования являются методы и средства систематизации контента текстов научно-теоретического характера, предполагающие использование её результатов в учебной деятельности.

В соответствии с выделенными целью, объектом и предметом исследования были поставлены следующие задачи исследования:

  1. Провести анализ существующих направлений автоматизации работы с текстовой информацией с целью формулировки обобщенной задачи систематизации контента, а также проанализировать существующие подходы к её решению с целью выделения требований к аппарату моделирования контента текстов научно-теоретического характера, используемых в учебной деятельности.

  2. Выделить в исследуемой предметной области устойчивые семантические микроструктуры, являющиеся инвариантами при описании сложных активных систем и порождаемые ими типы отношений.

  3. Путем сравнительного анализа предложенного и существующих наборов типов отношений в семантических сетях охарактеризовать степень их целостности и полноты.

  4. Выделить задачи учебно-методического характера, решаемые с помощью структурированной семантической модели, и дать рекомендации по их реализации; провести апробацию построения структурированной семантической модели и построения обучающе-тестирующего комплекса на его основе.

5. На основе сравнительного анализа существующих инструментальных средств автоматизированной обработки информации сформировать требования, предъявляемые к инструментальным средствам автоматизации процесса систематизации контента, и дать рекомендации по выбору программных средств, реализующих основные этапы этого процесса.

Теоретической и методологической базой диссертационного исследования послужили труды российских и зарубежных ученых в области компьютерной лингвистики, семантического моделирования, инженерии знаний, а также работы по искусственному интеллекту.

Методы исследования базируются на концептуальном моделировании, использовались методы инженерии знаний, методы и модели структуризации, методы теории графов для формального описания модели предметной области.

Научная новизна результатов исследования. Элементы научной новизны содержат все основные результаты диссертационного исследования:

Сформулирована обобщенная задача систематизации контента, сущностью которой является переход от вербальной формы представления информации к структурной форме на основе построения её архитектуры, учитывающей многоаспектность и иерархичность описания сложных систем.

Сформированы требования к аппарату моделирования контента текстов научно-теоретического характера в учебной деятельности, отвечающие свойствам полноты, целостности, доступности, простоты и др.

Выделены устойчивые семантические микроструктуры, являющиеся инвариантами при описании сложных активных систем и порождающие новые наборы типов отношений в семантических сетях.

Выделен новый набор типов отношений в семантических сетях; путем сравнительного анализа с существующими наборами установлена его целостность и полнота.

9 - Предложен способ построения модели предметной области на основе выделенных устойчивых семантических микроструктур.

Практическая ценность исследования заключается в построении структурированной семантической модели для фрагмента учебного пособия по информатике, разработке на основе семантических микроструктур обучающе-тестирующего комплекса по дисциплине информатика.

Диссертация состоит из введения, трех глав, заключения, списка используемой литературы, приложений.

Во введении обоснована актуальность темы, выделены объект и предмет исследования, сформулированы цели и задачи исследования, научная новизна и практическая ценность диссертационной работы.

В первой главе сформулированы определения понятий «систематизация контента», «структурированная семантическая модель», проведен анализ существующих направлений автоматизации работы с текстовой информацией, выделена обобщенная задача систематизации контента, выполнен анализ существующих подходов (методов и средств) к её решению. На основе анализа особенностей задач систематизации контента текстов научно-теоретического характера, решаемых в учебной деятельности, сформированы требования к аппарату моделирования контента текстов.

Во второй главе выделены устойчивые семантические микроструктуры, являющиеся инвариантами в различных классах предметных областей и порождающие новые наборы типов отношений в семантических сетях.

Путем сравнительного анализа предложенного и существующих наборов типов отношений установлена его целостность и полнота.

Предложено формальное описание структурированной семантической модели на основе понятийного аппарата теории графов, а также формальное описание основных операций, производимых над семантическими сетями в процессе построения структурированной семантической модели.

10 В третьей главе выделены задачи учебно-методического характера,

решение которых может быть основано на использовании структурированных семантических моделей, и предложены методы их решения на этой основе.

С целью автоматизации процесса решения задач учебно-методического характера, проанализированы существующие средства автоматизации процесса систематизации контента, сформированы требования, предъявляемые к ним, и даны рекомендации по выбору программных средств, реализующих основные этапы этого процесса.

В заключении подведены итоги выполненных исследований и перечислены основные научные и практические результаты полученные автором.

В списке литературы приводятся источники, использовавшиеся при анализе тематики исследования, а также публикации автора по проведенному научному исследованию.

Задача систематизации на основе структурированной семантической модели (ССМ) контента текстов научно-теоретического характера в учебной деятельности

Задача систематизации контента и построения понятийного аппарата для текстов научно-теоретического характера в учебной деятельности требует в настоящий момент новых подходов к её постановке и решению. Под текстами научно-теоретического характера будем понимать информационное содержимое учебников, учебных пособий, научных трудов, публикаций и т.д. Подходы к решению задачи систематизации контента для текстов научно-теоретического характера в точных и гуманитарных науках существенно отличаются и в тоже время имеют общую методологическую основу. Понятия, используемые в системно-социальных исследованиях, и понятия, используемые в сложных технических системах, одинаково требуют их структуризации и систематизации. В гуманитарных науках, в частности в социальных системах, рассматриваются информационные процессы, в которых выделяется субъект и объект деятельности, следовательно, социальные теории можно анализировать с позиции сложных активных систем. С целью определения основных механизмов и способов систематизации контента в гуманитарных науках, остановимся на рассмотрении понятийного аппарата как совокупности понятий, описывающих общее состояние, структуру, функционирование и типологию социальных систем, и сравним данный подход с подходами к построению системы понятий при изучении сложных технических систем, Попытки построения социальных научных теорий, систематизации понятийного аппарата в социальных системах в литературе предпринимались неоднократно [91]. Так, например, Дж. Тернер [70] к анализу проблем социологической теории и практики подходит с «академических» позиций, обращая основное внимание на рассмотрение и сопоставление различных социологических концепций и понятий. По его мнению, социальная теория должна обнаруживать четыре главных элемента: 1) понятия, 2) переменные, 3) утверждения и 4) формы [70].

Понятия у Тернера рассматриваются как основные строительные блоки теории. Б основном понятия обозначают или указывают на явления, и таким образом выделяют те особенности мира, которые в настоящий момент считаются важными. Понятия в науке обладают различной степенью абстрактности. Некоторые понятия относятся к конкретным явлениям в определенном месте и времени. Другие, более абстрактные, понятия указывают на явления, не связанные конкретным местом и временем. При построении теории абстрактные понятия играют решающую роль, ибо они переступают границы конкретных событий или ситуаций и указывают на общие свойства сходных событий и ситуаций. Абстрактным понятиям должен соответствовать ряд формулировок, известных как операциональные определения, представляющие собой наборы процедурных инструкций, указывающих исследователю, как выявить в реальном мире явления, обозначаемые абстрактным понятием.

В качестве переменных при построении теории Тернер рассматривает два общих типа понятий: 1) те, что просто помечают явления - ярлыки, и 2) те, что относятся к явлениям, различающимся по степени. Научная теория обычно пользуется понятиями, относящимися к переменным свойствам явлений-ярлыков.

Стержнем же всей теории Тернера являются понятия, систематически инкорпорированные в суждения, которые описывают «реальный мир». Он выделяет два вида теоретических суждений: 1) суждения существования, 2) суждения отношения. Суждения существования указывают, когда и где обнаруживаются в мире примеры определенного понятия. Суждения отношения сводят вместе понятия, определяющие переменные свойства феноменов, и помогают составить представление о том, как одна переменная может быть «вызвана» другой. Некоторые суждения отношения ограничиваются указанием на то, что изменения в одном из феноменов вызывают изменения в другом, - такие суждения называются ассоциативными. Подобные суждения лишь утверждают наличие корреляции между изменениями, но не указывают на каузальные отношения между ними. Каузальные утверждения, составляющие сердцевину теории, - одна совокупность переменных свойств, определенная одним понятием, вызывает появление других переменных свойств, определенных другим понятием. Каузальные утверждения бывают детерминистические и вероятностные [70].

В качестве предпочтительных форм теоретических суждений Тернер выделяет форму аксиоматическую и форму каузального процесса.

Форма построения теории на основе каузального процесса подобно аксиоматической теории, содержит как абстрактные, так и конкретные понятия, имеющие операциональные определения. Она также располагает набором суждений существования, устанавливающих сферу действия каузальных суждений. В отличие от аксиоматической теории, форма каузального процесса представляет собой ряд каузальных суждений, описывающих воздействие одной переменной на другую без установления строгого иерархического порядка суждений.

Семантические микроструктуры и порождаемые ими новые типы отношений в семантических сетях. Базисный набор отношении

При построении семантических сетей для предметной области одной из центральных задач является задача формирования базисного набора отношений, В данном параграфе рассматриваются существующие подходы к выделению классов (наборов) типов отношений в семантических сетях, обосновывается предложенное выделение новых типов отношений для рассматриваемой предметной области, производится сравнительный анализ существующих классификаций типов отношений в семантических сетях (далее - классификации).

Так как критерии сравнения классификаций в современной литературе не выделены, то сравнение будем проводить по свойствам «целостность» и «полнота».

Определим данные понятия. Под полнотой классификации будем понимать относительную характеристику достаточности набора отношений, позволяющего описать предметную область. Таким образом, сравнение классификаций по свойству полнота можно проводить исходя из соотношений имеющихся типов отношений или исходя из возможности описания предметной области набором отношений из предложенных классификаций.

Под внутренней целостностью набора отношений в работе будем понимать качественную характеристику набора отношений, определяемую: 1. Существованием некоторой метамодели, позволяющей выделить типы отношений, 2. Соответствием набора отношений используемых в предметной области типам отношений, определяемых метамоделью. Оценку внутренней целостности будем проводить по качественной шкале, содержащей следующие значения: 1. Низкая целостность (метамодель описания предметной области, позволяющая выделить типы отношений в семантических сетях для данной предметной области отсутствует). 2. Средняя целостность (метамодель описания предметной области, позволяющая выделить типы отношений в семантических сетях для данной предметной области существует, но описана неявно или чрезмерно (формально, без учета специфики предметной области)). 3. Высокая целостность (существует метамодель описания предметной области, позволяющая выделить типы отношений в семантических сетях для данной предметной области). Дадим краткий обзор анализируемых в работе существующих классификаций типов отношений в семантических сетях. Г.С. Осипов считает, что описание предметной области следует вести на общедоступном естественном языке. С этой целью достаточно использовать предложения естественного языка, позволяющие именовать объекты и формулировать утверждения о том, что они обладают некоторыми свойствами, либо о том, что конкретные объекты находятся в определенных отношениях [52]. Между различными объектами предметной области, свойствами объектов существуют всевозможные отношения, определяемые предметной областью. Под семантической связью Г.С. Осипов понимает отношение понятий в понятийной системе предметной области. Классификацию же связей в семантических сетях автор предлагает производить на основе в нелексических свойств семантических сетей исходя из утверждения, что деление на типы связей на основе лексических свойств (путем выделения предикатов, таких как «больше», «меньше», «равно», «иметь значение», «иметь свойство», «если ..., то ...» и т. д.) оказывается недостаточным для классификации. К внелексическим свойствам семантических сетей Г.С. Осипов относит симметричность, антисимметричность, рефлексивность и т. п. Первоначально он предлагает разделить все многообразие семантических связей на основе анализа их представления в лексике (каждому типу семантической связи соответствует свое множество синтаксических единиц - синтаксем, элементарных семантико-синтаксических компонент любых конструкций). Далее, автор проверяет выделенные виды семантических связен на внелексические свойства семантических сетей. Результат данной процедуры представлен в таблице 2.1 [52]. Применяя в дальнейшем к таблице 2.1 процедуру факторизации (расщепления исходной таблицы на подтаблицы, строки которых имеют одинаковые значения свойств), автор предлагает множество видов семантических связей, характеризуемых одинаковой совокупностью значений свойств симметричности, рефлексивности и транзитивности называть типом семантической связи, и предлагает итоговую классификацию типов семантических связей: 1. Каузально-трансгрессивная связь - Cous (X,Y) - X вызывает Y. К данному типу связи относятся следующие виды семантических связей: — Каузальная связь Cous, один компонент которой обозначает причину проявления другого компонента спустя какое-то время; - Трансгрессивная связь Trg, в которой один компонент обозначает результат превращения второго; — Результативная связь Res, в которой один компонент выражает след ствие действия второго; - Репродуктивная связь Rep, в которой один компонент означает ис ходную точку для воспроизведения или превращения для другого компонен та; 2. Ситуативная связь - Sit (X,Y) - X находится в ситуации Y. К данному типу связи относятся следующие виды семантических связей: - Лимитивная связь Lim, один компонент которой обозначает сферу применения, назначения другого компонента; - Ситуативная связь Sit, в которой один компонент обозначает ситуацию, определяющую состояние или область действия второго компонента.

Формальное описание структурированной семантической модели

Данная семантическая сеть является неполной семантической микроструктурой, т.к. не содержит в себе концепты и связи, соответствующие стереотипу, отражающему технологический аспект процессов, протекающих в рассматриваемой предметной области. Так, отсутствуют концепты «требование», «субъект», отсутствуют отношения «требование-процесс» и «субъект-процесс».

Из рассмотренных выше стереотипов и соответствующих им семантических микроструктур видно, что процессный аспект рассмотрения системы включен в технологический аспект, следовательно, и функциональный аспект рассмотрения системы, полностью входящий в процессный аспект, является частью технологического аспекта. Т.е. на данном этапе анализа и сравнения различных аспектов рассмотрения системы делаем вывод, что технологический аспект, который в отличие от процессного предполагает описание таких концептов как «вход», «выход» и «промежуточное хранилище данных», является более емким для рассмотрения и исследования системы и включает в себя процессный и функциональный аспекты.

Перейдем к морфологическому аспекту рассмотрения системы. Морфологическое описание системы должно давать представление о строении системы, ее подсистемах и элементах.

Морфологическое описание иерархично. В иерархии описания может существовать такая ступень, когда способы описания, применявшиеся на более высоких уровнях, становятся неприемлемыми, и необходимо использовать принципиально новый способ описания системы. Наступает так называемый разрыв иерархии и, в результате, мы получаем квазииерархическую модель описания системы, т.е. модель системы с нарушенной иерархией на нижнем уровне. Морфологическое описание системы, то есть описание внутреннего и внешнего устройства системы, начинается с определения состава элементов, образующих систему.

Элементный состав позволяет понять, из каких элементов состоит система. Обычно он выполняется в виде иерархической структуры, при этом описание элементного состава производится до какого-то n-го уровня, после которого дальнейшее изображение элементного состава становится бессмысленным из-за конечности числа элементов системы.

Построим морфологическое представление системы - фрагмента рассматриваемого текста. На рисунке 2.39 представлен результат морфологического описания системы, который представляет собой иерархически организованную семантическую сеть. Морфологическому описанию может подвергаться как отдельный концепт из построенной семантической сети, так и совокупность нескольких концептов, находящихся в некотором отношении между собой. В общем случае получаем иерархически организованную семантическую сеть, описывающую строение системы на некотором уровне подробности. Как отмечалось в параграфе 2.1, иерархически организованная семантическая сеть есть пример семантической микроструктуры 2-го типа -формальной микроструктуры, следовательно, морфологическое описание системы есть формальная микроструктура, описывающая состав концептов внутри фрагмента, без учета их семантической интерпретации с использованием только структуры. В результате мы получили, что технологический аспект рассмотрения системы является наиболее подробным и включает в себя процессный аспект, который в свою очередь включает в себя функциональный аспект рассмотрения системы. Морфологический аспект представления системы и технологический аспект представления системы содержат общие концепты. Следовательно, предположение о взаимосвязи различных аспектов рассмотрения системы, сделанное в начале параграфа, не верно и требует своего уточнения и дополнения. Межаспектные связи при семантическом моделировании можно представить с помощью диаграмм Венна (рис. 2.40). В результате, мы получили, что первоначальное предположение о взаимосвязи аспектов рассмотрения систем по пирамидальному принципу, где каждому аспекту рассмотрения системы соответствует некоторая грань пирамиды, включая основание, не верно. Уточним взаимосвязь аспектов рассмотрения системы по пирамидальному принципу, представленную на рис. 2.34. Наглядно представимы межаспектные связи при моделировании и виде пирамиды, где вся поверхность пирамиды отражает технологический аспект рассмотрения системы, основание, как часть всей поверхности пирамиды - процессный аспект, прямые, лежащие в плоскости основания -функциональный аспект, сечение пирамиды - морфологический аспект описания системы (рис. 2.41).

Обзор инструментальных средств автоматизации процесса систематизации контента

В данном параграфе рассматриваются основные для целей поставленных в работе задачи: задача визуализации структуры текста, задача структурирования текста.

Процесс систематизации контента на основе структурированной семантической сети, а также процесс решения задач, возникающих при работе со структурированной семантической моделью, требуют наличия программных (инструментальных) средств, реализующих два класса функций: визуализации данных и проектирования данных.

При этом под визуализацией данных в работе понимается задача наглядного представления структурированных данных, под проектированием данных — задача автоматизированного структурирования данных.

Рассмотрим основные задачи внутри функций программных средств автоматизации процесса систематизации контента и требования, предъявляемые к ним.

Вопросы визуализация структуры текста являются особо важными, так как именно графическое представление используется как база для восприятия общей структуры текста и его содержательной части. Исходя из этого, можно утверждать, что формирование графического представления обрабатываемой информации - неотъемлемая часть пользовательского интерфейса программных средств визуализации данных. Выделим задачи, решаемые при реализации функции инструментальных средств автоматизации данных - визуализации семантической сети, и требования, предъявляемые к программным средствам визуализации данных (ПСВД). ПСВД предназначены для решения следующих задач: - отображение структурированной информации; - анализ структурированной информации; - наглядное представление структурированной информации; - доступ к информации. ПСВД обеспечивают возможность визуального отображения концептов семантической сети и отношений между ними, возможность проведения анализа семантической сети с целью поиска фрагментов сети, укрупнения фрагментов сети, оценки сети, организуют упрощенный доступ к заранее подготовленным формам представления информации, что дает возможность заранее настроить систему на определенную схему и уровень показа информации. ПСВД помогают в процессе доступа к информации за счет улучшения навигации в семантической сети с опорой на ключевые концепты и их взаимосвязи, позволяет исследовать смысловое окружение интересующих концептов, выявлять цепочки объектов в семантической сети. Рынок программных средств визуализации данных бурно развивается. К программному обеспечению такого типа предъявляется ряд жестких требований [63]. Во-первых, они должны допускать настройку на произвольную предметную область. В реальных задачах описание предметной области, как правило, имеет достаточно сложную и разветвленную структуру, включающую в себя десятки взаимосвязанных понятий. Поэтому данные такой предметной области удобно представлять в виде семантической сети. Второе требование - удобство и наглядность пользовательского интерфейса, что распространяется не только на наличие необходимого числа подсказок, файлов помощи, контекстных меню, словом, всего того, что формирует понятие графического пользовательского интерфейса в привычном понимании, но и на формирование наглядного графического представления, как самих данных, так и результатов их анализа. В-третьих, современные ПСВД должны обеспечивать возможность выделения основных концептов анализируемого и структурируемого контента, использования различных типов связей при построении семантической сети, возможность представления полученных данных в удобном для восприятия виде. ПСВД должны быть просты в использовании и гибки в настройке как для экспертов, структурирующих данные, так и для пользователей, работающих с массивами структурированных данных. В-четвертых, ПСВД должны быть универсальны в смысле возможности показа фрагментов данных вне зависимости от их взаимных соотношений. Когнитивная карта - основа визуализации объектов в ПСВД. Когнитивная карта характеризуется прежде всего пространственными координатами (верх-низ, право-лево, близко-далеко), в которых локализованы отдельные воспринимаемые объекты. При этом выделяют два основных вида карт: - карта-путь, как последовательное представление связей между объектами по определенному маршруту, - карта-обозрение, как одновременное представление пространственного расположения объектов. Карта является наиболее удобной оболочкой для размещения информации в случае работы с большим массивом неструктурированных данных. Она предназначена для накопления, хранения и всестороннего анализа различной структурированной информация. Информация, представленная на когнитивной карте, организована в виде семантической сети. Узлами сети выступают информационные концепты, а связями между ними — бинарные связи между концептами, ПСВД должны обеспечивать представление объектов на карте в различной форме: - отдельных точечных концептов по выбору эксперта и взаимосвязей между ними; - группы концептов, структурирующих фрагмент контента с взаимосвязями как внутри группы, так и между группами. При формировании графического представления семантической сети и отображении данного представления на когнитивной карте, используются различные цвета закраски, специальные знакосимволы, пояснения. Набор визуализируемых объектов, связей, а также их текущее взаиморасположение называется диаграммой [63]. Диаграмма, в отличие от когнитивной карты, не только указывает текущее взаиморасположение и близость объектов друг от друга, но их непосредственную взаимосвязь исходя из смысла визуализируемого текста. Пользователь может выполнять ряд операций над диаграммой: создание диаграммы, всевозможное изменение взаиморасположения элементов диаграммы, добавление в диаграмму новых элементов, удаление элементов из диаграммы, фильтрацию связей, загрузку цепочек концептов и т.д.

Похожие диссертации на Структурированная семантическая модель контента текстов научно-теоретического характера