Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Методы и алгоритмы смыслового описания контента в системах тестирования Бидуля, Юлия Владимировна

Методы и алгоритмы смыслового описания контента в системах тестирования
<
Методы и алгоритмы смыслового описания контента в системах тестирования Методы и алгоритмы смыслового описания контента в системах тестирования Методы и алгоритмы смыслового описания контента в системах тестирования Методы и алгоритмы смыслового описания контента в системах тестирования Методы и алгоритмы смыслового описания контента в системах тестирования
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Бидуля, Юлия Владимировна. Методы и алгоритмы смыслового описания контента в системах тестирования : диссертация ... кандидата филологических наук : 10.02.21 / Бидуля Юлия Владимировна; [Место защиты: Тюмен. гос. ун-т].- Тюмень, 2011.- 119 с.: ил. РГБ ОД, 61 12-10/284

Содержание к диссертации

Введение

Глава 1. Лингвистические предпосылки смыслового анализа 11

1.1. Модели представления смысла текста

1.2. Подходы к реализации поиска в семантических сетях 18

1.3. Программная реализация смыслового анализа текста 23

1.4. Программная реализация проверки открытой формы тестирования 28

Выводы по главе 30

Глава 2. Построение модели смыслового описания контента 32

2.1. Формализация синтаксической структуры предложения 32

2.2. Смысловое описание контента 34

2.3. Алгоритм построения семантической сети контента 45

2.4. Сравнение смысловых описаний контента и ответа на тестовое задание 55

2.5. Поиск в семантической сети текста без учета синонимии 58

Выводы по главе 59

Глава 3. Информационная система «Семантик-тест» 61

3.1. Общая концепция системы 61

3.2. Структура и состав программного комплекса 64

Выводы по главе 76

Глава 4. Апробация программного комплекса «Семантик-тест» 78

4.1. Постановка задачи эксперимента 78

4.2. Решение задач эксперимента 79

4.3 Пример оценки степени смыслового соответствия

Выводы по главе 98

Заключение 100

Библиографический список 101

Введение к работе

Актуальность работы. Развитие глобальных сетей, а также технологий создания интеллектуальных систем обуславливает значительный интерес к исследованиям, направленным на автоматическую обработку данных, и прежде всего - к различным видам семантического анализа текста. Семантический анализ текста позволяет извлекать информацию о фактах, ключевых понятиях и их взаимосвязях, с последующим представлением материала в виде определенным образом структурированного, смыслового описания.

Понятие смысл текста не имеет однозначного формального определения. Мы будем использовать данный термин в трактовке И.А.Мельчука: «смысл - это инвариант всех синонимических преобразований, т.е. то общее, что имеется в равнозначных текстах» (И. А. Мельчук).

Построение смыслового описания текста может решать многие практические задачи, в том числе: семантический поиск: выявление фактов, в которых принимают участие конкретные ключевые понятия; обработка текста на естественном языке в системах управления контентом; проверка ответов учащихся в системах контроля знаний при использовании открытой формы тестирования. Такого рода задачи характеризуются необходимостью сравнения двух текстов друг с другом на смысловое соответствие с учетом предикативных отношений в тексте.

Как известно, тестовые задания для контроля знаний обычно составляются на основе учебного материала - текста лекции, учебного пособия, методических указаний и т.п. Для проверки необходимо производить сопоставление смыслов текста ответа и текста лекции, на основе которой было сформулировано тестовое задание. В современных системах тестирования автоматизированная проверка открытой формы реализуется при условии ввода ответа на ограниченном естественном языке. Для проверки ответа на неограниченном естественном языке необходимо предусматривать возможность использования синонимов и различных вариантов построения фразы без ограничений на членимость текста по

предложениям, что дает возможность испытуемому выразить мысль в произвольной форме.

Традиционные подходы к описанию естественного языка рассматривают текст на нескольких уровнях. Применительно к проблеме семантики текста разделение на уровни следующее: фонетический, фонологический, лексико-морфологический, синтаксический, уровень смысла текста (И.А. Мельчук). Предикативные отношения выявляются на синтаксическом уровне в рамках одного предложения. Что касается смыслового описания текста в целом, то во многих задачах (к примеру, в информационном поиске) оно реализуется с применением частотного анализа и вероятностно-статистических методов. При этом смысловая структура текста не может дать представления о предикативных отношениях между ключевыми понятиями. Следовательно, для решения перечисленных выше практических задач необходимо разработать методы и алгоритмы, использующие синтаксический анализ предложений в качестве основы для построения смыслового описания всего текста, а также сформировать количественные критерии оценки соответствия смыслов текстов.

Цель работы - разработка методов и алгоритмов определения смыслового соответствия ответа на тестовое задание контенту, по которому составлен тест.

Для достижения поставленной цели в работе решались следующие задачи:

  1. Исследовать существующие подходы к автоматизации смыслового анализа текстов на естественном языке;

  2. Формализовать описание синтаксической структуры предложений учебного контента;

  3. Построить математическую модель смыслового описания контента;

  4. Разработать алгоритм перехода от синтаксической структуры предложений к семантической сети контента, отображающей предикативные отношения между объектами-понятиями.

  5. Сформулировать критерии оценки сходства смыслового содержания контентов и построить алгоритм сопоставления.

6. Разработать инструментальный программный комплекс для формирования тестовых заданий открытой формы на основе смыслового описания учебно-методического материала и автоматической проверки результатов тестирования.

Объект исследования: модели и алгоритмы установления смыслового соответствия контентов в системе тестирования в процессе проверки тестовых заданий открытой формы.

Предмет исследования: условия и средства получения смыслового описания учебного контента на базе синтаксической структуры предложений с учетом предикативных отношений между понятиями контента.

Методы исследования.

Лингвистические методы: л/етод многоуровневого семантического анализа, включающий синтаксический анализ (синтаксический уровень); формальный, функциональный, категориальный анализ (лексико-морфологический уровень); метод семантических сетей (уровень текста).

Математические методы: методы теории множеств; методы теории графов; методы построения и анализа алгоритмов.

В качестве теоретических предпосылок используются:

работы, посвященные теории «Смысл-Текст» (И.А. Мельчук, Л.Л. Иомдин, Ю.Д. Апресян, И.М. Богуславский, А.К. Жолковский)

работы по изучению синтактико-семантических отношений в структуре предложения (Ч. Филмор, И.М. Богуславский, Н. Хомски, А.В. Гладкий и

ДР)

работы по применению частотно-вероятностных методов лингвистического анализа (Г.Г. Белоногов, А. А. Хорошилов и др.)

работы отечественных и зарубежных ученых по созданию прикладных систем автоматической обработки текста (Р.Г. Пиотровский, Н.Н. Леонтьева, В.Ш. Рубашкин, Э.В. Попов, А.Е. Ермаков, А.В. Гаврилов, Р.К. Крос, Ж.К. Гардэн, Ф. Леви, С.А. Шумский).

Материалом для исследования послужили:

- тексты лекций учебно-методических комплексов по дисциплинам
«Интеллектуальные информационные системы», «Системы электронной
коммерции», «Технологии мультимедиа» общим объемом 110 тыс. словоформ;

- тексты ответов на тестовые задания открытой формы, полученных в
процессе итогового контроля знаний студентов 3-го и 4-го курсов специальности
080801.65 «Прикладная информатика в экономике» Тюменского госуниверситета,
общим объемом 36 тыс. словоформ.

Положения, выносимые на защиту:

  1. Предложена новая математическая модель представления смыслов учебного контента в виде семантической сети, узлами которой являются именные группы, обозначающие понятия, а дуги отражают предикативные отношения, характеризуемые глагольными группами. Для учета синонимии слов и выражений лексический материал контента необходимо расширить при помощи тезауруса и толково-комбинаторного словаря.

  2. В основу метода построения семантической сети контента положен следующий принцип: на основе синтаксических отношений предложений выявляются а) именные группы, представляющие имена понятий контента, б) предикативные отношения, связывающие эти понятия, в) глаголы и глагольные группы, выражающие предикацию, г) отношения кореференции именных групп, выраженные в форме буквального повтора или местоименной замены слов.

3. Разработанные методы и алгоритмы позволяют произвести
количественную оценку степени смыслового соответствия текстов, выраженную в
двух аспектах: содержательном и структурном. Содержательный аспект отвечает
за лексический состав именных групп и предикатов контентов. Структурный
аспект характеризует взаимное расположение связей сравниваемых
семантических сетей.

4. Сравнение смыслов контентов при автоматизированной проверке
результатов тестирования в открытой форме позволяет адекватно оценить знания
испытуемых, что подтверждается численными экспериментами на разработанном
нами программном комплексе «Семантик Тест».

Научная новизна исследования:

1. Разработана новая математическая модель смыслового описания учебного контента, описывающая предикативные отношения между понятиями.

  1. Предложен метод и построен алгоритм перехода от синтаксического описания предложений к смысловому описанию всего текста.

  2. Предложен метод и разработан алгоритм количественной оценки степени смыслового соответствия двух текстов, основанный на сопоставлении их смысловых описаний, построенных с помощью математической модели;

  3. Разработан программный комплекс для формирования тестовых заданий на основе смыслового описания учебного контента, а также автоматической проверки открытой формы тестирования.

Теоретическая значимость работы состоит в разработке методики создания тестирующих программных комплексов с использованием лингвистических методов анализа учебного материала.

Практическая значимость работы заключается в возможности автоматизировать процесс проверки тестовых заданий открытой формы, а также существенно упростить их разработку, что позволяет сократить временные затраты преподавателя.

Апробация работы:

Материалы диссертации докладывались на следующих конференциях и семинарах:

. Международная научная конференция «Модернизация образования в

условиях глобализации», Тюмень, 2005; . Межрегиональная научно-практическая конференция «Информационные технологии и телекоммуникации в образовании, экономике и управлении регионом», Тюмень, 2006; . Ш-я Международная научно-практическая конференция «Актуальные

проблемы современных наук: теория и практика», Днепропетровск, 2006;
Всероссийская научно-техническая конференция «Приоритетные

направления развития науки и технологий», Тула, 2007; . VI-я Межвузовская научно-практическая конференция студентов, аспирантов и молодых ученых «Безопасность информационного

пространства», Тюмень, 2007;
. П-я Межрегиональная научно-практическая конференция

«Информационные технологии и телекоммуникации в образовании, экономике и управлении регионом», Тюмень, 2008.

Современные проблемы математического и информационного
моделирования. Перспективы разработки и внедрения инновационных IT-
решений. Третья научно-практическая региональная конференция. Тюмень,
2010.

. Экономические и экологические проблемы в меняющемся мире: сборник материалов Международной научно-практической конференции, посвященной 80-летию Тюменского государственного университета. Тюмень, 2010.

Научно - методические семинары кафедры информационных систем
Тюменского государственного университета (2005 - 2011 гг.).
Разработанный тестирующий комплекс «Семантик Тест» используется в

учебном процессе в Тюменском государственном университете. Имеются свидетельства о государственной регистрации программы для ЭВМ и базы данных.

Публикации. Основное содержание диссертации представлено в 18 печатных работах, из которых 2 - свидетельства о государственной регистрации программ для ЭВМ и 3 статьи, опубликованных в ведущих рецензируемых журналах.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы и приложений. Объем диссертации составляет 119 страниц, включая 12 рисунков и 13 таблиц. В списке литературы указано 116 наименований работ российских и зарубежных авторов.

Подходы к реализации поиска в семантических сетях

Под смыслом, как правило, понимается то значение, которое слово или словосочетание получает в конкретной речевой ситуации. В более широком аспекте под смыслом понимают информацию, передаваемую в речевом сообщении. «Смысл есть инвариант языковых перифраз» [Мельчук 1997].

Решению проблемы формализации и распознавания смысла предложений на естественном языке посвящено множество зарубежных и отечественных источников. В работах Апресяна Ю.Д., Иомдина Л.Л., Богуславского И.М. процесс понимания текстов описывается как перевод с естественного языка на формальный семантический язык [Апресян и др. 1992]. Под семантической структурой понимается дерево зависимостей, в узлах которого стоят либо предметные имена, либо слова универсального семантического языка, так называемые «атомы смысла», а дуги соответствуют универсальным отношениям семантического подчинения, таким, как аргументное, атрибутивное, конъюнкция, дизьюнкция, равенство, неравенство, больше, меньше, принадлежит, не принадлежит и т.п. Определяющую роль в структуре смыслового описания играет характер отношений между «атомами смысла», а также способ представления характеристик или типов отношений в графовой модели семантической структуры.

В работах Апресяна Ю.Д. сформулировано важное требование к смысловому описанию: его достижимость из синтаксических структур входного текста с помощью лингвистических преобразований [Апресян 1990]. Взаимосвязь синтаксических и смысловых структур подробно рассматривается в работах Мельчука И.А. [Мельчук 1998]. Основными категориями семантического описания являются факт и участник этого факта. Под фактом понимается все, что может быть предметом высказывания, что может иметь место: событие, отношение, состояние, свойство и т.д. Каждое предложение на естественном языке несет информацию о конкретном факте.

На уровне предложения термины «факт» и «участник» обозначают синтаксические роли, причем факт соответствует сказуемому, а участники - его подлежащему и дополнениям. С другой стороны, эти термины обозначают также синтаксические классы слов, при этом факт чаще всего соответствует глаголу, а участники факта — существительному. Таким образом, можно утверждать, что семантические категории «факт» и «участник» определяются на основе синтаксических отношений в предложении.

В работах Белоногова Г.Г. обсуждаются различные точки зрения на статус единиц языка и речи и даются рекомендации по использованию этих единиц в системах автоматической обработки текстовой информации. В качестве единиц смысла предлагается использовать словосочетания, так как «словосочетания наряду с отдельными словами выступают в качестве основных единиц языка и речи, обозначающих понятия» [Белоногое и др. 2004].

Выявленные в результате смыслового анализа категории составляют семантическое представление каждого предложения, изображаемое в виде графа, у которого вершины означают понятия, а любое ребро помечено семантическим отношением и соединяет те вершины-понятия, которые находятся друг с другом в данном отношении. Отношения в общем случае не симметричны, так как участники выступают в определенных семантических ролях. Идентификаторы участников записываются в виде меток при каждой вершине. Такая структура носит название «семантическая сеть» [Осуга 1989] или «семантический граф» [Quillian 1968].

Семантическое представление текста формируется из семантических представлений предложений, элементами которых являются понятия, извлеченные из анализируемого текста, и выявленные между ними семантические отношения. Вопросам перехода от описания смысла предложения к описанию всего текста посвящены работы Н.Н. Леонтьевой, И.А. Фигуровского, Н. С. Поспелова, Н.Д. Арутюновой, где обсуждаются проблемы межфразовых связей, структурные средства организации самостоятельных предложений в составе сложного синтаксического целого, особенности смыслового содержания предложений [Леонтьева 1981; Фигуровский 1948; Поспелов 1948; Арутюнова 1976].

Таковы основные подходы к структуре описания смысла текста. Следующим важным аспектом является построение смыслового описания текста. Здесь наблюдается две основные тенденции, охарактеризованные в работе А.В. Гаврилова [Гаврилов 2002] следующим образом: 1. Синтаксически ориентированный смысловой анализ на основе детального синтаксического разбора предложения. Средствами синтаксического анализа вычленяются связанные понятия («атомы смысла»). Определение связанных понятий происходит только на основе синтаксических правил в пределах отдельного предложения. Данный подход описан в уже упоминавшихся здесь работах И.А. Мельчука, Ю.Д. Апресяна. 2. Семантически ориентированный смысловой анализ, в рамках которого задача распознавания смысла предложения рассматривается на основе использования базы знаний.

Разбор каждого предложения производится путем вычленения связанных понятий (атомов смысла) с помощью базы знаний. Данному подходу посвящены работы Д.Я. Левина, А.С. Нариньяни [Левин, Нариньяни 1978], B.C. Файна [Файн 1987], а также статьи и монографии В.Ш. Рубашкина [Рубашкин 1989] и многих других зарубежных и отечественных авторов. Каждый подход определяет множество видов смысловых отношений между понятиями. Синтаксически ориентированный смысловой анализ позволяет выявлять предикативные отношения между «атомами смысла», что объясняет его применение в системах машинного перевода. Выявление групп подлежащего, сказуемого, дополнений и установление синтаксических отношений между ними достигается в результате синтаксического анализа.

Семантически ориентированный анализ позволяет установить отношения типа «род-вид», «часть-целое», «объект-свойство» и т.п. Указанные виды отношений по большей части устанавливаются безотносительно к синтаксической структуре предложений текста, с использованием информации, имплицитно выраженной в анализируемом тексте.

Несомненно, что для смыслового описания важны все виды отношений. Попытки построения «универсальных» смысловых описаний опираются на гибридный подход, когда синтаксический разбор дополняется базой знаний, выбор которой определяется практической направленностью задачи. Таким образом, необходимо определить, какого рода внешние данные необходимы для построения смыслового описания в рамках поставленной практической задачи.

Наиболее детально семантическая структура текста рассматривается в рамках лингвистической теории «Смысл = Текст», созданной И.А. Мельчуком и А.К. Жолковским [Мельчук 1999]. Данная теория рассматривает естественный язык как многозначное соответствие между бесконечным множеством смыслов и бесконечным множеством текстов. Это соответствие должно быть реализовано в виде логического устройства — функциональной модели языка, построения системы формальных правил, моделирующих это соответствие. Различается три уровня пофазного представления текста — морфологический, синтаксический, семантический, каждый из которых обслуживается соответствующим компонентом модели.

Смысловое описание контента

На основе синтаксических отношений между словоформами каждого предложения выявляется его предикатно-аргументная структура. Представим эту структуру в виде набора двухместных предикатов, аргументами которых выступают члены предложения. Первым аргументом предиката является именная группа подлежащего, а вторым аргументом - именная группа дополнения или обстоятельства. Таким образом, смысл предложения разбивается на атомарные пропозиции, отображающие структуру ситуации на синтаксическую структуру предложения.

Под смысловым (семантическим) описанием будем понимать ориентированный граф, вершины которого представляют именные группы, обозначающие понятия, а дуги отображают предикативные отношения между этими понятиями. Направление дуг расположим от подлежащего к дополнению или обстоятельству. Смысловое описание s-того предложения Qs формально представимо в виде упорядоченного набора: Qs = U, R s (2.4) где Us ={ub и2,..., un} — множество именных групп s-того предложения; R-s ={гь г2) ... , rv} - множество смысловых отношений s-того предложения, где rv = um, un, pv (2.5) um, un - именные группы, связанные предикативным отношением, pv - метка дуги, представляющая предикат, выражающий смысловое отношение между именными группами.

Именная группа - это словосочетание на основе имени существительного, в котором все словоформы связаны синтаксическими отношениями типа «атрибутивный». Именная группа представима в виде дерева синтаксических отношений словоформ с корневой вершиной, представляющей главное слово группы - имя существительное. Для учета кореферентности именных групп в структуре дерева на место словоформ t, подставляются их лексемы, и структура именной группы описывается в виде списка дуг, отражающих атрибутивные отношения между словоформами:

Корневая вершина именной группы участвует в актантных синтаксических отношениях в качестве зависимого слова. Синтаксическая структура и подлежащего, и дополнения идентичны, различается лишь их роль в смысловом отношении. Поэтому в дальнейшем эти объекты будут обозначаться термином «именные группы». Что касается предиката, то по форме синтаксического выражения это могут быть одиночные глаголы, либо глагольные группы.

Глагольная группа — это словосочетание на основе глагола или его формы (согласно определению, данному в работе Гладкого А.В. и Мельчука И.А. [Гладкий Мельчук 1971]). Глагольная группа представима в виде дерева синтаксических отношений типа «обстоятельственный» с корневой вершиной, представляющей главное слово группы - глагол или его форму (деепричастие, причастие, отглагольное существительное). Для сравнения глагольных групп на место словоформ tj в структуре дерева подставляются их лексемы / = rem(ti). Рп = {(/ki,/и), (/и,/в), -..(4Л)} (2.8) где /к определяется в соответствии с (2.7). Корневая вершина глагольной группы участвует в актантных синтаксических отношениях в качестве главного слова.

Связи rv между объектами и предикатами выявляются на основе актантных синтаксических отношений между словоформами tj. Грамматические характеристики F" словоформ tj позволяют определить их роли в предложении - подлежащее или дополнение. Роль именной группы в смысловом отношении определяется падежом словоформы, являющейся корневой вершиной дерева именной группы.

Смысловое описание текста формируется из смысловых описаний отдельных предложений путем их объединения по кореферентным именным группам: Q = [JQS (2.9) s где Q - семантический граф текста. Объединенный семантический граф Q в общем случае может быть несвязным, если при его построении не учтена возможность использования синонимичных выражений. Другими словами, если в предложениях не обнаружены идентичные узлы именных групп, то графы этих предложений объединяться не будут. I Полученный семантический граф текста учитывает только те смысловые отношения между именными группами, которые выражены в тексте при помощи актантных синтаксических отношений в предложениях. Как было показано в главе 1, информация о синонимичности двух именных групп или предикатов объективно не может быть получена на основании самого текста. Для установления смыслового соответствия двух текстов смысловое описание каждого из них должно включать некоторые общие словари и тезаурусы, которые будут применяться при сравнении семантических сетей этих текстов.

Структура и состав программного комплекса

Для построения смыслового описания предложения Q необходимо установить смысловые отношения rv = um, un, pv между именными группами.

Элементы смыслового отношения rv = unb un2, pv удовлетворяют условиям: 1. Именная группа um имеет корневую вершину tn=Dep(bkl), Sent(tj)="HMeHHTenbHbift", гдеЬк є { bk: с= "актантный"}. 2. Именная группа un имеет корневую вершину ti2=Dep(bk2), 8еш(Чі2) "Именительньій", где bk2 Є { bk: с= "актантный"}. 3. Предикат pv имеет корневую вершину tj=Main(bki)=Main(bk2).

Видно, что в соответствии с указанными условиями смысловое отношение устанавливается между именными группами, синтаксически связанными с одним и тем же предикатом, при этом одна из именных групп играет роль подлежащего, другая - дополнения. Таким образом, смысловые отношения образуют структуру, описанную в литературных источниках, обзор которых произведен в Главе 1 данной работы.

В ходе работы алгоритма из синтаксической структуры выбираются актантные отношения, вычисляются их главные и зависимые словоформы, а затем устанавливается, корневыми вершинами каких предикатов и именных групп являются эти словоформы. Из вычисленных предикатов и именных групп составляются тройки, в состав каждой входит одна именная группа в роли подлежащего, одна именная группа в роли дополнения и предикат, связанный с обеими именными группами. В алгоритм введены вспомогательные списки: SM - для хранения именных групп-подлежащих, SD - для хранения именных групп-дополнений, SP - для хранения вершин предикатов-сказуемых. Алгоритм представлен на псевдокоде в виде процедуры MakeQ (Приложение).

Утверждение 3. В результате работы алгоритма 3 формируется множество смысловых отношений rv = um, un, pv , удовлетворяющих правилам 1-3 и образующих ориентированный граф предложения Q, узлами которого являются именные группы um , а метками дуг - предикаты pv.

Условия 1 и 2 описывают первый и второй элементы упорядоченной тройки rv. Выполнение условий обеспечиваются шагами 6-10. Условие 3 описывает третий элемент тройки и обеспечивается шагами 6 и 12. Смысловое отношение rv создается из указанных элементов на шаге 13. Существование ориентированного графа Q следует из определения (2.4). Утверждение доказано.

Смысловое описание контента 0 включает семантический граф Q, полученный путем объединения семантических сетей предложений Q по узлам, которым соответствуют изоморфные именные группы um.

Определение 1. Изоморфными именными группами будем считать те именные группы, деревья которых изоморфны: Изоморфизм деревьев именных групп следует рассматривать как отображение ф множества вершин дерева именной группы um на множество вершин дерева именной группы un такое, что: (4, /,)6ит тогда и только тогда, когда (ср(4) ф(/,))и„. Вид отображения ф определим как полное совпадение словоформ. Для установления изоморфизма деревьев именных групп используется переборный метод: для каждой вершины одного графа последовательно проверяются все дуги на предмет связи с вершинами, соответствующими вершинам другого графа. Алгоритм на псевдокоде реализован в виде процедуры IsoTreeU (Приложение).

Очевидно, что изоморфные деревья именных групп образуют подмножество множества именных групп всех предложений. Обозначим каждое такое подмножество Coref обозначающее класс кореферентности с номером к. Формирование каждого класса Corefk производится на основании именных групп, удовлетворяющих условию (2.9). Если именная группа не имеет изоморфных двойников в тексте, то будем считать, что она образует свой собственный класс кореферентности, состоящий всего из одного элемента.

Определение 2. Именные группы um и un в семантических графах Qsl и Q1 (si s2) будем считать идентичными тогда и только тогда, когда их деревья изоморфны друг другу (т.е. входят в один класс Corefk).

Для получения семантического графа текста Q нужно произвести следующие преобразования: 1. Идентичные узлы um и un в семантических графах Qs и Q заменить на один узел uk такой, что uk=um= un, где к - номер класса кореферентности Corefk. 2. Измененные графы Qs и 0s объединить по узлам именных групп uk Именные группы uk, представляющие классы кореферентности, образуют множество U смыслового описания текста Q. Объединение дуг между парами идентичных именных групп происходит при выполнении двух условий:

Пример оценки степени смыслового соответствия

Смысловое описание - это обобщенное представление смысла текста, которое может применяться для сравнения текстов друг с другом. Как уже упоминалось, адекватность построения смыслового описания означает, что сходные по смыслу тексты имеют идентичную смысловую структуру. Как следствие, корректность алгоритмов, изложенных в главе 2, проверяется путем сравнения смысловых описаний текстов, для которых в результате предварительной экспертной оценки установлено, что они имеют сходное по смыслу содержание.

При проведении эксперимента следует учитывать, что результат смыслового анализа текста в значительной степени зависит от возможностей синтаксического анализатора. Как известно, синтаксический анализ не всегда успешно разрешает проблему неоднозначности определения синтаксических отношений, что может препятствовать проверке адекватности алгоритмов построения смыслового описания. По этой причине при проведении эксперимента синтаксическая структура непосредственно перед смысловым анализом подвергалась процедуре дополнительной проверки на предмет обнаружения необходимых синтаксических отношений между словоформами, на основании которых выделяются именные и глагольные группы и выявляются актантные отношения между ними.

Кроме того, на результат сопоставления смысловых описаний в значительной степени влияет предметная область, к которой относятся сравниваемые тексты. Адаптация к предметной области включает следующие действия:

Подготовка тезауруса именных групп и предикатов: сопоставление терминов с присвоением степени синонимии каждой паре терминов. Подготовка толково-комбинаторного словаря: установление всех значений лексических функций для каждой лексемы. Формирование набора правил перифразирования, представляющих некоторую процедуру преобразования цепочки словоформ в конструкции, адекватные по смыслу.

Экспериментальное исследование адекватности представленного в работе метода построения и использования смыслового описания производилось на примере смыслового анализа учебно-методического материала и проверки ответов на тестовые задания открытой формы по данному материалу.

Экспериментальное исследование адекватности модели смыслового описания контента производилось в рамках апробации программного комплекса «Семантик Тест». Для организации процесса тестирования были подготовлены вопросы по дисциплинам «Интеллектуальные информационные системы», «Системы электронной коммерции» и «Технологии мультимедиа». Каждый комплект тестов включал 10 заданий открытой формы по каждой из дисциплин. В тестировании приняли участие 62 студента 3 и 4 курсов специальности 080801.65 «Прикладная информатика в экономике» Тюменского госуниверситета. Затем в трех группах студентов было проведено тестирование при помощи системы «Семантик Тест» с последующим автоматизированным анализом результатов. Те же самые ответы на задания были проверены экспертами и помечены как правильные или неправильные. Далее был произведен сравнительный анализ результатов проверки на предмет совпадения или расхождения заключений системы и эксперта о правильности каждого ответа.

Подбор материалов для эксперимента производился из соображений актуальности выбранных дисциплин, по которым ведется обучение в настоящее время по утвержденным учебным планам. Кроме того, каждый подобранный материал имеет свою специфику изложения, которая выражается в количестве уникальных, неповторяющихся именных групп и предикатов. Ниже приводятся тематики материалов с их краткой характеристикой.

«История развития технологий искусственного интеллекта» (1050 словоформ). Текст имеет обзорный характер, ввиду чего содержит большое число почти не повторяющихся понятий. Каждое понятие упоминается достаточно редко (1-2 раза), а используемые в фактах предикаты разнообразны.

«Использование слоев в графическом редакторе» (1102 словоформы). Для данного текста характерно небольшое количество повторяющихся имен понятий, связанных между собой разнообразными предикатами. «Классификация видов систем электронной коммерции» (1032 словоформы). В данном материале небольшое число часто повторяющихся терминов. То же самое можно сказать и о предикатах.

Для каждого ответа испытуемого рассчитываются значения критериев є и о по формулам (2.18) и (2.19) соответственно. В сводке результатов по каждому испытуемому выводится номер вопроса, формулировка вопроса, значения є и а, а также результат «Верно» или «Неверно», определяемый в соответствии с заданным пороговым значением Єо критерия содержательного соответствия .

Установление порогового значения е0 представляет очень важный момент исследования, поскольку его значение влияет на статистические характеристики каждого тестового задания и теста в целом. Для расчета Єо была использована следующая методика.

Критерий структурного соответствия о показывает, насколько отличаются структуры смысловых описаний ответа студента и фрагмента сети контента. Характерной ситуацией является участие одной именной группы в нескольких смысловых отношениях в одном контенте и применение синонимов этой именной группы в аналогичных смысловых отношениях в другом контенте. В таком случае критерий о в соответствии с выражением (2.18) принимает значение, равное нулю. При этом значение є может быть близким единице за счет полной синонимии других участников смыслового отношения. Это означает, что по степени синонимии именных групп система формально расценивает ответ как соответствующий контенту, однако существует вероятность, что два независимых факта в ответе были ошибочно объединены

Похожие диссертации на Методы и алгоритмы смыслового описания контента в системах тестирования