Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Разработка автоматизированных методов выявления семантических отношений для электронных тезаурусов Киселев Юрий Александрович

Разработка автоматизированных методов выявления семантических отношений для электронных тезаурусов
<
Разработка автоматизированных методов выявления семантических отношений для электронных тезаурусов Разработка автоматизированных методов выявления семантических отношений для электронных тезаурусов Разработка автоматизированных методов выявления семантических отношений для электронных тезаурусов Разработка автоматизированных методов выявления семантических отношений для электронных тезаурусов Разработка автоматизированных методов выявления семантических отношений для электронных тезаурусов Разработка автоматизированных методов выявления семантических отношений для электронных тезаурусов Разработка автоматизированных методов выявления семантических отношений для электронных тезаурусов Разработка автоматизированных методов выявления семантических отношений для электронных тезаурусов Разработка автоматизированных методов выявления семантических отношений для электронных тезаурусов Разработка автоматизированных методов выявления семантических отношений для электронных тезаурусов Разработка автоматизированных методов выявления семантических отношений для электронных тезаурусов Разработка автоматизированных методов выявления семантических отношений для электронных тезаурусов Разработка автоматизированных методов выявления семантических отношений для электронных тезаурусов Разработка автоматизированных методов выявления семантических отношений для электронных тезаурусов Разработка автоматизированных методов выявления семантических отношений для электронных тезаурусов
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Киселев Юрий Александрович. Разработка автоматизированных методов выявления семантических отношений для электронных тезаурусов: диссертация ... кандидата Технических наук: 05.13.17 / Киселев Юрий Александрович;[Место защиты: ФГАОУВО Самарский национальный исследовательский университет имени академика С.П. Королева], 2016.- 170 с.

Содержание к диссертации

Введение

Глава 1. Анализ проблемной ситуации. Постановка задач исследования 10

1.1. Структурированное представление текстовой информации в бумажной и электронной формах: проблемы и подходы к их решению 10

1.1.1. Анализ подходов к представлению текстовой информации в идеографических словарях 10

1.1.2. Анализ подходов к созданию, описанию и использованию тезаурусов 14

1.2. Анализ принципов построения электронных тезаурусов 17

1.2.1. Принципы построения тезауруса английского языка Princeton WordNet 18

1.2.2. Принципы построения тезауруса семи европейских языков EuroWordNet 21

1.3. Современное состояние электронных тезаурусов русского языка 24

1.3.1. Сравнительный анализ электронных тезаурусов русского языка 24

1.3.2. Анализ методов оценивания качества электронных тезаурусов 30

1.3.3. Анализ открытых электронных тезаурусов русского языка 32

1.4. Постановка задач исследования 35

Глава 2. Разработка автоматического метода оценивания полноты электронных тезаурусов русского языка 37

2.1. Автоматический метод оценивания полноты электронных тезаурусов русского языка 38

2.1.1. Обоснование и разработка характеристик оценивания полноты электронных тезаурусов русского языка 38

2.1.2. Обоснование выбора формата электронного представления лексических ресурсов 47

2.1.3. Автоматический метод оценивания полноты электронных тезаурусов русского языка

2.2. Анализ и обоснование выбора лексических ресурсов для оценивания полноты электронных тезаурусов русского языка 50

2.3. Результаты экспериментальной апробации автоматического метода оценивания полноты электронных тезаурусов русского языка 58

2.4. Выводы по главе 64

Глава 3. Разработка автоматизированного метода выявления синонимических рядов, описывающих одинаковые понятия 65

3.1. Анализ синонимических рядов электронных тезаурусов 66

3.1.1. Анализ характеристик информационного поиска с точки зрения обоснования их выбора для оценки качества синонимических рядов 66

3.1.2. Анализ проблем качества синонимических рядов электронных тезаурусов 68 3.2. Автоматизированный метод выявления синонимических рядов, описывающих одинаковые понятия 71

3.3. Анализ краудсорсинговых подходов к организации работы с текстовой информацией 76

3.4. Исследование автоматизированного метода выявления синонимических рядов, описывающих одинаковые понятия

3.4.1. Обоснование размера выборки экспериментальных данных 80

3.4.2. Подготовка данных для экспериментальной апробации автоматизированного метода выделения синонимических рядов, описывающих одинаковые понятия 83

3.4.3. Методика проведения эксперимента 87

3.4.4. Анализ результатов экспериментальных исследований 90

3.5 Выводы по главе 92

Глава 4. Разработка автоматизированного метода установления родо-видовых отношений между существительными 93

4.1. Анализ семантических отношений между существительными 93

4.1.1. Анализ типов семантических отношений 93

4.1.2. Обоснование выбора характеристик для оценивания результатов извлечения родовидовых отношений

4.2. Анализ подходов к автоматизированному извлечению родо-видовых отношений 98

4.3. Анализ морфологических анализаторов русского текста 105

4.4. Автоматизированный метод установления родо-видовых отношений между существительными

4.4.1. Обоснование автоматизированного метода установления родо-видовых отношений между существительными 107

4.4.2. Автоматический способ извлечения родо-видовых отношений между существительными из словарных определений 111

4.4.3. Программная реализация способа извлечения родо-видовых отношений между существительными из словарных определений 117

4.5. Исследование автоматизированного метода установления родо-видовых отношений между существительными 119

4.5.1. Оценка точности и полноты автоматического способа установления родо-видовых отношений между существительными 119

4.5.2. Методика проведения эксперимента 121

4.5.3. Оценка точности и полноты ручного этапа автоматизированного метода установления родо-видовых отношений 122

4.6. Выводы по главе 128 Заключение 129

Список сокращений и условных обозначений 130

Список литературы

Введение к работе

Актуальность темы исследования. Опыт, накопленный в области обработки текстовых электронных данных, свидетельствует о необходимости совершенствования методов анализа, структуризации и поиска текстовой информации (поиск в коллекции документов по запросу на естественном языке; перевод текста с одного языка на другой; классификация текстов по тематикам и т.п.). Одним из неотъемлемых этапов перечисленных методов оказывается этап автоматического выявления семантических (смысловых) отношений между словами и частями анализируемых текстов. Необходимость выявления семантических отношений многократно увеличивает сложность задач текстового анализа, так как на современном уровне понимания механизмов восприятия и анализа текстовой информации человеческим мозгом не удаётся создать их полноценного алгоритмического описания.

В этой ситуации для повышения качества обработки текстовой информации используются тезаурусы – разновидности словарей, отражающие семантические отношения между словами (синонимические, антонимические, родо-видовые (РВ) и пр.) Проблемы построения и использования тезаурусов, в том числе и электронных, исследовались в трудах российских и зарубежных учёных, таких как Ю.Н. Караулов, В.В. Морковкин, А.С. Нариньяни, Н.В. Лукашевич, Б.В. Добров, И.В. Азарова, П.И. Браславский, G.A. Miller, C. Fellbaum, P. Vossen и других авторов.

Сегодня существуют электронные тезаурусы (ЭТ) для английского языка (например, Princeton WordNet (PWN)), ЭТ для европейских языков (EuroWordNet) и др., а также для русского языка: лингвистическая онтология РуТез, проект RussNet и др., которые, в большинстве случаев, создавались вручную группами экспертов-лингвистов. Однако, несмотря на многочисленные попытки создания ЭТ русского языка, на данный момент не существует открытых ЭТ, имеющих достаточный объём включённых в ресурс слов, понятий и семантических отношений.

В настоящее время существуют полностью автоматические методы установления семантических отношений между словами, однако качество получаемых при этом результатов оказывается весьма низким, из-за чего формирование базы семантических отношений без участия экспертов оказывается невозможным. Это подтверждают, например, итоги соревнований по автоматическому определению семантической близости пар слов русского языка, проведенных в рамках конференции по компьютерной лингвистике «Диалог 2015» - в среднем только 70–75% автоматически полученных пар слов, идентифицированных как семантически близкие, коррелировали с аналогичными результатами, полученными экспертами.

Таким образом, разработка новых автоматизированных методов решения задачи установления семантических отношений, в том числе, призванных уменьшить объём работ, выполняемых экспертами для наполнения ЭТ, является актуальной.

Целью диссертационной работы является разработка и исследование автоматизированных методов выявления семантических отношений для ЭТ русского языка.

Задачи исследования.

  1. Разработать количественные характеристики для автоматического оценивания полноты ЭТ русского языка.

  2. Разработать и исследовать автоматический метод оценивания полноты ЭТ русского языка.

1 Далее под семантическим отношением мы понимаем связь слова с другими словами, входящими вместе с ним в одну семантическую систему, то есть составляющие тематические объединения слов в группы.

  1. Разработать и исследовать автоматизированный метод выявления эквивалентных синонимических рядов (ЭСР), то есть описывающих одинаковые понятия.

  2. Разработать и исследовать автоматизированный метод установления РВ отношений между существительными.

Объектом исследования являются доступные в электронной форме лексические ресурсы русского языка.

Предметом исследования являются автоматизированные методы установления семантических отношений для ЭТ русского языка.

Методы исследования. Для решения задач исследования в работе использовались методы текстового анализа, информационного поиска, теории вероятности и математической статистики, а также прикладного программирования.

Научная новизна. В диссертационной работе впервые получены следующие результаты.

  1. Разработаны количественные характеристики для оценивания полноты ЭТ русского языка, учитывающие полноту отражения общеупотребительной лексики, а также полноту представления понятий и синонимических отношений.

  2. Разработан и исследован автоматический метод оценивания полноты ЭТ русского языка, основанный на использовании лексических ресурсов русского языка, доступных в электронной форме, а также на использовании корпусов текстов русского языка.

  3. Разработан и исследован автоматизированный метод выявления ЭСР, основанный на применении предложенного алгоритма автоматического выбора пар ЭСР.

  4. Разработан и исследован автоматизированный метод установления РВ отношений между существительными, основанный на применении предложенного алгоритма автоматического извлечения РВ отношений из толковых словарей русского языка.

Практическая значимость исследования. Разработанные методы и программные средства позволяют:

  1. оценивать качество ЭТ русского языка путём автоматического применения разработанных для этого характеристик;

  2. повышать качество синонимических рядов существующих ЭТ русского языка за счёт автоматизированного выявления ЭСР;

  3. уменьшать степень участия экспертов в разработке ЭТ русского языка за счёт автоматизации процесса установления РВ отношений.

Теоретическая значимость исследования состоит в обосновании подходов к оцениванию полноты словников ЭТ; постановке задач поиска пар ЭСР в понятиях теории множеств; обосновании критерия, позволяющего осуществлять автоматический выбор ЭСР; создании алгоритма извлечения рода существительных из соответствующего определения толкового словаря.

Положения, выносимые на защиту.

  1. Количественные характеристики для оценивания полноты ЭТ русского языка обеспечивают возможность сравнения ЭТ между собой.

  2. Автоматический метод оценивания полноты ЭТ русского языка позволяет получать количественные характеристики ЭТ без привлечения экспертов.

  3. Автоматизированный метод выявления ЭСР обеспечивает повышение качества синонимических рядов за счёт выявления и последующего объединения ЭСР.

  4. Автоматизированный метод установления РВ отношений между существительными позволяет уменьшить степень участия экспертов в процессе создания ЭТ за счёт автоматического анализа определений толковых словарей русского языка.

Достоверность полученных результатов подтверждается обоснованным применением методов теории вероятности и математической статистики, подходов к оценке качества, использующихся в информационном поиске, а также их согласованностью с соответствующими результатами, полученными исследователями ЭТ для английского и других языков.

Соответствие паспорту специальности. Диссертация включает исследование и разработку средств представления знаний; разработку и исследование методов и алгоритмов анализа текста; разработку принципов и методов извлечения данных из текстов на естественном языке; разработку автоматизированных средств создания онтологии, что соответствует пп. 4, 5, 6, 9 Паспорта специальности 05.13.17 – «Теоретические основы информатики».

Внедрение результатов диссертационного исследования. Результаты диссертационного исследования используются в ФГАОУ ВПО «Уральский федеральный университет им. первого Президента России Б.Н. Ельцина» в учебном курсе «Теория информационных процессов и систем»; в ООО «Яндекс» при расширении слов запросов синонимами с целью повышения полноты поиска веб-документов.

Апробация работы. Материалы работы докладывались на следующих научных конференциях и семинарах: Международной конференции по компьютерной лингвистике «Диалог», Москва, май, 2011 г.; Международной научно-практической конференции «Scientific researches and their practical application '2012», Одесса, Украина, октябрь, 2012 г.; Всероссийской научной конференции молодых учёных «Наука. Технологии. Инновации», г. Новосибирск, декабрь, 2012 г.; Международной научной конференции «Applied and Fundamental Studies», St. Louis, USA, октябрь, 2012 г.; Шестой российской летней школе по информационному поиску (RuSSIR 2012), Ярославль, август, 2012 г.; конференции AINL-2014: Искусственный интеллект и естественный язык, Москва, сентябрь, 2014 г.; 21-ой Международной конференции по компьютерной лингвистике «Диалог», Москва, май, 2015 г.; 9-ой международной конференции по применению информационных и коммуникационных технологий (AICT2015), Ростов-на-Дону, октябрь, 2015 г.; 8-ая международная конференция Global WordNet Conference 2016, Бухарест, Румыния, январь, 2016 г.; международной научно-практической конференции «Научная дискуссия: вопросы технических наук» Москва, февраль, 2016; семинаре «Информационные технологии», ИВТ СО РАН, Новосибирск, декабрь, 2015 г; на рабочих совещаниях и выступлениях в компании «Яндекс».

Связь диссертационной работы с планами научных исследований. Результаты научных исследований, представленных в диссертации, были получены при поддержке грантов РГНФ № 13-04-12020 («Новый открытый электронный тезаурус русского языка»), № 16-04-12019 («Интеграция тезаурусов RussNet и YARN») и РФФИ № 16-37-00354 («Методы автоматизации процесса коллективного построения лингвистических ресурсов»).

Публикации. Материалы диссертации опубликованы в 13 печатных работах, из которых в рекомендованных ВАК РФ периодических изданиях – 5. Получено свидетельство о регистрации программ для ЭВМ.

Личный вклад. В работах, выполненных в соавторстве, вклад автора состоит в построении и реализации предлагаемых методов и алгоритмов, разработке процедур проведённых экспериментов, а также в анализе полученных результатов.

Структура и объем работы. Диссертация состоит из введения, четырёх глав, заключения, списка сокращений и условных обозначений, списка литературы из 151 наименования, 5 приложений, содержит 23 рисунка и 12 таблиц. Основной текст работы составляет 142 страницы, общий объем – 168 страниц.

Анализ подходов к созданию, описанию и использованию тезаурусов

В середине 1990-х гг. стремительно увеличивалось количество разного рода электронной информации, которая с помощью сети Интернет становилась доступной буквально из любой точки мира. Однако подобная доступность информации никоим образом не отразилась на качестве результатов информационного поиска, который, по-прежнему, осуществлялся по некоторому набору ключевых слов. В этой связи пользователям приходилось употреблять не произвольные, но определённые формулировки и нормализованные термины, используя различные классификационные системы (для этих целей использовались информационно-поисковые тезаурусы, кратко рассмотренные в разделе 1.1.2). В результате не-специалисты сталкивались с большими трудностями при поиске текстовой информации.

В регионах с большим разнообразием языков и культур, например, таких как Европа, ситуация усугублялась ещё и тем, что программные инструменты для поддержки текстового поиска были доступны, в основном, только для английского языка. Таким образом, появление тезауруса PWN отнюдь не способствовало улучшению сложившейся ситуации в области информационного поиска для языков, отличных от английского. В этой связи требовался ресурс, объединяющий ЭТ различных языков в единый многоязычный лексический ресурс.

В 1996 г. началась работа над проектом ворднета EuroWordNet [82], целью которого было создание ворднетов для датского, испанского и итальянского языков и связывание их с уже существующим тезаурусом английского языка PWN в единую базу. Проект EuroWordNet был закончен в 1999 г . В его с остав, кроме перечисленных языков, также вошли немецкий, французский, чешский и эстонский ворднеты.

Основными целями разработки ворднета EuroWordNet были [139]: создание многоязычного ресурса; поддержка отношений, специфичных для каждого входящего в состав ресурса ворднета; достижение максимальной совместимости между отдельными ворднетами; создание ворднетов независимо друг от друга, с возможностью применения в процессе их создания существующих лексических ресурсов.

Авторы ворднета EuroWordNet видели свой ресурс как лингвистическую онтологию, поэтому в его основу был положен следующий принцип: каждый ворднет сохраняет все специфические особенности, присущие соответствующему языку [140]. При этом была создана единая система синсетов, в которой каждый синсет конкретного европейского языка был связан с соответствующим (наиболее близким ему по смыслу) синсетом тезауруса PWN, что удалось обеспечить введением отношения эквивалентности между синсетами. Выбранный подход позволил реализовать многоязычность ресурса, которая была главным отличием ворднета EuroWordNet от тезауруса PWN.

Понятно, что для поддержки многоязычности, авторам EuroWordNet пришлось существенно изменить структуру ресурса в сравнении со структурой тезауруса PWN, что позволило обеспечить поддержку единой сети понятий, связывающей синсеты конкретных языков [139]. Одновременно, были внесены изменения и во внутреннее устройство отдельных ворднетов. Одним из них стало добавление к отношениям новых свойств. Например, появились атрибуты конъюнктивности и дизъюнктивности. Отметим, что отношение часть–целое между существительными обычно является конъюнктивным (например, все части тела одновременно составляют «человека»), а отношение род–вид - как правило, дизъюнктивным. Однако, здесь существуют исключения, например, «иголка» и «лист» являются частью «дерева» (в одном из их значений), но при этом одновременно это никогда не выполняется - деревья бывают либо хвойными, либо лиственными. Приведённый пример иллюстрирует, что атрибуты отношений в ряде случаев, действительно, могут быть весьма полезными.

Отметим, что описанные выше связи изначально были реализованы внутри каждой из четырёх независимых частей тезауруса PWN между словами, представляющими собой одни и те же части речи. В дальнейшем а вторы ворднета EuroWordNet добавили в проект дополнительно связи между различными частями речи. Это было сделано из нескольких соображений, главное из которых состояло в том, что в некоторых языках одно и тоже понятие может быть лексикализовано словами разных частей речи [99]. Другой причиной явилось желание связать отношениями слова с очевидными се мантическими связями, например, учиться и учитель, строитель и строить.

Введение связей между разными частями речи в ворднетах позволило ввести новые типы отношений за счёт добавления семантических ролей: агент и противоположный ему субъект, инструмент, место, направление, результат, источник и приёмник [138]. Так, например, для конкретного значения синсета «учить» можно у казать активного деятеля - «учителя» и пассивного - «ученика». Новые отношения, введённые в ворднете EuroWordNet, обеспечили более адекватное отображение структуры языка и различных типов семантических связей, а также возможность более эффективного разрешения лексической многозначности и расширения слов в поисковых запросах. Например, именно за счёт дополнительных связей можно понять разницу между значением «ударять по чему-либо» и разговорным «наносить кому-либо побои» глагола колотить.

Проведённый анализ принципов, положенных в основу тезауруса PWN и ворднета EuroWordNet, позволил выявить следующие возможные подходы к разработке новых ворднетов и тезаурусов, в том числе русского языка.

1. Перевод тезауруса PWN на выбранный язык, включая воспроизведение его структуры со всеми его связями. Для этого необходимо создавать в языке перевода исключительно те синсеты, значения которых уже имеются в тезаурусе PWN. Данный подход требует только создания самих синсетов, так как все необходимые отношения будут скопированы из тезауруса PWN. Как следствие, можно ожидать существенного снижения стоимости и времени разработки ресурса. Очевидный недостаток такого подхода состоит в том, что воспроизведение ресурса на другом языке приведёт к переносу всех недостатков оригинала. При этом можно ожидать увеличения числа неточностей, связанного с введением отношений, которые неестественны для языка перевода.

2. Построение тезауруса «с нуля». Сторонники этого подхода главным его преимуществом считают возможность учёта специфики конкретного языка. Однако в этом подходе оказывается возможно использовать только общие принципы формирования подобных ресурсов, а потому требуется создание абсолютно самостоятельной системы синсетов.

У каждого из этих подходов имеются как достоинства, так и недостатки, которые во многом компенсируют друг друга. В этой ситуации, выделить какой-либо из них и рекомендовать его разработчикам тезаурусов как единственно правильный оказывается невозможно. Высказанная точка зрения подтверждается, в том числе опытом реализации ворднета EuroWordNet: из семи разрабатываемых ворднетов три (испанский, французский и чешский) полностью повторяли структуру тезауруса PWN, а разработчики ворднетов для остальных четырёх языков использовали второй подход - они создали собственные отношения и иерархии (см., например, описания ворднетов испанского [83] и немецкого [95] языков).

EuroWordNet можно считать первым успешным опытом создания многоязычного ЭТ. После завершения данного проекта к нему присоединились разработчики ворднетов других языков, например, авторы проекта BalkaNet [130], в рамках которого были созданы ворднеты для языков балканской группы, связанные с EuroWordNet через его межъязыковой индекс. В настоящее время существует некоммерческая организация Global WordNet Association1 (GWA), которая занимается стандартизацией ворднетов разных языков с целью их совместимости. GWA отслеживает состояние ворднетов, разработка которых ведётся по всему миру.

Обоснование и разработка характеристик оценивания полноты электронных тезаурусов русского языка

В нашей работе также был использован более современный ресурс (а потому содержащий, как очевидно, более актуальную лексику, соответствующую текущим тенденциям в русского языка) - словарь синонимов под ред. Бабенко [56], представляющий собой современный синонимический тезаурус идеографического типа. Данный словарь, созданный в 2011 г., доступен как в бумажном, так и в электронном виде, что позволяет извлечь из него всю необходимую для анализа информацию. Он состоит из 5 тыс. синонимических рядов, которые включают в себя почти 20 тыс. различных слов-синонимов.

Отметим, что словари синонимов, использованные в исследовании, существенно отличаются по составу в части включения в себя словосочетаний. Так, в словаре Бабенко словосочетания практически отсутствуют (однако, имеются весьма редкие исключения, например, железная дорога), в то время как в словарь Абрамова включены около 2 тыс. словосочетаний (например, бить баклуши, нечистая сила и т. п.). Однако их наличие не является проблемой, потому что в тезаурусах, использованных для исследования, словосочетания также встречаются.

Также статьи в словарях синонимов, использованных в исследовании, отличаются внутренней структурой: в словаре Абрамова они состоят только из перечисления слов и выражений синонимов, а в словаре Бабенко все статьи снабжены определениями, некоторые из которых содержат информацию об употреблении слов (например, о том, с какими предлогами употребляется тот или иной глагол). Напомним, что для целей нашего исследования определения из словарей синонимов нам не требуются, поэтому указанное различие между структурами словарей не оказало существенного влияния на методику работы с этими ресурсами и результаты анализа.

Необходимо отметить, что ряд известных синонимических словарей (например, под ред. З.Е. Александровой [5], А.Ю. Кожевникова [32] и др.) в электронном виде сегодня не существует, поэтому они не использовались в нашем исследовании. Однако, выбранной пары словарей синонимов оказалось достаточно для проведения анализа отношения синонимии и степени соответствия между ЭТ и традиционными лексическими ресурсами, составленными лингвистами.

Для анализа полноты тезаурусов и измерения доли покрытия используемой лексики, также потребовались вспомогательные данные, извлечённые из корпусов текстов. Вопросы, связанные с выбором подходящего набора текстов и его представления, обсуждаются в следующем разделе.

В разделе 2.1.1 была обоснована необходимость использования достаточно представительного набора текстов, максимально полно отражающих лексику русского языка. Данную коллекцию текстов называют корпусом. Далее в работе, следуя [65], корпусом будем называть представительную коллекцию текстов, доступную в электронной форме, собранную в соответствии с явно сформулированными принципами и возможно размеченную1 на некотором уровне лингвистического анализа. При этом для целей нашего анализа не требуется какой-либо разметки корпуса, но используются собственно тексты на русском языке, включенные в данный корпус. Отметим, что о необходимости создания подобной коллекции текстов, содержащей максимально возможное количество разнообразных примеров использования языка, исследователи и практики в области лингвистики говорят достаточно давно [65]. При наличии подобной коллекций, как ожидается, удастся решить целый ряд задач лексикографии, построения систем обработки естественного языка и многих других направлений практической и теоретической лингвистики [19].

В настоящее время существует большое число узкоспециализированных корпусов, которые предназначены для решения конкретных практических задач, например: корпус, содержащий оцифрованные записи звуковых сигналов устной русской речи [34]; корпус русских спонтанных текстов, используемый для разработки функциональной модели восприятия речи человеком [12] и др. Также с уществуют и универсальные корпуса (см., например, Британский национальный корпус [75]).

Для исключения возможного влияния состава корпусов на результаты экспериментов в нашем исследовании были использованы следующие корпуса.

Национальный корпус русского языка [44], созданный достаточно давно и ставший доступным в электронном виде в 2004 г. Данный ресурс, защищённый лицензией, отличается высокой степенью проработанности [53]. В его состав входят тексты разных жанров, в том числе новости, научные тексты, религиозные и тексты других тематик. В НКРЯ представлены как современные, так и более ранние тексты (начиная с XVIII в.), что о беспечивает представительность данного корпуса, которая определяется не только его размером, но и числом авторов, а также количеством текстов различных жанров, которые должны быть представлены в пропорциях, соответствующих состоянию русского языка в течение выбранного периода [19]. НКРЯ, по информации, представленной на сайте проекта, содержит

Разметка может быть очень разнообразной и включать в себя простановку ударений, стилистические пометы, грамматическую информацию и многое другое. более 335 тыс. текстов, более 30 млн. предложений и почти 365 млн. словоупотреблений, общий объем корпуса составляет более 192 млн. различных словоформ. Также на сайте ресурса в открытом доступе размещены данные о частоте использования словоформ, представленных в корпусе [64]. В частности, для каждой словоформы с частотой встречаемости 3 и более указано количество раз, которое она встречается в корпусе. Отметим, что для нашего исследования данной информации оказывается вполне достаточно.

Анализ проблем качества синонимических рядов электронных тезаурусов 68 3.2. Автоматизированный метод выявления синонимических рядов, описывающих одинаковые понятия

Напомним, что в параграфе 3.2. была выдвинута гипотеза, что для выявления ЭСР возможно не привлекать экспертов, а использовать для этого краудсорсинг. Согласно предложенному методу, на этапе II (рис. 3.2) ручная работа заключается в в ыполнении однотипных заданий, в которых необходимо отвечать на единственный вопрос «Являются ли синсеты s1 и s2 эквивалентными?» с двумя возможными ответами: да и нет.

Если, согласно этой гипотезе, для работы привлекать не экспертов, а просто носителей языка, то ответ, полученный от одного человека, н ельзя считать абсолютно верным. Для решения этой проблемы, в соответствии со способом, предложенным в работе [93], необходимо получать несколько ответов на каждый вопрос (или задание в терминах краудсорсинга (см. рис. 3.5)), что позволит оценить правильность того или иного ответа с помощью процедуры голосования. Так как в нашем случае возможно только два различных ответа на вопрос, то для гарантированного выбора ответа, данного большинством, необходимо нечетное число участников (как минимум, три). Это обеспечивает обоснованный по мнению большинства участников выбор ответа. Таким образом, пара синсетов считалась эквивалентной, если соответствующее мнение высказало хотя бы два опрошенных участника. По завершении выполнения всех заданий оказывается сформированным множество пар ЭСР (se1, se2). При выборе средств анкетирования участников эксперимента было проведено сравнение традиционного анкетирования и интернет-опроса. Его результаты показали, что для проведения анкетирования в традиционной форме необходимо: 1. составить анкеты с заданным количеством вопросов (заданий); 2. найти волонтёров, готовых ответить все вопросы анкеты; 3. агрегировать полученные ответы в электронном виде с целью их дальнейшей обработки и анализа.

Принимая во внимание т рудности, возникающие в ходе организации анкетирования людей в традиционной форме (определение оптимального размера анкеты, поиск волонтеров, рассылка анкет и сбор заполненных анкет и т.д.), был проведён опрос в Интернете с помощью одной из существующих систем выполнения работ с помощью технологии краудсорсинга.

Отметим, что сегодня существуют уже готовые коммерческие системы, которые могут использоваться для выполнения краудсорсинговых заданий. Например, за рубежом наибольшей популярностью пользуется платформа Amazon Mechanical Turk (AMT) [68]. (Именно она использовалась в Soylent [70].) По сути, данная система представляет собой некий банк заданий по обработке информации, который используется для размещения заданий и их получения для дальнейшего выполнения. Также с уществуют и другие аналогичные системы (см., например, [148]). Однако у всех них есть существенные недостатки. Так, например, AMT является коммерческой системой, функционирующей в США, в которой изначально предусмотрено, что задания в этой системе выполняют не волонтёры, а работники, получающие за выполненную работу (микро-задания в терминах краудсорсинга) денежное вознаграждение (микро-платежи). По сути, AMT является не просто системой, но целой платформой, поддерживающей коммерческий рынок краудсорсинговых заданий. Для возможности получения выплат через эту систему работнику необходимо иметь банковский счёт в США, что затрудняет использование AMT жителям других стран. Отметим, что известны аналогичные платформы, свободные от указанного ограничения, например, Microworkers [103]. Однако анализ опыта их использования показывает, что доля русскоязычных работников там очень мала [116]. В этой связи, понятно, что использование иностранных систем сопряжено с риском длительного выполнения заданий.

Отметим, что подробный анализ систем выдачи заданий не является необходимым для проведения настоящего эксперимента, так как на начальном этапе оказывается достаточным использовать только несколько их базовых функций таких систем, обеспечивающих раздачу заданий и получение результатов. Это связано с тем, что, по сути, нам просто необходим механизм, позволяющий провести опрос в Интернете. В этой связи в качестве системы выдачи заданий и получения результатов их выполнения было решено использовать открытую систему Mechanical Tsar (MTsar) [101], которая предоставляет все необходимые для целей нашего исследования возможности, кратко описываемые далее.

MTsar является российской разработкой, позволяющей организовать процесс коллективной разметки данных. MTsar - развивающийся проект с открытым исходным кодом (распространяется на условиях лицензии Apache версии 2.0), написанным на языке программирования Java. Система имеет интерфейс, позволяющий отслеживать процесс выполнения заданий, в том числе получать статистику по выполненным заданиям и участникам, включая время, потраченное на процесс выполнения заданий, и контролировать динамику выполнения заданий. Для добавления набора заданий в систему необходимо подготовить файл с заданиями в формате CSV, который содержит описание задания и варианты ответов. Пример файла данных для анкетирования приведён в Приложении В.

Отметим, что в MTsar отсутствует возможность осуществления финансовых расчётов с исполнителями заданий. В этой связи пользователями данной системы могут быть только волонтёры, выполняющие задания на безвозмездной основе. Было подготовлено 200 заданий, каждое из которых состояло ровно из одного вопроса: «Являются ли синсеты sj и S2 эквивалентными?». Как было показано выше, каждое задание должно было выполняться трижды для того, чтобы можно было выбрать варианты ответов, полученные от нескольких людей, а не от одного участника опроса. Отметим, что MTsar поддерживает возможность выполнения различными волонтёрами одного и того же задания указанное количество раз (в нашем случае трёх). При этом гарантируется, что конкретный волонтёр выполняет конкретное задание не более одного раза.

Волонтёры были привлечены к опросу путём размещения советующего объявления в социальных сетях. Каждый волонтёр в любой момент мог прекратить и продолжить выполнение задания. Интерфейс выполнения заданий был доступен в Интернет по адресу http://crowd.russianword.net/.

Для 200 заданий, сформированных на этапе II, были получены 600 ответов от анонимных волонтёров. (Ответы для всех заданий приведены в Приложении Б). Далее с помощью алгоритма объединения пар ЭСР (см. рис. 3.4) были объединены ЭСР, выявленные волонтёрами - получено множество синсетов Su (см. рис. 3.2).

В результате эксперимента из множества исходных синсетов S и ответов волонтёров, выбравших из пар синсетов (s1, S2) эквивалентные, было сформировано множество Su, состоящее из следующих синсетов: rs-L U s2, если S-L и s2 эквивалентные синсеты, Su = противном случае (315) Количественные оценки качества исходных и изменённых синсетов, позволяющие провести анализ эффективности предложенного метода, приведены в следующем разделе.

Исследование автоматизированного метода установления родо-видовых отношений между существительными

Ответ № 2 был предусмотрен, чтобы оценить близость правильно извлечённых пар в РВ иерархии. Например, пара хирург – человек является РВ, однако, здесь естественно выделить ещё одну промежуточную категорию: врач или доктор.

Анкетирование осуществлялось в «бумажной» форме, выбор которой обусловлен следующей причиной. В опрос определения истинности извлечения конкретной РВ пары в сравнении с заданием выявления эквивалентности пары синонимических рядов (см. параграф 3.4.3) является относительно более сложным заданием, так как для ответа на него участнику эксперимента сначала необходимо изучить инструкцию. Это, во-первых, требует определённого времени (в среднем 10 мин.), а, во-вторых, может в ызвать вопросы по её содержанию, на которые должен ответить специалист, проводящий анкетирование.

Напомним, что согласно [93] при проведении опроса с помощью краудсорсинга необходимо применять мажорирование результатов, полученных от участников. В этой связи, а также для учёта возможных ошибок при разметке и тех случаев, в которых даже носителям языка оказывается сложно однозначно оценить правильность выделения РВ пар, каждая пара оценивалась тремя различными участниками.

В связи с тем, что были использованы 200 различных РВ пар, а каждая анкета состояла из 50 пар, были сформированы четыре различные анкеты, каждая из которых была предложена для обязательного заполнения трём различным участникам эксперимента. В сего в опросе приняло участие 12 человек. Все они являлись носителями русского языка; при этом более половины участников являлись студентами и выпускниками филологического факультета Уральского федерального университета. Таким об разом, всего было получено 600 оценок по 200 извлечённым РВ парам. Все пары и полученные волонтёрами оценки приведены в Приложении Д.

Анализ результатов проведённого опроса и оценка на их основе эффективности автоматизированного метода установления РВ отношений между существительными проводится в следующем разделе.

Для оценки точности этапа II автоматизированного метода пять типов ответов приводились к трём: верная пара, ошибочная пара, неизвестно. Приведённые оценки, полученные в результате использования сильного, среднего и слабого приведения [29], представлены в табл. 4.2.

Типы ответов Сильное приведение Среднее приведение Слабое приведение Да («близкая» родо-видовая пара) Верная пара Верная пара Верная пара Да, но между этимипонятиями пропущеносмысловое звено Ошибочная пара Верная пара Верная пара Нет, слова являются синонимами Ошибочная пара Ошибочная пара Верная пара Нет Ошибочная пара Ошибочная пара Ошибочная пара Не знаю Неизвестно Неизвестно Неизвестно Из табл. 4.2 видно, что в случае сильного приведения верными парами считаются только «близкие» РВ пары, в случае среднего - любые, в случае слабого - все РВ пары и синонимы. С точки зрения решаемой задачи, извлечение синонимичных пар вместо РВ является ошибкой, однако их получение само по себе является важным и полезным результатом, поскольку синонимы являются базовыми структурными элементами ЭТ, необходимыми для его создания.

В ходе анкетирования для каждой извлечённой РВ пары были получены три оценки, которые далее приводились к единой оценке в соответствие со следующими правилами.

1) Для каждой пары оценка, поставленная хотя бы два раза (по приведённой тернарной шкале), считалась истинной оценкой, поставленной носителями языка.

2) Все пары, у которых все три оценки оказывались различными или преобладала оценка «Неизвестно», исключались, потому что для них нельзя сделать однозначного вывода о правильности или ошибочности извлечения РВ пары.

Таким образом, из 200 извлечённых пар были исключены 18, 16 и 12 пар, соответственно, для сильного, среднего и слабого приведений оценок (9%, 8% и 6%). При сильном приведении носители языка признали истинными 100 пар (из них РВ пар, согласно МАС, 90 - 50%) , при среднем - 121 (из них РВ пар, согласно МАС, 104 - 60,5%), при слабом -143 (из них РВ пар, согласно МАС, 109 - 71,5%). Отметим, что все пары, являющиеся верными для сильного приведения, оказались также верными для среднего и слабого приведения, а верные пары для среднего приведения - верными для слабого приведения.

Точность установления РВ пар P2 оценивалась как отношение РВ пар к количеству пар, признанных РВ. Полнота установления РВ пар R2 оценивалась как отношение пар, признанных РВ, ко всем оцениваемым ими парами (200 - в случае нашего эксперимента). Среднее значение F1-меры этапа II Ft вычислялось в соответствии с формулой (3.3). Например, для сильного приведения количественные характеристики оказались равными: Р2 = 90 / 100 = 0,9; R2 = 100 / 200 = 0,5; Ft = 0,643. 124 Средние значения точности, полноты и Fi-меры для этапа II для разных типов приведений представлены на рис. 4.7. -0,8 - к 0,6 -чо 0,4 - 0,2 - —

На рис. 4.7 правая группа характеристик, соответствующая слабому приведению, представляет скорее академический, нежели практический интерес. Это связано с тем, что к РВ парам были отнесены, в том числе пары, являющиеся синонимами. Это, очевидно, является ошибкой, так из подобных определений не удаётся извлечь родовые понятия. В результате точность при слабом приведении оказалась на -10% меньше аналогичной величины при среднем приведении.

РВ пары, полученные по среднему приведению, можно использовать для наполнения БД тезауруса, однако с ними необходима дальнейшая работа. Это связано с тем, что примерно треть из них (см. рис. 4.7) оказались связанными РВ отношениями, хотя данные пары не являются «близкими», поэтому они не должны находиться рядом в РВ иерархии, так между ними имеются и другие смысловые звенья (например, понятие «врач» находится между понятиями «стоматолог» и «человек»). В этой связи наиболее подходящим типом приведения для решаемой задачи является сильное приведение, количественные характеристики которого далее обсуждаются более подробно.