Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Формальные методы оценки эффективности систем автоматической обработки текста Максименко Ольга Ивановна

Формальные методы оценки эффективности систем автоматической обработки текста
<
Формальные методы оценки эффективности систем автоматической обработки текста Формальные методы оценки эффективности систем автоматической обработки текста Формальные методы оценки эффективности систем автоматической обработки текста Формальные методы оценки эффективности систем автоматической обработки текста Формальные методы оценки эффективности систем автоматической обработки текста Формальные методы оценки эффективности систем автоматической обработки текста Формальные методы оценки эффективности систем автоматической обработки текста Формальные методы оценки эффективности систем автоматической обработки текста Формальные методы оценки эффективности систем автоматической обработки текста
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Максименко Ольга Ивановна. Формальные методы оценки эффективности систем автоматической обработки текста : Дис. ... д-ра филол. наук : 10.02.21 : Москва, 2003 447 c. РГБ ОД, 71:04-10/82

Содержание к диссертации

Введение

ГЛАВА 1. Формальные методы в современной лингвистике

1.1. Формальные методы в современной науке 12

1.2. Компьютерная лингвистика 20

1.3. Анализ электронных текстов 25

1.4. Искусственные языки 33

1.5. Автоматическое понимание текста 40

1.6. Современные зарубежные методы АОТ 46

1.7. Корпусная лингвистика 53

1.8. Формальная семантика 56

1.9. Семантические сети 58

1.9.1. Применение семантических сетей 63

1.9.2. Семантическая нейронная сеть 69

1.10. Дистрибутивно-статистический анализ лексики 75

1.10.1. Эксперимент для оценки алгоритма ДСА 88

1.11. Нечеткая логика 97

1.12. Решение задач с применением нечеткой логики 101

1.12.1. Элементы теории нечетких множеств 104

1.12.2. Нечеткие выводы 109

1.12.3. Эффективность нечетких экспертных систем 114

1.13. Пакеты нечеткой логики 115

1.13.1. Пакет Fuzzy Logic Toolbox 119

1.14. Выводы к Главе 1 122

ГЛАВА 2. Методы оценки интеллектуальных систем

2.1. Экспертные оценки 124

2.2. Математические модели поведения экспертов и анализа экспертных оценок 131

2.3. Экспертные оценки в различных областях человеческой деятельности 138

2.3.1. Нечеткие выводы в задачах управления и диагностики 138

2.3.2. Оценка знаний в педагогике 140

2.3.3. Оценка информационного обеспечения 142

2.3.4. Оценка информационных технологий и эффективности инвестиций 144

2.4. Оценка лингвистических систем 147

2.4.1. Оценка систем машинного перевода 149

2.4.2. Оценка информационно-поисковых систем 150

2.4.3. Оценка качества интеллектуальных информационных систем (ИИС) 155

2.5. Оценка ИС с помощью нечетких экспертных систем 164

2.6. Нечеткая экспертная система для оценки ДСА 171

2.7. Выводы к Главе 2 188

ГЛАВА 3. Формальные решения в системах машинного перевода

3.1. Современное состояние машинного перевода 191

3.2. Проблемы машинного перевода 200

3.3. Электронные словари и машинный перевод 202

3.3.1. Свойства компьютерных словарей 206

3.3.2. Типология электронных словарей 217

3.4. Некоторые современные российские системы МП 220

3.4.1. Технология компаний ПРОМТ и АРСЕНАЛЪ 220

3.4.2. Лексические функции и машинный перевод 225

3.4.3. Перевод восточных языков 229

3.4.4. Системы фразеологического машинного перевода 233

3.5. Система машинного перевода АСПЕРА 240

3.6. Методы оценки систем машинного перевода 268

3.7. Типологии ошибок 278

3.8. Оценка СМП с помощью нечетких экспертных систем 284

3.9. Выводы к Главе 3 313

ГЛАВА 4. Формальные решения в информационно-поисковых системах

4.1. Информация и знание 318

4.1.1 Автоматизированное извлечение знаний 322

4.1.2. Содержательный поиск в текстах 323

4.1.3. Оперативный анализ текстов 326

4.2. Автоматизированные информационно-поисковые системы 329

4.2.1. Методы автоматизированного индексирования, рубрицирования и аннотирования 339

4.2.2. Модели поиска и эффективность поиска информации 353

4.2.3. Поиск в сети Интернет 358

4.2.4. Информационно-поисковый гипертекст 370

4.3. Информационно-поисковая система КАСКАД 374

4.4.Оценка качества ИПС нечеткими экспертными системами 380

4.5. Выводы к Главе 4 392

5. Заключение 395

6. Список литературы 401

7. Приложения 419

Введение к работе

Круг проблем, связанных с необходимостью изучения внутренней структуры языка и применения результатов таких исследований на практике, к настоящему времени стал чрезвычайно широк. Вызвано это в первую очередь тем, что за последнее десятилетие существенно возросло количество и произошли качественные изменения систем автоматической обработки текста, опирающихся на глубинные структуры языка и оперирующих сложными плохо формализуемыми элементами. Подобные системы требуют серьезной экспертной оценки.

Современные экспертные оценки опираются на сложный математический аппарат, в основе которого, по большей части, лежат методы математической статистики и теории вероятностей. Такой тип экспертных оценок далеко не всегда подходит для систем автоматической обработки текста на естественном языке, который принадлежит числу плохо формализуемых систем. На первый взгляд, если преследовать сугубо конкретную цель, как, например, создание новой системы оценки и проведение собственно процесса оценки, то невозможно говорить о влиянии полученных результатов (как практических, так и теоретических) на формирование каких-либо общих теорий, имеющих ценность для языкознания в целом. Тем не менее, в прикладном языкознании действует тот же закон, что и в других науках - закон взаимного влияния сугубо прикладных исследований на теоретические и наоборот. Это подтверждается созданием прикладных моделей в разных областях лингвистики.

За последнее десятилетие XX века рост быстродействия компьютеров, объемов их оперативной и внешней памяти, пропускной способности внешних устройств и каналов связи качественно изменил

ситуацию в вычислительной технике и сферах ее применения. Современная прикладная лингвистика не обходится без активного использования вычислительной техники, а компьютер превратился по сути в новое орудие труда прикладного лингвиста. Однако в наши дни наблюдается существенный разрыв между возможностями аппаратных средств компьютеров и применяемыми методами решения прикладных задач. Наиболее освоенные на сегодня методы базируются на хорошо формализованных алгоритмах, полученных в результате построения математических моделей предметных областей. Чаще всего это трудоемкие расчеты по известным формулам, либо сравнительно простые последовательности действий, приводящие после многократного повторения к желаемому результату (итерационные алгоритмы). В практической же деятельности многие актуальные задачи относятся к типу плохо формализуемых, особенно если дело касается естественного языка, для которого неизвестны аналитические зависимости или цепочки действий, приводящие к результату без интеллектуального вмешательства человека.

До последнего времени для решения плохо формализуемых лингвистических задач просто не хватало ресурсов вычислительной техники, и поэтому было бессмысленно ставить саму проблему серьезного их решения. Сегодня создание алгоритмов и прикладных программ, наиболее полно использующих ресурсы современных компьютеров для решения нечетких задач, к которым относятся и лингвистические, является весьма актуальной проблемой.

Как правило, в плохо формализуемых задачах имеется некоторый набор параметров, описывающих объекты предметной области, причем, нельзя с уверенностью сказать, что этот набор параметров наверняка полон и адекватен, а сами измеренные значения параметров также в

совокупности полны, непротиворечивы и не искажены. Все это не позволяет применять для решения плохо формализуемых задач традиционные статистические методы, методы оптимизации и аппроксимации.

Методы решения плохо формализуемых задач базируются, как правило, на обработке эмпирических данных, накопленных в результате ряда измерений и экспериментов. Соответственно, одной из основных проблем является разработка способов организации хранения информации в базах данных, осуществления выборки и оценки результатов выборки данных о предметных областях в зависимости от решаемой задачи.

В связи с появлением мощных компьютеров в разных отраслях знания широко используется метод математических моделей, который применяется для решения прикладных задач в технических науках, при исследовании проблем экономики и социологии, в вопросах биологии, геологии и лингвистики, а также в тех разделах науки, которые несколько десятилетий тому назад казались недоступными для математического изучения. По мнению В.М. Глушкова, все более широкое использование компьютеров для изучения математических сторон различных научных проблем привело к тому, что математика обрела новое средство для своего развития, своеобразную форму научной практики, каким является математический эксперимент (или имитационное, численное моделирование).

Методы, основанные на нейросетевых алгоритмах, нечеткой логике, генетических алгоритмах, а также экспертные системы и ряд других направлений, составляют базу современных технологий прогнозирования на основе временных рядов данных, извлечения закономерностей из данных (data mining), создания систем поддержки принятия решений (DSS

decision support system), что аккумулируется термином "интеллектуальный анализ данных".

Для решения задач, относящихся к классу статистических, применяются обучаемые методом "проб и ошибок" нейронные сети, являющиеся байесовскими классификаторами, работающими в условиях отсутствия знания функций распределения вероятности. Нечеткая логика позволяет работать с параметрами, имеющими скорее качественную природу типа: "большой - маленький", а не точное значение, выражаемое определенной цифрой. Экспертные системы служат способом привлечения знаний экспертов для решения плохо формализованных задач. Все более широкое распространение получают экспертные системы на базе нечеткой логики.

Современное общество называют информационным. Для этого есть серьезные основания: в последние десятилетия резко возросли потоки информации во всех сферах человеческой деятельности и появились мощные технические средства ее передачи и обработки, однако, общение между странами и народами по-прежнему затруднено, и одной из основных трудностей остается языковой барьер. Традиционные методы преодоления языковых барьеров - это изучение иностранных языков и переводческая деятельность. Но с ростом экономических, политических и культурных связей между странами, а также в связи с повышением интенсивности информационных потоков между ними эти методы становятся недостаточными. Поэтому, несмотря на все трудности и используя многие доступные формальные методы, продолжают развиваться интеллектуальные системы, такие как системы машинного перевода, переводческие накопители, огромные по размеру и наполнению базы знаний поисковых систем, действующие как автономно, так и в среде сети Интернет, - в этом серьезная роль и большая заслуга прикладной

лингвистики, к задачам которой относится и оценка этих интеллектуальных систем.

Актуальность темы: в условиях информационного общества обилие разработанных и разрабатываемых интеллектуальных систем обработки текста, к которым относятся информационно-поисковые системы и системы машинного перевода в том числе, требует быстрой и адекватной оценки. Важно иметь представление о качестве систем как на стадии начальной разработки, так и на стадии готового продукта. Решение подобной задачи традиционными экспертными способами чрезвычайно трудоемко и, как правило, дает субъективный результат. Создание формальной методики решения этой проблемы - веление времени, тем самым тема диссертационной работы актуальна, как в теоретическом, так и практическом смысле Научная новизна работы определяется следующими результатами:

  1. Разработан новый подход к оценке эффективности систем автоматической обработки текста с применением современного математического аппарата нечеткой логики, по сути экспертная система оценки интеллектуальных систем на базе нечеткой математики.

  2. Создан новый комплекс критериев оценки интеллектуальных систем.

  3. Разработанный подход является универсальным: нечеткие экспертные системы позволяют оценивать качество интеллектуальных систем с единых позиций в зависимости от требуемой степени точности и сложности оценки.

  4. Проведено тестирование созданной системы оценки качества на трех типах интеллектуальных систем автоматической обработки текста -автоматизированном дистрибутивно-статистическом анализе (ДСА), системе машинного перевода (СМП), информационно-поисковой

системе (ИПС), в разработке которых автор принимал активное

участие. 5. В работе предложена новая типологическая классификация

электронных словарей и экспериментальная классификация

серьезности ошибок при русско-английском машинном переводе.

Научные положения, изложенные в работе, опираются на обширные аналитические исследования имеющихся в мировой науке работ по близкой тематике. В итоге создано новое направление оценки плохо формализуемых интеллектуальных систем на базе нечеткой логики. Объект исследования: существующие на настоящий момент формальные методы оценки интеллектуальных лингвистических систем разного типа, включая системы машинного перевода и информационно-поисковые системы. Цели и задачи:

изучение и анализ существующих современных формальных методов автоматической обработки естественного языка;

изучение и анализ формальных методов оценки интеллектуальных систем (ИС);

обоснование необходимости создания формального метода оценки интеллектуальных систем на базе нечеткой логики и создание универсальной системы оценки на базе этого метода;

тестирование разработанной системы на ИС разного типа: автоматизированном варианте ДСА, СМП и ИПС.

Теоретическая значимость: системы экспертных оценок представляют собой сложный аппарат, строящийся, как правило, на статистических методах. Такие методики не слишком хороши для систем автоматической обработки текста на естественном языке, поскольку язык принадлежит числу плохо формализуемых систем. Результаты исследования и оценок

автоматических систем обработки текста способны внести существенный вклад как в прикладное, так и теоретическое языкознание. Научные результаты фактически открывают новое направление создания систем оценки интеллектуальных лингвистических систем.

Практическая ценность: впервые создана универсальная система оценки автоматических систем обработки текста на базе нечеткой логики, способная оценивать эффективность разнообразных интеллектуальных систем по комплексу изменяемых критериев. Экспертная система является реально действующей в интегрированной среде MATLAB. Методы исследования: в первую очередь системный метод анализа существующих достижений в области создания автоматизированных систем и разнообразных систем оценки и определении научной целесообразности применения аппарата нечеткой логики для оценки лингвистических систем; метод моделирования при проектировании и разработке собственно экспертной системы на базе нечеткой логики; описательно-аналитический и типологический методы при сравнении полученных результатов оценки.

Материалом исследования послужили следующие автоматизированные системы обработки текста:

  1. автоматизированный дистрибутивно-статический анализ, которым был обработан массив текстов объемом более 100 тыс. словоупотреблений, состоящий из текстов разных жанров (монография, научные статьи, рефераты из реферативного журнала, массив толкований терминологического словаря научно-технической терминологии по системам связи и управления);

  2. система машинного перевода АСПЕРА, тестирование которой проводилось на текстах по 5 тематикам (бизнес, история философии,

*

охрана окружающей среды, информатика, медицина) общим объемом

100 Кб; 3) информационно-поисковая система КАСКАД, содержащая около 1000

статей.

Объем исследования подтверждает достоверность полученных результатов.

Апробация: основные положения работы изложены в монографии "Формальные методы в современной прикладной лингвистике" (2002 г.) и других печатных работах автора (более 20), а также представлены в виде докладов и выступлений на межвузовских, всероссийских и международных конференциях.

Структура работы: в соответствии с поставленными задачами диссертационная работа состоит из введения, четырех глав, заключения, списка использованной литературы и ряда приложений.

Дистрибутивно-статистический анализ лексики

Метод дистрибутивно-статистического анализа лексики (ДСА) подразделяется на два варианта: дистрибутивный и статистический и предполагает использование математического аппарата теории вероятностей и логико-лингвистического аппарата, основанного на понятии дистрибуции.

Многое, сделанное в прикладной лингвистике этим методом, суммировал А.Я. Шайкевич, который предложил свою точку зрения, рассматривая ДСА как сумму формальных алгоритмических процедур, направленных на описание языка и опирающихся только на распределения (дистрибуции) заданных элементов в тексте. Под заданными элементами могут пониматься буквы (и другие графические символы), цепочки букв между пробелами (слова), цепочки слов между более крупными пробелами (предложения), т.е. любые объекты в тексте, непосредственно доступные нашему восприятию. Сам анализ при этом постоянно использует количественную информацию о встречаемости элементов в тексте.

Дистрибутивный вариант ДСЛ основан на сходстве распределений слов, т.е. всех возможных контекстов, в которых эти слова могут встречаться. Статистический вариант ДСЛ базируется на числовых характеристиках совместной встречаемости элементов текста в контекстах определенной длины: слова, связанные по смыслу, должны часто встречаться в тексте недалеко друг от друга, и наоборот, слова, часто встречающиеся вместе в осмысленном тексте, связаны друг с другом до смыслу.

Реальная совместная встречаемость двух лексических единиц (двух ключевых слов) и ожидаемая (теоретическая) встречаемость этих же единиц дает представление о силе связи этих элементов текста. Оценка расхождений между значениями, полученными эмпирически и путем статистических расчетов, и является основой метода ДСА.

Для успешной реализации ДСА необходим адекватный и точный выбор единицы анализа и интервала текста, на котором будет проведен анализ. Вопросы эти неоднократно поднимались в различных работах [Шайкевич 1976, Максименко 1989], однако что касается единицы анализа, то каждый исследователь выбирал ту единицу, которая наиболее соответствовала решаемой задаче - от словоформы до квазиосновы. Ю.И. Караулов в качестве единицы анализа брал гиперлексему и ее представителя в плане выражения - квазиоснову. Гиперлексема использовалась в качестве основной единицы анализа и в экспериментах А.А. Поликарпова и О.И. Максименко (1988). И.В. Маршакова опиралась на ключевое слово, т.е. слово, несущее семантическую нагрузку в тексте. Вопрос об определении интервала анализа оставался открытым в течение долгого времени. В работах Л.Я. Шайкевича было конкретизировано понятие интервала текста и приведены в общих чертах задачи, которые можно решить на том или ином интервале. Под интервалом текста понимается один из множества равных отрезков, на которые разбивается текст. При этом предполагается, что для каждого конкретного исследования точно фиксируется длина интервала, которая служит базой для всех математических расчетов. Переход от одного интервала к другому означает получение семантической информации нового качества. Таким образом, понятие интервала текста оказывается некоторым аналогом понятия "уровень" в содержательной лингвистике.

Было определено шесть интервалов текста: 1) Микроинтервал - необходим для проведения ДСА внутри слова, является этапом морфемного членения. 2) Минимальный - одно-два слова влево и вправо от анализируемого, используется для получения грамматической, фразеологической, лексико-семантической информации. 3) Малый - окружение в пять-сорок слов. Используется для получения лексико-семантической информации. 4) Средний - окружение в 50-300 слов. Наименее изучен. Возможно, работа с этим интервалом дает семантическую информацию, связанную с темой отрезка. 5) Большой - окружение в 500-2000 слов. На таком интервале изучаются тематические, стилистические факторы. 6) Максимальный - целые тексты большой длины. Получаемая семантическая информация носит смешанный тематико-стилистическии характер в художественной литературе и тематический - в текстах других жанров. Оптимальным интервалом для фиксации "контекстуальных связей" слов, т.е. связей, обеспечивающих связность текста, считается интервал в одно-два предложения справа и слева от анализируемого слова [Королев 1977, Максименко 1989].

Анализ связи между ключевыми словами основывается на предположении о независимости появления двух слов в тексте (т.е. об отсутствии связи между ними), что позволяет вычислить математическое ожидание их совместной встречаемости в интервале текста, исходя из теоремы об умножении вероятностей. Отклонение реальной совместной встречаемости двух слов от их теоретической встречаемости противоречит гипотезе о независимости появления этих слов в тексте, т.е. между ними существует связь (синтагматическая). Оценка синтагматической связи может проводиться по таблицам отклонения наблюдаемых данных от ожидаемых, составленным А.Я. Шайкевичем. Экспериментально было определено 5 градаций силы связи между і-м и j-м словами. Максимальная сила связи равна 5. На минимальном интервале пары слов с силой связи равной 5 могут быть выделены как устойчивые словосочетания. Силу связи равную 4 имеют семантически регулярные словосочетания. Семантическая регулярность обнаруживается на среднем интервале текста. Устойчивые словосочетания, чья семантическая регулярность не доказана, можно считать специфическими (идиоматическими) для данного тематического массива.

Оценка информационных технологий и эффективности инвестиций

Для решения проблемы подтверждения адекватности выбора эксперта при автоматизированном процессе принятия решений и получении оценок с помощью экспертных систем в настоящее время используется несколько способов. Одним из наиболее распространенных является подтверждение адекватности с помощью терминологического словаря. Терминологический словарь представляет собой один из способов описания предметной области. С помощью закона Ципфа в нем выделяются наиболее значимые термины. Эти термины, как правило, отражают суть предметной области и имеют наибольшую частоту встречаемости. Таким образом строится базовый частотный терминологический словарь, который легко представить в электронном виде. По частотному словарю можно определить несколько первых терминов в порядке убывания их частоты встречаемости, а затем предложить предполагаемому эксперту расположить эти термины в порядке их важности для выбранной предметной области. Если эксперт поместил десятый термин на место первого, то уровень его компетентности сразу становится ясен, но если он переставил местами, например, второй и третий термины, то скорее всего выбор данного эксперта адекватен, и для вынесения окончательной оценки следует учесть психологические, личностные и другие особенности конкретного человека.

Другой способ определения адекватности выбора эксперта основан на использовании семантической сети предметной области. В результате опроса некоторого количества экспертов и использования существующих терминологических словарей строится семантическая сеть предметной области в виде неориентированного графа. Вес вершины такого графа определяется количеством связанных с ней дуг. Определить компетентность эксперта можно по степени связности вершин графа, построенного экспертом, и/или по сумме весов вершин, указанных им.

Однако известно, что закон Ципфа является экспериментальным, и существует определенное критическое количество лексических единиц, когда он перестает выполняться [Скларевич 1990]. Построив на основе частотного словаря с помощью методов приближенных вычислений экспериментальную гиперболу Ципфа, можно улучшать ее приближения к теоретическому варианту за счет опроса экспертов выбранной предметной области и изменения частотности терминов. Чем большее число экспертов будет задействовано в опросе, тем полнее будет описана предметная область. Такую работу можно провести в рамках использования Интернет-технологий методом стандартизованного интервьюирования [Бутенко 1997]. Но, поскольку Интернет является открытой системой, необходимо защитить наполнение словаря или расширение семантической сети процедурой проверки адекватности оценок предполагаемого эксперта.

Теория и практика получения экспертных оценок весьма математизированы. Выделяются две взаимосвязанные ветви математические модели поведения экспертов и математико-статистические методы анализа экспертных оценок.

Модели поведения экспертов обычно основаны на предположении, что эксперты оценивают интересующий ЛПР параметр с некоторыми ошибками, т.е. эксперт выступает в роли особого рода "прибора" с присущими ему метрологическими характеристиками. Оценки группы экспертов рассматриваются как совокупность независимых одинаково распределенных случайных величин со значениями в соответствующем пространстве объектов числовой или нечисловой природы. Обычно предполагается, что эксперт чаще выбирает правильное решение (т.е. адекватное реальности), чем неправильное. В математических моделях это выражается в том, что плотность вероятности распределения случайной величины - ответа эксперта - монотонно убывает с увеличением расстояния от центра распределения - истинного значения параметра. Существует немалое число работ, в которых описаны модели поведения экспертов [Кемени, Снелл 1972; Orlov 1993 и др.]. На математических моделях поведения экспертов основаны методы планирования экспертного опроса, сбора и анализа ответов экспертов. Очевидно, что, чем больше предположений заложено в модели, тем большее количество выводов можно сделать на основе экспертных оценок, рассматриваемых как статистические данные, но чем меньше оснований для принятия используемой модели, тем менее обоснованными будут и эти выводы. Существуют следующие модели поведения экспертов: параметрические, непараметрические и модели анализа данных.

Параметрическим моделям соответствуют наиболее сильные предположения, проверить которые обычно не удается. К числу таких моделей относятся модель Терстоуна и модель Бредли-Терри-Льюса. Недостатком указанных моделей является тот факт, что в них невозможно доказать нормальный закон распределения ответов экспертов [Орлов 1991]. Причиной этого наряду с другими факторами является ограниченность числа экспертов - обычно не более 10 - 30, что делает невозможным надежную проверку закона распределения.

Непараметрические модели опираются лишь на предположения общего характера о возможности вероятностно-статистического описания поведения экспертов с помощью непрерывных функций распределения или люсианов, параметрами которых служат нечеткие множества -векторы вероятностей ответов "да". Во многих ситуациях такие модели представляются вполне адекватными.

Под моделями анализа данных понимаются модели, не использующие вероятностные соображения. Очевидно, они наиболее адекватны и защищены от критики, поскольку не претендуют на выход за пределы имеющихся данных и не предполагают построения и обоснования какой-либо вероятностно-статистической теории реального явления или процесса. Однако с их помощью нельзя сделать никаких заключений о будущих аналогичных ситуациях, в то время как экспертные опросы проводятся именно ради обоснования поведения системы в будущем.

Оценка СМП с помощью нечетких экспертных систем

С помощью методики независимой оценки В.А. Григорьев исследовал качество систем автоматического аннотирования текстов: Libretto (коммерческий продукт компании "Медиалингва") и Magion-2 (исследовательская система В.А. Григорьева и В.А. Чочиева). В эксперименте участвовали три эксперта, задача которых была оценить качество работы указанных систем. Каждый эксперт работал отдельно от других и перед началом тестирования получил группу контрольных текстов и их аннотации, выполненные системами автоматического аннотирования (для эксперта они были обозначены как "X" и "Y"). Эксперт должен был ознакомиться с каждым текстом контрольной группы, составить аннотацию каждого текста, оценить качество аннотаций, выполненных системами, оценить уровень сложности каждого текста. В заключение эксперт выставлял оценку работе каждой из систем по общепринятой пятибалльной шкале. В оценках допускалась дробная часть. В контрольную группу текстов входил 21 текст различного содержания. Таким образом, каждый эксперт "представил" каждой системе один и тот же набор из двадцати одного запроса и выполнил обе описанные выше экспертные роли: проранжировал запросы по уровню сложности и оценил качество каждого ответа системы.

В случае фундаментальной системы или близкой к ней (Magion-2) средняя экспертная оценка близка к F (фундаментальному качеству системы). Если система авангардная и не имеет фундаментальных уровней сложности (Libretto), то средняя экспертная оценка близка к С (конструктивному качеству системы). Если авангардная система имеет фундаментальные уровни, средняя экспертная оценка неоднозначна. Таким образом, если для фундаментальных систем параметр F является исчерпывающей характеристикой качества, то для авангардных систем требуется обобщение понятия независимой оценки: независимой оценкой качества ИИС следует считать пару чисел: фундаментальное F и конструктивное С качество системы.

Как уже упоминалось, отдельным и очень серьезным фактором повышения точности экспертных оценок является выявление состоятельных экспертов. Критерий, предложенный в работе [Григорьев 1997], требовал от состоятельного эксперта успешного выполнения контрольного теста, который заключался в следующем. Эксперт формировал по своему усмотрению запросы системе, составлял "эталонные" ответы системы (т.е. правильные по его мнению) и по завершении тестирования выставлял итоговую оценку качества. Для вычисления независимой оценки качества запросы эксперта ранжировались по уровню сложности. Критерием состоятельности эксперта служила степень близости его оценки к независимой оценке. С учетом наличия авангардных систем критерий состоятельности эксперта был сформулирован в виде: "Наиболее надежные оценки соответствуют экспертам, которые обеспечивают близость или принадлежность собственной оценки диапазону значений, определяемому фундаментальным и конструктивным уровнями качества системы".

Рассмотренный выше метод оценки качества интеллектуальных систем имеет ряд существенных достоинств. Наиболее примечательными из них являются абсолютная значимость получаемых оценок (т.е. их безотносительность тестовым заданиям) и согласованность этих оценок с оценками экспертов. Однако существует одна проблема - разрывность шкалы независимой оценки. Действительно, пусть число фундаментальных уровней системы меньше общего числа уровней сложности N т. Тогда F = N + qx+i, при этом л+/ //. Если /,v / //, то уровень yV+/ должен считаться фундаментальным, и показатель его качества в сумме для величины F заменится на 1. Таким образом, дробная часть независимой оценки качества не может принимать значения И 7лг / 1, что указывает на наличие соответствующих "мертвых зон" в шкале оценок. Для параметра С такая зона имеет место только для последнего, самого высокого уровня сложности.

Отмеченная особенность не отвечают общепринятым представлениям о неметрических шкалах, т.к. традиционно используемые шкалы либо полностью дискретны, либо полностью непрерывны. Совмещение этих свойств в одной шкале нарушает представления о смысловой однородности приращения качества по отношению к его исходной величине. Таким образом, рассматриваемая специфика шкалы независимой оценки требует либо своего обоснования, либо введения средств корректировки.

В работе [Григорьев, Кузнецов 2000] была предложена модифицированная независимая оценка качества ИИС. Было предложено сохранить прежнее определение фундаментального уровня, но вычислять общее число фундаментальных уровней в параметрах F и С , заменив принцип порога ("уровень либо фундаментален, либо нет") принципом "интенсивного" линейного роста величины, указывающей на наличие фундаментального уровня. Такая модификация устраняет "мертвые зоны" шкалы независимой оценки, а также скачки оценок, возникающие, если показатель качества какого-либо уровня равен "достаточному" качеству Н. Одной из важнейших проблем на ранней стадии разработки ИИС является проблема прогноза возможностей системы, которая "вырастает" из задачи оценки качества ее функционирования, причем в сторону усложнения. Непосредственное использование традиционных методов оценки эффективности интеллектуальных систем в данном случае малоперспективно, т.к. обычно эти методы основаны на оценке результата работы "готовой" системы в определенных условиях. К тому же понятие "прогноз возможностей" формализовать существенно труднее, чем понятие "качество функционирования". Оценка потенциальных возможностей разрабатываемой системы нужна прежде всего самому разработчику, который должен выбрать наиболее эффективный путь развития проекта, т.е. автор сам должен выступить экспертом. Это тоже отличает проблему оценки перспективы от проблемы оценки качества функционирования, где реально существующую систему может оценить независимый эксперт.

Для оценки потенциальных возможностей интеллектуальной системы можно использовать метод неметрических шкал, сводящийся к экспертной оценке. Такой подход основан на классификации результатов, которые соответствуют ранней стадии разработки проекта, когда основные свойства системы уже определены. Оценка уровня потенциальных возможностей (Р) разрабатываемой интеллектуальной системы представляет собой сумму двух оценок: уровня перспективы развития (L) и качества функционирования.

Методы автоматизированного индексирования, рубрицирования и аннотирования

Процессы глобализации и международное разделение труда обусловило острую необходимость в переводах разнообразных документов - технических, юридических, деловых и т.д. - с одного языка на другой. Сформировался значительный рынок услуг по переводу, который в 2002 году составил около 10 миллиардов долларов. Наблюдается устойчивая тенденция к увеличению затрат компаний на переводы в первую очередь технической документации, причем для большинства компаний актуально не столько качество перевода, сколько его оперативность. В этой ситуации выходом является машинный перевод (Machine Translation, МТ или МП).

Сама по себе проблема машинного перевода (МП) является одной из наиболее интересных проблем, связанных с моделированием языковой деятельности человека. Нет необходимости доказывать, сколь многогранна и сложна деятельность переводчика. Тем более сложно осуществить эту деятельность или хотя бы ее часть с помощью компьютера. Для этого требуются программы и алгоритмы, которые дали бы возможность воспроизвести действия или результаты тех действий, которые производит человек с единицами двух естественных языков, обеспечивая эквивалентность двух текстов на разных языках. Эта эквивалентность должна быть не только на уровне содержания, но и на уровне языковых средств выражения. Перевод сложнее реферирования, аннотирования, индексирования и других процедур, для многих из которых есть удовлетворительные машинные решения и существуют действующие программы.

Чтобы получить идеальный машинный перевод текста, необходимо воссоздать на компьютере, как минимум, три модели человеческой деятельности: модель мышления, модель речевой деятельности и модель мира, в котором живет человек. Однако все это - проблематика искусственного интеллекта и создание указанных моделей - вопрос далеко не завтрашнего дня.

В настоящее время перспектива появления более совершенных систем, обеспечивающих лучшее качество собственно машинного перевода и соответственно уменьшение усилий по постредактированию, связана с разработкой моделей, более точно воспроизводящих действия человека-переводчика, использующих формализованные синтаксические и семантические методы анализа и синтеза, эквивалентно преобразующих смысловое содержание в тех пределах, которые допустимы для того, чтобы перевод мог бы еще называется переводом, а не переходил в реферирование. Прогресс в этих направлениях дается с большим трудом. Путь создания систем МП - путь индуктивный, идущий от потребностей практики и формализации сначала доступных формализации лингвистических явлений ко все более сложным зависимостям.

Для МП большое значение имеют такие параметры, как объем памяти и быстродействие компьютера, язык программирования, оптимальность работы с лингвистическими данными в памяти и на внешних накопителях. Главным в проблеме МП была и остается лингвистическая часть, необычайно широкая, охватывающая все уровни языка: от довольно простых морфологических до сложных семантических. Поскольку необходимо максимально повысить качество машинного продукта (перевода) в человеко-машинной системе, сделать МП близким по качеству к переводу, который осуществляет человек, лингвистическая проблематика МП остается неисчерпаемой, и можно сказать, что машинный перевод остается областью интенсивного развития и порождения разнообразных идей.

В даншли момент существуют следующие типы компьютерного перевода. Системы машинного перевода (СМП) - программы, осуществляющие полностью автоматизированный перевод. Главной характеристикой программы является качество перевода. Кроме этого, для пользователя важными моментами являются удобство интерфейса, лёгкость интеграции программы с другими средствами обработки документов, возможность выбора тематики, наличие утилиты пополнения словаря. С появлением сети Интернет основные поставщики СМП включили в свои продукты Web-интерфейсы, обеспечив их взаимодействие с остальным программным обеспечением и электронной почтой, что позволило применять механизмы МП для перевода Web-страниц, электронных писем и онлайновых разговорных сеансов. Согласно последним аналитическим обзорам, большинство современных программ МП выполняет пословный перевод, опирающийся на некоторый набор правил. Разработчики СМП признают, что относительно неплохой результат можно получить только после настройки системы на конкретную языковую ситуацию, т.е. после установки словаря по соответствующей предметной области, указания типа текста и корректировки нескольких первых страниц перевода, что задает программе определенные эталоны. При правильном выборе словаря получается вполне удовлетворительный результат, иногда не требующий большого последующего редактирования.

Практически все теории, необходимые для получения качественного перевода текста с помощью компьютера, уже разработаны. Хоть и медленно, но развиваются теории нейронных сетей и искусственного интеллекта, поэтому исследования в хорошо финансируемых отраслях западной науки, которые активно разрабатывают проблематику искусственного интеллекта (гражданская и военная кибернетика), могут оказать свое влияние на дальнейшее развитие МП. Компиляция обширных баз знаний, таких как словари, глоссарии и переводческие накопители (Translation Memory, ТМ), также способна благотворно повлиять на МП.

Похожие диссертации на Формальные методы оценки эффективности систем автоматической обработки текста