Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Автоматизированный этимологический анализ Прохоров Илья Викторович

Автоматизированный этимологический анализ
<
Автоматизированный этимологический анализ Автоматизированный этимологический анализ Автоматизированный этимологический анализ Автоматизированный этимологический анализ Автоматизированный этимологический анализ Автоматизированный этимологический анализ Автоматизированный этимологический анализ Автоматизированный этимологический анализ Автоматизированный этимологический анализ
>

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Прохоров Илья Викторович. Автоматизированный этимологический анализ : диссертация ... кандидата технических наук : 05.13.01. - Волгоград, 2007. - 151 с. : ил. РГБ ОД, 61:07-5/3678

Содержание к диссертации

Введение

1 Состояние вопроса и постановка задачи исследования 11

1.1 Анализ методик этимологического анализа 11

1.2 Анализ существующих алгоритмов кластеризации 15

1.3 Признаки выявления общеязыковых неологизмов 20

1.4 Исследование методологии Контент-анализа 23

1.5 Анализ логических систем 28

1.6 Выводы. Постановка задачи исследования 56

2 Математический аппарат 58

2.1 Нечеткая литерная логика 58

2.1.1 Интерпретация операции конъюнкции 59

2.1.2 Интерпретация операции дизъюнкции 63

2.1.3 Интерпретация операции отрицания 65

2.1.4 Процедура вывода НЛЛ 67

2.2 Нечеткая порождающая «И/ИЛИ» грамматика 70

2.2.1 Определение грамматики «И/ИЛИ» грамматики. 70

2.2.2 Процедура вывода «И/ИЛИ» грамматик 72

2.3 Выводы 75

3 Система автоматизированного этимологического анализа 76

3.1 Входные данные системы 78

3.1.1 Определение множества описаний естественных языков 78

3.1.2 Определение множества адресов сайтов 81

3.1.3 Определение множества файлов страниц сайтов 82

3.1.4 Определение множества запросов пользователей к этимологическому словарю 83

3.2 Выходные данные S5

3.2.1 Определение множества запросов к сайтам 85

3.2.2 Определение множества справок этимологического словаря 86

3.3 Описание задачи поиска слов иноязычного происхождения 86

3.3.1 Определение множества исследуемых языков 87

3.3.2 Описание модуля кластеризации 90

3.3.3 Описание модуля этимологического анализатора 93

3.4 Описание задачи поиска в сети Интернет новых слов 103

3.5 Описание задачи предоставления этимологических справок 106

3.6 Выводы ПО

4 Результаты испытаний системы автоматизированного этимологического анализа 111

4.1 Оценка точности разработанных критериев 111

4.2 Анализ эффективности разработанных алгоритмов 112

4.2.1 Анализ алгоритма кластеризации 112

4.2.2 Анализ алгоритма этимологического анализа 117

4.2.3 Анализ алгоритма выявления общеязыковых неологизмов 120

4.3 Выводы 125

Заключение 126

Библиографический список 127

Приложения 151

Введение к работе

Актуальность темы исследования. Сохранение языка — важнейшая задача его носителей. С этой целью ведутся постоянные исследования в области языкознания. Но языки не статичны, процесс их развития продолжается и в настоящее время.

В первую очередь, развитие языка сказывается на его лексике, что проявляется в виде образования новых слов средствами языка или путем заимствования. Помимо этого, непрерывно идут процессы устаревания, опрощения, переразложения, усложнения и декореляции существующих слов.

Базовым методом исследования лексических систем является этимологический анализ. Он основывается на закономерных звуковых и морфологических изменениях слов в процессе эволюции языка, учитывает регулярные переходы одних типов лексического значения слова в другие.

На сегодняшний день разработано множество методик этимологического анализа, но все они подразумевают кропотливый ручной труд, занимающий многие годы. Примером тому служит десятилетие, затраченное Фасмером на составление этимологического словаря русского языка.

В последние годы появился ряд программных систем позволивших автоматизировать выявление закономерных фонетических соответствий, изменений в лексическом, фонетическом, семантическом составе слов на разных этапах развития языка, однако самые объемные этапы — выяснение особенностей развития словообразовательной структуры слов и выяснение особенностей бытования слов остались неавтоматизированными. Это связано с тем, что задача стоит на стыке нескольких областей; лингвистики, математического моделирования и искусственного интеллекта. При этом аппарата каждой науки в отдельности недостаточно для автоматизации. Однако, на современном этапе решение данной задачи представляется возможным на основе бурно развивающихся методов системного анализа.

Таким образом, применение аппарата системного анализа для автоматизации методов выявления слов иноязычного происхождения является актуальной задачей.

Цель и задачи исследования. Целью работы является повышение эффективности моделей и методов этимологического анализа лексических систем естественных языков. Для достижения цели необходимо решить следующие задачи:

  1. Анализ методик выявления слов иноязычного происхождения в лексических системах естественных языков;

  2. Разработка математического аппарата, необходимого для автоматизации этимологического анализа;

  3. Разработка нечетких критериев идентификации слов иноязычного происхождения;

  4. Разработка алгоритмического и программного обеспечения процесса поиска слов иноязычного происхождения в лексических системах естественных языков;

  5. Анализ точности разработанных критериев;

  6. Анализ эффективности разработанных алгоритмов.

Объектом исследования является процесс этимологического анализа.

Методы исследования. Решение рассматриваемых в диссертации задач базируется на аппарате структурной и прикладной лингвистики» нечеткой математики, нечеткой логики, порождающих грамматик Хомского, системного анализа.

Научная новизна состоит в следующем:

Разработан аппарат нечеткой литерной логики» позволяющий работать с лексическими системами естественных языков на основе семантики слов;

Разработана модернизация аппарата нечетких порождающих грамматик, позволяющая строить нечеткие пространства цепочек над словарем за одну процедуру вывода;

Разработана система нечетких критериев идентификации слов иноязычного происхождения;

Формализована процедура выявления новых слов, их тематических групп, синонимов и переводов;

Формализована методика выявления слов иноязычного происхождения.

Практическая ценность работы заключается в следующем:

Полученные результаты формируют теоретическую и практическую базу для дальнейших лингвистических исследований;

Аппарат нечеткой литерной логики может быть применен: в экспертных системах; в системах семантического анализа текстов на естественном языке; в поисковых машинах; при анализе речи, и в других задачах.

Разработанная модификация аппарата нечетких порождающих грамматик может быть применена: в поисковых машинах; при решении задач распознавания образов; при описании лексических систем и грамматик естественных языков, и в других задачах.

Формализованная процедура выявления новых слов может быть применена при создании автоматизированных словарей, новостных лент и др.

Разработанный алгоритм нечеткой кластеризации может применяться при создании автоматических рубрикаторов естественно-языковых ресурсов, анализе речи.

Система автоматизированного этимологического анализа позволяет существенно сократить время, требуемое на поиск слов иноязычного происхождения в лексических системах естественных языков.

Достоверность полученных результатов основана на непротиворечивых исходных положениях и корректных выводах с подтверждением экспериментальной проверкой разработанных алгоритмов.

Реализация результатов работы. Теоретические результаты реализованы в виде программных модулей, позволяющих проверить работоспособность разработанных алгоритмов.

Результаты работы внедрены в учебный процесс кафедры САПР И ПК Волгоградского государственного технического университета, а также в организации: ОАО «Волгоградгоргаз»; ООО КП «Комплекс»; 000 «Геоцентр»; 000 ПКЦ «Газстройсервис»; ООО «ПРАЙМ».

Положения выносимые на защиту.

Аппарат нечеткой литерной логики;

Модернизация аппарата нечетких порождающих грамматик, позволяющая строить нечеткие пространства цепочек над словарем за одну процедуру вывода;

Система нечетких критериев идентификации слов иноязычного происхождения;

Алгоритмическое обеспечение процесса поиска новых слов;

Нечеткие критерии выявления слов иноязычного происхождения;

Алгоритмическое и программное обеспечение процесса поиска слов иноязычного происхождения в лексических системах естественных языков.

Апробация работы. Основные положения диссертационной работы докладывались на следующих конференциях:

— смотре-конкурсе научных, конструкторских и технологических работ
студентов, ВолгГТУ, Волгоград, 10—13 мая 2004 г. (работа заняла 3
место);

VII-й всероссийской научной конференции с международным участием «Новые информационные технологии. Разработка и аспекты применения», Таганрог, 25—26 ноября 2004 г.;

Ш-ей Всероссийской конференции «Инновационные технологии в обучении и производстве», Камышин, 20—22 апреля 2005 г. (работа получила поощрительную премию);

смотре-конкурсе научных, конструкторских и технологических работ студентов, ВолгГТУ, Волгоград, 10—13 мая 2005 г. (поощрительная премия);

Ш-ем Международном научно-практическом семинаре «Интегрированные модели и мягкие вычисления в искусственном интеллекте», Коломна, 15—17 мая 2005 г.;

Ш-ей Всероссийской научно-практической конференции «Технологии Интернет на службе обществу», Саратов, 26—28 мая 2005 г.;

V-ой Международной научно-методической конференции «Дистанционное обучение — образовательная среда XXI века», Минск, 10—11 ноября 2005 г.;

Ш-ей Международной научно-технической конференции «Интеллектуальные системы (AIS' 06). Интеллектуальные САПР», Дивноморское, 3—10 сентября, 2006 г.;

IV-й международной научно-практической конференции «Интегрированные модели и мягкие вычисления в искусственном интеллекте», Коломна, 28-30 мая 2007 г.

По результатам исследований опубликовано 12 статей, из них 2 в журналах, рекомендованных ВАК.

Структура и содержание диссертационной работы. Диссертационная

работа состоит из введения, четырех глав с выводами, заключения, библиографического списка из 259 наименований, и приложений. Обший объем работы 151 страница, в том числе 32 рисунка, 82 формулы и 6 таблиц.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы, дана общая характеристика работы.

В первой главе приводятся обзор аналогов и результаты анализа: методик выявления слов иноязычного происхождения в лексических системах естественных языков; признаков выявления неологизмов; алгоритмов кластеризации.

На основе результатов исследования производится уточнение цели работы и задач, которые необходимо решить для ее достижения.

Во второй главе приводится описание разработанного аппарата нечеткой литерной логики (НЛЛ), оперирующего семантикой слов на основе их символьного представления, что позволяет вычислять степень близости слов без словарей.

Также приводится описание нечетких порождающих «И/ИЛИ» грамматик, позволяющая строить нечеткие пространства цепочек над словарем за одну процедуру вывода;

В третьей главе приводится описание системы автоматизированного этимологического анализа.

В ходе разработки системы автоматизированного этимологического анализа: формализована процедура выявления новых слов, их тематических групп, синонимов и переводов; разработана система нечетких критериев идентификации слов иноязычного происхождения, формализована методика выявления слов иноязычного происхождения.

В четвертой главе приводятся результаты анализа разработанных критериев и алгоритмов, в ходе которого была показана их точности и эффективности.

В заключении приведены выводы и основные результаты работы.

В приложении приведены материалы о внедрении результатов диссертационной работы.

Диссертационная работа выполнена на кафедре САПР и ПК Волгоградского государственного технического университета.

Анализ методик этимологического анализа

Лексикология (от греч. Lexikos — «относящийся к слову» и logos — «слово, учение»)[1] — раздел языкознания, изучающий лексику (словарный состав) языка и слово как единицу лексики. Одной из основных задач лексикологии является исследование значений слов и фразеологизмов, изучение многозначности, омонимии, синонимии, антонимии и других отношений между значениями слов. В сферу ведения лексикологии входят также изменения в словарном составе языка, отражение в лексике социальных, территориальных, профессиональных характеристик людей, которые говорят на языке (их принято называть носителями языка).

Словарный состав современного русского языка прошел длительный путь становления. Наша лексика состоит не только из исконно русских слов, но и из слов, заимствованных из других языков. Иноязычные источники пополняли и обогащали русский язык на протяжении всего процесса его исторического развития. Одни заимствования были сделаны еще в древности, другие -сравнительно недавно. [2] Изучением процессов заимствования занимается этимология.

Этимология (наука о происхождении слов) — одна из древнейших отраслей языкознания. Ее основоположниками были древнегреческие философы, в трудах которых и появился термин єтицоХоуісс, образованный из exijiov «истина» и Х-оуос; «слово, учение» и первоначально обозначавший «науку об истине», или об истинном значении слов.

За время существования этимологии как науки понимание ее целей неоднократно менялось, еще большим изменениям подвергалась методика этимологических исследований.

Для выявления принципов построения оптимальной методики этимологического анализа были изучены следующие этапы в истории этимологии: — первые попытки этимологических исследований; — античность; — средневековье; — младограмматизм; — открытие звуковых законов; — вклад А. Мейе в развитие сравнительно-исторического метода; — школа «слов и вещей»; — звуковые первоэлементы Н.Я. Марра; — семантические первоэлементы А. Жюре; — неогумбольдтианство; — теория символических форм; — гипотеза лингвокультурологической относительности Сепира-Уорфа; — современный этимологический анализ. История этимологии как науки доказывает» что прогрессивный путь ее развития определяется комплексным подходом к истории слова во всем его многообразии: — звуковая оболочка; — значение; — культурная и когнитивная парадигмы, определяющие развитие внутренней формы.

Если традиционный фонетический анализ можно назвать тезисом, то принцип «слов и вещей» и поиски семантических первоэлементов являются антитезисом, а современный этап в развитии этимологии представляется синтезом, позволяющим оценить слово как многоплановое явление.

В основе современного этимологического исследования лежит традиционный фонетический анализ, основные законы которого были разработаны младограмматиками (А. Лескин, Б. Дельбрюк, Г. Пауль, Г. Остхоф, К. Бругман). Он позволяет добиваться объективности исследования «материальной», звуковой стороны истории слова, принимая во внимание принцип аналогии и типологического сопоставления.

Поскольку слово является единством звучания и значения, то фонетический анализ сам по себе не является достоверным при сравнительно-исторических исследованиях.

В процессе изучения семасиологических закономерностей истории слова широко привлекаются экстралингвистические факторы: исследуется соответствующая месту и времени употребления слова культурная среда (данные фольклора, мифологии, поэзии и т.д.). При этом используются достижения представителей школы «слов и вещей» (X. Шухардт), неогумбольдтианцев (Л. Вайсгербер, Й. Трир, В- Порциг) и неокантианцев (О. Либман), указывающих на необходимость объединения усилий ученых, изучающих язык и культуру, язык и мышление. Семантический анализ слова предусматривает изучение соответствующего понятийного поля с учетом гносеологического аспекта языка.

В рамках отдельного слова фонетические и семантические закономерности должны быть совместимы, не противоречить друг другу. Возможно наложение запретов на результаты семантического анализа со стороны фонетики. Результатом такого анализа является не только изучение истории слова, но и воссоздание соответствующей Языковой картины мира, определение особенностей познания действительности носителями языка.

Этимология слова почти всегда является гипотезой, относительность которой зависит от принадлежности слова к тому или иному слою словаря, объема сравниваемого материала и глубины реконструкции.

Нечеткая литерная логика

Аппарат нечетких логик достаточно широко применяется для обработки естественного языка. При этом постоянно возникают проблемы связанные с интерпретацией результатов логического вывода, особенно нечеткого. Причины этого явления кроются в аппарате логик (см. п. 1.5).

Дело в том, что существующие логики основаны на искусственно создаваемых лексемах, у которых нет реальных значений, В результате, каждой лексеме может соответствовать бесконечное множество понятий, что и приводит к снижению точности интерпретации результатов логического вывода.

Как показали последние исследования лексических систем современных языков, семантика слова определяется его морфологической структурой и буквенным (символьным — для иероглифических языков) составом. На основе чего, автором разработана «нечеткая литерная логика» (НЛЛ) оперирующая понятиями, стоящими за лексикой естественных языков.

Переменная нечеткой литерной логики характеризуется двойкой (U,X), (2.1) где: U — многомерное позиционное множество символов; X — нечеткое многомерное подмножество множества U, представляющее собой нечеткое ограничение на значение переменных щ Є U — степени значимости символов. В рамках НЛЛ к переменным могут применяться следующие операции: Л — конъюнкция; V — дизъюнкция; - — отрицание.

При осуществлении логического вывода операции применяются слева направо, согласно приоритету: 1) отрицание; 2) конъюнкция; 3) дизъюнкция. Рассмотрим подробно каждую из операций. Конъюнкция в выражениях ШІЛ используется для отражения синонимии между понятиями, заданными переменными. Входом операции является: Щ » Wj — переменные НЛЛ, хранящие синонимичные понятия или объединения понятий. Выходом операции является: wR — переменная НЛЛ, описывающая объединенное понятие; Выполнение операции конъюнкции осуществляется по следующему алгоритму: 1) Совместить множества Щ Є wt и Uj Є w,- так, чтобы совпало максимально возможное число символов; 2) Для каждой позиции к символа совмещенных множеств Ut и Uj: 2.1) Если символы щЕЩ и щ Є Щ равны, просуммировать соответствующие ИМ СТепеНИ ПрИНаДЛеЖНОСТИ Xt Є Хі И Xj Є Xj , поместить результат суммирования и символ щ в к -ую позицию множеств URewRnXRewR; 2.2) Если символы щ Є Ut и щ Є Uj не равны, поместить щ ТАЩ ък -ую позицию множества UR Є wR а степени принадлежности xt Є Xt и Xj Є Xj этих символов, fc-ую позицию множества XRewR.

В ходе анализа и экспериментов было установлено, что подряд идущие символы переменной НЛЛ с .максимальными степенями принадлежности составляют корень, если она получена а результате объединения операцией конъюнкции ряда однокореИНЫХ СЛОЙ.

Точность выделения шрней данным методом пря опропорцнональна проценту однокореияых слов в объединяемом ряде. График зависимости приведен на рис. 2.3,

Из рис, 2.3 видно, что метод СИЛЬНО чувствителен к проценту одкокоршшах слов, В первую очередь УШ связано с высокой аероячностыо совпадения аффиксов и суффиксов СДОБ объединяемого ряда, что может привести к повышению степени принадлежности входящих н них СИМВОЛОВ й ошибочному предположений? о вхождения в корень.

В рассмотренном выше примере, .вес слова из объединяемого ряда имеют обший корень а-крас-й. .Построим график функнни принадлежности переменной хранящей результат вывода, (формула 2.4) к применим описанный выше метод выделений хорня. Из рис, 2.4. йидио, что максимальными степенями принадлежности обладают четыре оуквы щта\ следовательно, они являются общем корнем объединенного рада слов. Очевидно, что корень определен с точностью I при 100% однокоренных слов в объединяемом ряде. Данный результат полностью согласуется проведенным анализом и предыдущими экспериментами. Дизъюнкция в выражениях НЛЛ используется для связывания разнородных синонимических групп при описании баз знаний. Входом операции является: Щ, Wj — переменные НЛЛ, хранящие разнородные понятия. Выходом операции является: wR — переменная НЛЛ, описывающая объединенное понятие. Выполнение операции дизъюнкции осуществляется по следующему алгоритму: 1) Поместить все значения из И{ Є wt в UR є wR; 2) Поместить все значения из X; Є Wj в XR Є wR; 3) Для каждого измерения dj множества Uj Є Wj\ 3.1) Создать в UR Є wR измерение dR; 3.2) Поместить все значения из измерения dj множества Uj Є Wj в измерение dR множества UR ivR; 4) Для каждого измерения dj множества Xj Є w,-: 4.1) Создать в XR Є wR измерение dR; 4.2) Поместить все значения из измерения dj множества Xj Є Wj в измерение dR множестваXR Є wR;

Входные данные системы

На основе проведенного анализа предметной области (см. п. 1.1) и разработанного математического аппарата автором создана система автоматизированного этимологического анализа, обладающая следующей функциональностью; 1) поиск слов иноязычного происхождения в лексических системах языков поданных на вход системы; 2) поиск в сети Интернет слов принадлежащих исследуемым языкам но отсутствующих в их словарях; 3) предоставление пользователям сети интернет этимологических справок.

Первая функция непосредственно автоматизирует процесс этимологического анализа на основе модифицированной методики (см. п. 1.1), используя при этом средства кластеризации, исследования понятийного поля и фонетического состава слов. К сожалению, в процессе анализа система не учитывает внелингвистические факторы заимствований, однако этот недостаток компенсируется полнотой охвата лексических систем фонетическим анализом и исследованием понятийного поля.

Причиной введения второй функции послужила нестабильность лексических систем естественных языков, которая, в первую очередь, проявляется в возникновении новых, отсутствующих в словаре, слов (см. п. 1.3). Сеть Интернет была выбрана местом поиска, поскольку именно она является основным местом проявления новых слов, причиной тому служат особенности современного интернационального общения.

Третья функция введена для взаимодействия с пользователями, и предоставления им результатов работы системы. На рис. 3.1 приведена структура системы. Из рис. 3.1 видно, что система состоит из 4 независимо функционирующих модулей Е , С , 0 и W , взаимодействие которых осуществляется через базу данных.

Данная архитектура системы позволяет осуществлять расширение ее функциональности, без приостановки работы уже существующих функций, что особенно важно в связи с высокой размерностью решаемых задач. Формально система может быть представлена как пятерка: V = (L,C,E,0,W)3 (3.1) где: I — множество исследуемых языков; С — кластеризатор; Е — этимологический анализатор; О — обходящий робот; W — web-сервис этимологического словаря. Рассмотрим более подробно элементы и функции системы. Входными данными системы являются: Гв — множество описаний естественных языков; Sv — множество адресов сайтов; Ри — множество файлов страниц сайтов; QE — запросы пользователей к этимологическому словарю.

Для обеспечения поиска слов иноязычного происхождения, на вход системы подается минимально необходимое описание естественных языков, содержащее информацию о лексических системах и семантических связях между ними (переводах слов), а также тематических группах. GB — множество тематических групп; п — число исследуемых языков. Лексическая система языка описывается синонимическим словарем, грамматиками морфологического разбора, транскрипции и транслитерации. lBi = (bB 9mB 9tB,3TB), (3.3) где: VSB — синонимический словарь; 9тв — нечеткая грамматика морфологического разбора; gtg — нечеткая грамматика транслитерации; дХв — нечеткая грамматика построения транскрипций. Использование синонимического словаря обусловлено необходимостью задания семантики слов, для проведения анализа понятийного поля. В рамках словаря, семантика слов определяется их синонимическими группами, степень близости которых вычисляется по средствам нечеткой литерной логики.

Синонимический словарь в системе задается множеством слов и множеством синонимических связей между ними,

Оценка точности разработанных критериев

Поиск в сети Интернет новых слов — второстепенная задача системы автоматизированного этимологического анализа, введенная для подержания множества L в актуальном состоянии. Ее решение обеспечивается итерационной работой модуля обходящего робота О.

В ходе разработки алгоритмического обеспечения модуля О был было установлено, что на сегодняшний день не существует алгоритмов позволяющих решить задачу автоматического поиска общеязыковых неологизмов в сети Интернет. Поэтому, на основе системы критериев выявления общеязыковых неологизмов (см. п. 1.3) автором разработан новый алгоритм, идентификации.

Входом алгоритма является: I — множество исследуемых языков; Sy — множество адресов сайтов; Выходом алгоритма является: I — множество исследуемых языков, с добавленными словами. Алгоритм состоит из следующих шагов: Для всех адресов sUt є Sa: 1) Послать запросы Qy на выдачу всех страниц сайта по адресу sy.; 2) Провести контент анализ полученных страниц сайтов Ри . Полученные в результате слова поместить в множество Wk; 3) Определить язык її Є L, к которому принадлежит каждое слово Щ є Wk; 4) Выделить подмножество Н множества Wk, такое что Vw Є Н, wj Є % (Щ = и») V (T(W() = T(WJ-)); 5) Если tf I 0 , то занести все слова wt , для которых верно утверждение щ Є H,Wj Є WtyKiwi) Ф K(wj), где K(w{) — маска контекста применения w в множество N; 6) Занести все слова iv; Є Wkr wt & H в множество N; 7) Если некоторое слово wt Є JV, занесенное в N на данной итерации, применяется более чем на (100 - 9{SWJ)% сайтов тематической группы С (SWl), то: 7.1) Занести слово WJEJVB ЯЗЫК lt в тематическую группу G(SW); 7.2) Выделить подмножество Ws множества Wt. Є lt такое, что VWj Є l ,tfl i)cK(vvz); 7.3) Пометить все слова wsEWs как синонимы wt; 7.4) Выделить из всех языков Ц Є L, /у Ф її множество WT слов с аналогичными синонимами; 7.5) Пометить все слова wT Є WT как переводы слова іу(. На рис. 3.14 представлена блок-схема описанного алгоритма.

Как видно из описания, алгоритм позволяет решить три основные проблемы, возникающие при автоматизации поиска общеязыковых неологизмов: — отсечение шумов создаваемых лексическими ошибками и опечатками; — отсечение авторских неологизмов; — определение семантики слова.

Отсечение авторских неологизмов, окказионализмов и слов с лексическими ошибками/опечатками осуществляется за счет использования степеней доверия к содержимому сайтов и требованию к распространенному применению слов (см. шаг 7). Определение семантики слов осуществляется за счет использования масок контекста применения (см. шаг 5).

Предоставление этимологических справок пользователям сети интернет осуществляется web-сервисом этимологического словаря W.

Модуль W предоставляет web-интерфейс для доступа к этимологическому словарю, с помощью которого любой пользователь сети Интернет может получить информацию о происхождении любого слова присутствующего в словаре.

Приведем описание алгоритма работа web-сервиса этимологического словаря.

Входом алгоритма является: ЦЕ. — запрос пользователя к этимологическому словарю. Выходом алгоритма является: ТЕ. — ответ на запрос пользователя в формате XML. Алгоритм состоит из следующих шагов: 1) Найти язык lt Є L, индексом которого является / Є qE. 2) Поместить в множество WQ все омонимы слова wE є qE.содержащиеся в языке Є L; 3) Если флаг bs Є qE. установлен в значение Word , занести в множество Ws синонимы всех слов w0 Є W0; 4) Если флаг bT Є qE. установлен в значение Word , поместить в множество WT переводы всех слов w0 Є W0 на языки, индексы которых содержатся в JL Є qE[; 5) Если флаг bT Є qEi установлен в значение Syn , поместить в множество WT переводы всех слов w0 Є W0 и ws Є Ws на языки, индексы которых содержатся в /L Є qEi; 6) Если флаг bE Є qE. установлен в значение Word , поместить в множество WE этимологические описания wE всех слов w0 Є W0\ 7) Если флаг ЬЕ Є ЦЕ. установлен в значение Syn , поместить в множество WE этимологические описания wE всех слов w0 Є W0 и ws Є Ws; 8) Если флаг ЬЕ Є ЦБ установлен в значение Trans , поместить в множество WE этимологические описания wE всех слов w0 Є W0 и wT Є WT; 9) Если флаг ЪЕ Є . установлен в значение All , поместить в множество WE этимологические описания wE всех слов w0 EW0, ws е Ws и wT є Й г; 10) На основе информации содержащейся в множествах W0,Ws,WTn WE сформировать ответ fE. на запрос qEi по шаблону, приведенному нарис. 3.15.

Похожие диссертации на Автоматизированный этимологический анализ