Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Автоматизация лингвистической обработки словарей научно-технической информации Яфаева Гузал Мирзахмедовна

Автоматизация лингвистической обработки словарей научно-технической информации
<
Автоматизация лингвистической обработки словарей научно-технической информации Автоматизация лингвистической обработки словарей научно-технической информации Автоматизация лингвистической обработки словарей научно-технической информации Автоматизация лингвистической обработки словарей научно-технической информации Автоматизация лингвистической обработки словарей научно-технической информации Автоматизация лингвистической обработки словарей научно-технической информации Автоматизация лингвистической обработки словарей научно-технической информации Автоматизация лингвистической обработки словарей научно-технической информации Автоматизация лингвистической обработки словарей научно-технической информации Автоматизация лингвистической обработки словарей научно-технической информации Автоматизация лингвистической обработки словарей научно-технической информации Автоматизация лингвистической обработки словарей научно-технической информации
>

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Яфаева Гузал Мирзахмедовна. Автоматизация лингвистической обработки словарей научно-технической информации : ил РГБ ОД 61:85-5/1800

Содержание к диссертации

Введение

Глава I. Анализ способов автсматизащи лингвистической обработки словарей 12

1.1. Способы автоматизации лингвистической обработки словарей 12

1.2. Критическая оценка рассмотренных способов 20

Выводы... 22

Глава 2. Принципы морфологического и синтаксического анализа 23

2.1. Краткая характеристика сущеетвущих методов 23

2.2. Морфологический анализ 32

2.3. Синтаксический анализ 39

Выводы 50

Глава 3. Разработка способов автоматизации лингвистической обработки словарей 51

3.1. Необходимость автоматизации лингвистической обработки словарей 51

3.2. Способы автоматизации лингвистической обработки словарей 52

3.3. Автоматическое выделение словоизменительной и словообразовательной основ слов и назначение грамматической информации 61

3.3.1. Применение обратного словаря словоформ 63

3.3.2. Применение обратного словаря основ слов 74

3.3.3. Применение словарей суффиксов и псевдосуффиксов 77

3.4. Использование парадигматических отношений между словами для уточнения результатов обработки слов 81

3.5. Применение локального синтаксического анализа для уточнения результатов обработки слов 87

Выводы 91

Глава 4. Машинная реализация процессов лингвистической обработки словарей 93

4.1. Предварительные замечания 93

4.2. Алгоритм автоматического назначения признаков с помощью обратного словаря словоформ 98

4.3. Алгоритм автоматического назначения признаков с помощью обратного словаря основ слов 102

4.4. Алгоритм назначения признаков с помощью словарей суффиксов и псевдосуффиксов

4.5. Автоматическое назначение признаков глагольности, моделей управления и номеров словообразовательных классов 108

Выводы

Заключение

Литература

Приложение

Введение к работе

В научно-технической политике нашей страны большое внимание уделяется повышению эффективности производства. Одной из главных задач в этом направлении является широчайшее использование средств информатики и вычислительной техники во всех сферах деятельности [її]. Решению поставленной задачи способствует создание автоматизированных систем научно-технической информации (АСНТИ). Поэтому исследования в области АСНТИ приобретают в настоящее время большое значение.

При создании АСНТИ приходится решать широкий крут проблем. Среди них важное место занимает проблема лингвистического обеспечения. От качества ее решения в значительной мере зависит эффективность АСНТИ в целом.

В системе научно-технической информации страны проблеме лингвистического обеспечения АСНТИ уделяется большое внимание. В этой области имеются уже значительные успехи. Однако далеко не все вопросы здесь решены на должном уровне. Это относится, в частности, к проблеме создания и лингвистической обработки машинных словарей - словарей на машиночитаемых носителях, используемых в процессах автоматической обработки информации.

В АСНТИ применяются машинные словари различного назначения. Они используются при аналитико-синтетической обработке информации (для контроля лексики в процессе ручного индексирования) , на этапе ее ввода в ЭВМ (для автоматизированного обнаружения и исправления ошибок), при автоматическом индексировании и в ряде других случаев.

Составление словарей - процесс весьма трудоемкий, хотя первый этап их создания - составление словников - не вызывает особых затруднений, так как в настоящее время для этой цели мо гут быть использованы пакеты прикладных программ типа АСОД, ЇЇ0ИСК-І, ДИАЛОГ и др. Значительно сложнее дело обстоит с лингвистической обработкой словарей, связанной с выделением основ слов, определением типа словоизменения и словообразования, назначением грамматической и семантической информации, выявлением парадигматических связей между лексическими единицами и т.п.

Процессы лингвистической обработки словарей могут быть в значительной степени автоматизированы. Объективной предпосылкой для этого является имеющая место в естественных языках связь между грамматическими и семантическими признаками лексических единиц, с одной стороны, и системой их синтагматических и парадигматических отношений - с другой. В некоторых естественных языках (например, в славянских) наблвдается также сильная корреляция между грамматическими признаками слов и буквенным составом их концов (суффиксов и окончаний). Следовательно, опираясь на буквенный состав слов и систему их синтагматических и парадигматических отношений, можно определять для них грамматическую и семантическую информацию.

Вопросами автоматизации лингвистической обработки словарей занимались ряд отечественных и зарубежных ученых [20, 21, 23, 43, 51, 59, 99, ИЗ, 114], и в этой области достигнуты некоторые положительные результаты. Но дело ограничивалось, как правило, решением задачи выделения словоизменительных основ слов и определения их принадлежности к части речи. При этом морфологическая структура слов учитывалась слабо, а синтаксические критерии совсем не применялись, и, как следствие, точность обработки не всегда была удовлетворительной. Между тем интересы практики требуют создания более эффективных методов автоматизации лингвистической обработки словарей, позволяющих решать более широкий круг задач.

Актуальность проблемы автоматизации лингвистической обработки словарей определяется тем, что в настоящее время лингвистическая обработка словарей ведется в основном вручную, сопряжена с большими трудозатратами и появлением большого числа ошибок, которые трудно обнаруживаются. При этом создание больших по объему словарей обычно растягивается на многие годы. Задача заключается в том, чтобы оптимальным образом сочетать возможности ЭВМ и человека: ЭВМ должна выполнять трудоемкие рутинные операции, а человек - творческую работу, связанную в основном с контролем результатов работы ЭВМ.

Данная диссертационная работа посвящена решению проблемы автоматизации лингвистической обработки словарей. Она выполнялась в рамках проблемы 0.80.18 и, в частности, задания 0.80.18.03.02: "Усовершенствовать и ввести в эксплуатацию АСНТЙ по опубликованным отечественным и зарубежным источникам информации по естественным наукам и технике".

Целью исследования в диссертации является разработка принципов, алгоритмов и программ автоматизированной лингвистической обработки словарей, позволяющих существенным образом снизить трудоемкость создания машинных словарей, необходимых для автоматической обработки научно-технической информации и повысить их качество.

Предметом исследования являются имеющие место в естественных языках связи между синтагматическими и парадигматическими характеристиками лексических единиц, с одной стороны, и их буквенным оформлением - с другой. Исследование этих связей позволило создать методы, алгоритмы и программы, обеспечивающие автоматическое (без участия человека) определение с высокой вероятностью таких синтагматических и парадигматических характерне тик слов как их принадлежность к части речи; признаки рода, числа, падежа и лица; модели управления; модели словоизменения и суффиксального словообразования; словоизменительные и словообразовательные основы.

Исследования проводились путем выявления корреляционных связей между буквенным составом слов и их синтагматическими и парадигматическими характеристиками, разработки алгоритмов лингвистической обработки словарей, их реализации на ЭШ и последующей статистической оценки.

В процессе исследований получены следующие основные научные результаты:

- На основе анализа большого объема текстов (более трех миллионов слов) при участии автора был создан базовый машинный политематический научно-технический словарь, покрывающий тексты по информатике, автоматике и вычислительной технике на 98-99 %, а тексты по другой тематике на 90-94 %• Словарь включает в свой состав около 40 000 лексических единиц. Для каждого слова в словаре указывается его принадлежность к части речи, длина словоизменительной и словообразовательной основы, номер словоизменительного (флективного) и словообразовательного классов, модель управления. Этот словарь используется в двух созданных в ВИНИТИ системах автоматической обработки текстов (автоматизированное обнаружение и исправление ошибок, автоматическое индексирование) и в автоматизированной словарной службе.

- При участии автора создана система словообразовательных классов слов (см. Приложение 2), позволяющая существенным образом (в 5 раз) повысить распознающую способность процедур их морфологического анализа по сравнению с обычно применяемыми процедурами, базирующимися только на словоизменительный анализ.

- При участии автора выявлена система суффиксов и сочетаний суффиксов в базовом научно-техническом словаре (см. Приложение I), позволяющая построить эффективные процедуры морфологического анализа и синтеза слов и процедуры автоматизированной лингвистической обработки словарей.

- Разработаны три метода автоматизации лингвистической обработки словарей: а) с помощью обратного словаря словоформ; б) с помощью обратного словаря основ слов; в) с помощью словарей суффиксов и псевдосуффиксов. Все эти методы реализованы на ID ЭВМ и используются в практической работе в составе автоматизированной службы ВИНИТИ. В настоящее время с их помощью обработаны словники по информатике, автоматике, вычислительной технике, машиностроению, металлургии, электротехнике, энергетике, горному делу и охране окружающей среды общим объемом около 32 000 лексических единиц.

- Исследована эффективность перечисленных выше методов автоматизации1 лингвистической обработки словарей. Даны рекомендации по их практическому применению.

Практическая значимость работы заключается в том, что в результате проведенных исследований созданы программные средства лингвистической обработки словарей, позволяющие в более короткие сроки и с меньшими затратами, чем вручную, создавать машинные словари. Эти средства были использованы при создании словарей для системы автоматизированного обнаружения и исправления ошибок и системы автоматического индексирования, разработанных в ВИНИТИ в рамках большой интегральной системы АССИСТЕНТ.

Новизна работы заключается в выявлении возможности эффективного использования имеющих место в естественных языках корреляционных связей между буквенным составом слов и их синтагмати ческими и парадигматическими характеристиками для автоматического определения широкого спектра их грамматических и семантических признаков: принадлежности к части речи; словоизменительных и словообразовательных основ слов; флективных классов слов; признаков рода, числа, падежа и лица; моделей управления. Эти возможности материализованы в виде трех способов лингвистической обработки словарей, реализованных на ВС ЭВМ. Ранее исследователи ограничивались, в основном, решением задачи выделения словоизменительных основ слов и определения их принадлежности к части речи, и задачи эти решались, как правило, с невысокой точностью.

Личный вклад автора в проведенные исследования заключается в его активном участии в создании базового политематического машинного словаря, выявлении системы словообразовательных классов слов, системы суффиксов и сочетаний суффиксов, встречающихся в русских научно-технических текстах [9]. Он является также одним из разработчиков алгоритма морфологического анализа, включающего в свой состав процедуры словоизменительного и словообразовательного анализа [22]. Работа по созданию словарей и грамматических таблиц послужила исходным пунктом для решения задачи автоматизации лингвистической обработки словарей.

Автором лично разработаны и исследованы три метода автоматизированной лингвистической обработки словарей: I) с помощью обратного словаря словоформ; 2) с помощью обратного словаря основ слов; 3) с помощью словаря суффиксов (сочетаний суффиксов) и псевдосуффиксов. Все эти методы реализованы на ВС ЭВМ и используются в автоматизированной словарной службе ВИНИТИ.

Апробация работы. По теме диссертации имеется восемь опубликованных работ. Основные результаты работы были доложены авто ром на ХП, ХШ, ХІУ научных семинарах "Системные исследования ГАС НТИ" и на I Московской городской конференции молодых ученых и специалистов "Информатика, вычислительная техника и автоматизация в науке и технике в народном хозяйстве".

Диссертационная работа состоит из введения, четырех глав и приложения. В первой главе дается анализ существующих методов автоматизации лингвистической обработки словарей, отмечаются их достоинства и недостатки. Формулируются задачи исследования. Во второй главе излагаются принципы построения алгоритмов морфологического и синтаксического анализа, в разработке которых автор принимал активное участие и которые позволили уточнить состав признаков, включаемых в машинные словари. Третья глава является центральной в работе. В ней описываются предложенные автором способы автоматизации лингвистической обработки словарей и дается оценка их эффективности. Эти способы реализованы на ЕС ЭВМ и используются для создания машинных словарей в системе автоматизированной словарной службы ВИНИТИ. Алгоритмы лингвистической обработки словарей и их машинная реализация описаны в главе четвертой. В приложении приведены фрагменты машинных словарей и грамматических таблиц, в разработке которых автор принимал активное участие и которые послужили исходным материалом для создания методов автоматизации лингвистической обработки словарей. Здесь также приведены образцы машинных решений.

Критическая оценка рассмотренных способов

Эффективность рассмотренных нами способов определяется тем, что с их помощью автоматизируются некоторые процессы линг вистической обработки слов: - определяется принадлежность словоформ к части речи [23] , - выделяется словоизменительная основа [23] , - назначается детальная грамматическая информация [5і] .

Авторами этих способов созданы таблицы признаков грамматических классов [23,51,43,99) и словари [20,23,43,51,99]. Эти способы могут быть использованы в конкретных прикладных задачах, таких как создание тезаурусов [40], автоматическое индексирование текстов [43J, морфологический анализ текстов [бі], статистическое описание экономических текстов [99] .

В рассмотренных способах есть и недостатки, на которые указывают сами авторы. Так, для всех характерно искусственное членение слова: в качестве буквосочетаний в таблицах признаков грамматических классов используются не только флексии, но и фрагменты суффиксов и корневых морфем [59,43]. Надежность определения признака грамматического класса не очень высока [23, 51,99].

В некоторых работах недостаточно учтено такое явление, как омонимия окончаний. Из-за этого понижается точность назначения признака грамматического класса [59J. Возникают потери при назначении грамматической информации из-за неполного учета всех возможных форм слов [59J.

Некоторые из перечисленных недостатков вполне устранимы без внесения существенных изменений в способы лингвистической обработки слов. Значительно сложнее дело обстоит с учетом парадигматических и синтагматических связей слов при их лингвистической обработке. В частности, способы обработки слов разра батывались без учета такого явления в языке как словообразование. Слова рассматривались вне контекста и без учета морфологической структуры слова (основа, суффикс, грамматическое окончание).

Но рассмотренные выше работы внесли существенный вклад в решение проблемы автоматизации лингвистической обработки слов.

1. Процессы лингвистической обработки словарей могут быть в значительной степени автоматизированы. Объективной предпосылкой для этого является имеющая место в некоторых естественных языках (например, славянских) сильная корреляция между грамматическими признаками слов и их буквенным оформлением.

2. Вопросами автоматизации лингвистической обработки словарей занимался ряд отечественных и зарубежных ученых, и в этой области достигнуты некоторые положительные результаты. Но дело ограничивалось, как правило, лишь решением задачи выделения словоизменительных основ слов и определения их принадлежности к части речи, а точность обработки не всегда была удовлетворительной. Между тем интересы практики требуют создания более эффективных методов автоматизации лингвистической обработки словарей, позволяющих решать более широкий круг задач.

Морфологический анализ

В разработанном нами алгоритме морфологического анализа наряду со словоизменительным анализом применяется словообразовательный анализ. Для словообразовательного анализа используются словообразовательные классы ХХК Под словообразовательным классом слова понимается перечень суффиксов (сочетаний суффиксов), совместимых с его словообразовательной основой. Учет закономерностей словообразования дает возможность распознавания смыслового тождества и смысловой близости слов на уровне их словообразовательных основ и выделять в словах их словообразовательные основы, суффиксы и соответствующие им словообразовательные классы.

Словарь, необходимый для работы алгоритма, оформляется как словарь словоформ, в котором у каждой словоформы выделяется словообразовательная и словоизменительная основы путем указания их длины. Под словообразовательной основой слова понимается начальная часть его буквенного кода, остающаяся после отсечения максимального числа суффиксов и удовлетворяющая условию продуктивности. Это условие формулируется как способность выделенной основы образовывать осмысленные слова в сочетании с другими суффиксами и сочетаниями суффиксов. Каждой словоизменительной основе в словаре поставлен в соответствие номер флективного класса (номер списка совместимых с ней окончаний), а каждой словообразовательной основе - номер словообразовательно- го класса (номер списка совместимых с ней суффиксов и сочетаний суффиксов). Фрагмент словаря словоформ приведен в приложении і. В этом приложении после буквенного кода каждой словоформы указана длина словообразовательной основы, длина словоизменительной основы, номер флективного класса, номер словообразовательного класса, модель управления, символ обобщенного грамматического класса.

Машинный словарь для морфологического анализа был создан на основе статистической обработки научно-технических текстов общей протяженностью более трех миллионов слов и включает около 40 000 словоформ.

При этом в словаре оказалось около 22 000 различных словоизменительных основ и около 15 000 словообразовательных основ. В процессе составления словаря в него сначала включались все формы слов с частотой встречаемости 2 и более (при обработке первой выборки текстов объемом 500 000 слов). Затем только по одной наиболее часто встречающейся словоформе из каждой словоизменительной парадигмы. На заключительном этапе - по одной словоформе из каждой словообразовательной парадигмы. В результате некоторые словообразовательные гнезда оказались представленными в словаре единственной словоформой, а другие - несколькими словоформами или даже несколькими десятками словоформ.

Данный алгоритм морфологического анализа называется многоступенчатым. В процессе его выполнения словоформы текста проходят три ступени анализа: I) отождествление по словарю словоформ; 2) словоизменительный анализ; 3) словообразовательный анализ. Чаще всего анализ словоформ ограничивается только первой ступенью (70-80 % случаев), значительно реже - второй ступенью (16-20 %), а все три ступени анализа приходится привлекать только в 1-6 % случаев. Наиболее простой в реализации является первая ступень анализа, наиболее сложной - третья. Многоступенчатый анализ позволяет сократить время работы алгоритма.

В процессе работы алгоритма словоформы текста и машинного словаря считаются тождественными или близкими по смыслу, если их формы полностью совпадают или являются словоизменительными или словообразовательными вариантами друг друга. При словоизменительном анализе требуется совпадение словоизменительных основ сравниваемых слов и их принадлежность одному и тому же флективному классу, при словообразовательном - совпадение словообразовательных основ и их принадлежности к одному и тому же словообразовательному классу. В процессе словообразовательного анализа несовпавшие части текстовых слов членятся на суффиксы (сочетания суффиксов) и совместимые с ними окончания. При этом суффиксы и сочетания суффиксов должны быть совместимыми со словообразовательными основами слов.

На первых порах (в первом варианте реализации алгоритма) проверка словообразовательных основ и суффиксов (сочетаний суффиксов) на совместимость не проводилась. Это приводило к ошибкам в отождествлении слов. Например, слово "спаяна" отождествилось со словом "спать", слово "летучего" со словом "лету", слово "минуя" - со словом "мины" и т.д. Отождествлялись исходные словоформы, содержащие ошибки, со словоформами машинного словаря. Например, искаженная словоформа "искажденных" отождествилась со словом "искажают", так как ее начальная часть совпадает со словообразовательной основой "искаж", а остающаяся после выделения этой основы конечная часть расчленяется на суффикс "денн" и совместимое с ним окончание "ых". Словоформа "привич ных", содержащая орфографическую ошибку, отождествилась со словоформой "привит", так как ее начальная часть совпадает с основой "прив", а конечная часть расчленяется на суффикс "ичн" и совместимое с ним окончание "ых". Словоформа "настроивать" отождествилась со словоформой "настроечные", так как ее начальная часть отождествилась с основой "настро", а конечная часть расчленяется на суффикс "ивать" и совместимое с ним нулевое окончание.

Для повышения точности морфологического анализа в словарь были введены индексы словообразовательных классов слов, позволяющие исключить случаи их неправильного отождествления. Фрагменты словаря словообразовательных классов слов приведены в приложении 2. В словаре для каждого словообразовательного класса указан его порядковый номер, слово-представитель в расчлененном виде (с выделенной словообразовательной основой) и перечень суффиксов (сочетаний суффиксов), совместимых с данной словообразовательной основой, в сопровождении флективных классов. Если у двух слов перечни суффиксов отличаются друг от друга хотя бы одним элементом, то они относятся к различным классам. Всего в упомянутом выше научно-техническом словаре было выявлено Ц26 различных словообразовательных классов слов. Длина соответствующих т спиоков суффиксов колебалась в пределах от двух до 38-ми и в среднем составляла 11,7. Количество различных суффиксов, встретившихся во всех словообразовательных классах, оказалось равным 1206. Фрагменты словаря суффиксов и сочетаний суффиксов приведены в приложении 3. Суффиксы сопровождаются номерами флективных классов.

Автоматическое выделение словоизменительной и словообразовательной основ слов и назначение грамматической информации

В ходе создания базового словаря были выявлены наиболее трудоемкие процессы лингвистической обработки словарей - выделение словоизменительных и словообразовательных основ слов и назначение элементам словаря грамматических признаков. При исследовании возможности автоматизации этих процессов были разработаны несколько способов автоматизации лингвистической обработки словарей: с помощью обратных словарей словоформ и словоизменительных основ, с помощью списков суффиксов и псевдосуффиксов, с помощью средств локального синтаксического анализа, на основе учета парадигматических отношений и с помощью таблицы переходов для флективных классов.

В результате лингвистической обработки словарей на основе перечисленных способов в словах автоматически выделяются словоизменительная и словообразовательная основы, суффиксы и окончания, автоматически назначаются признаки рода, числа, падежа, типа словоизменения и словообразования, присваиваются номера флективных классов и словообразовательных классов, назначаются модели управления и признаки глагольности.

В работе сформулирован принцип аналогии: слова, аналогичные по буквенному оформлению концов, аналогичны и по грамматической информации. На основе этого принципа можно сделать вывод о целесообразности применения базового словаря, представленного в инверсной форме, для определения информации у слов при их лингвистической обработке.

Для изучения того, в какой мере могут совпадать исходные и словарные словоформы, была проведена работа по оценке величины покрытия концов буквенных кодов слов обратными словарями словоформ и основ слов. Для оценки этой величины было получено распределение максимальных длин покрытия исходных текстовых словоформ базовыми словарными. В качестве исходных слов были взяты "новые" слова (в количестве I 000 штук) из текстов рефератов по информатике, вычислительной технике, автоматике и ра - 64 диоэлектронике. "Новыми" считались словоформы, отсутствующие в словаре и не содержащие в своем составе словоизменительные или словообразовательные основы из базового словаря. Обратный словарь словоформ был получен на основе анализа научно-технических текстов общей протяженностью около трех миллионов слов и включал около 40 000 словоформ. Фрагменты базового обратного словаря словоформ приведены в табл. 3.4. Здесь для каждой словоформы указана длина ее словообразовательной основы (две цифры, стоящие непосредственно после буквенного кода), длина словоизменительной основы, номер флективного класса, номер словообразовательного класса, модель управления и символ обобщенного лексико-грамматического класса. Выборка слов в тысячу слов была исследована на покрытие справа словарями словоформ и словоизменительных основ слов. Распределение длин совпадающих концов словоформ по обратному словарю словоформ приведено в табл. 3.5, по обратному словарю словоизменительных основ слов - в табл. 3.6. В таблицах L - порядковый номер величин длин покрытия X«t ; ist k, К - максимальная длина покрытия. В данном случае k = 20 для словаря словоформ, и к =28 для словаря основ. X: - длина концов совпадающих буквенных кодов нового слова и словарного; г: - это частота встречаемости величины X. при общем объеме выборки в I 000 слов. Расчеты по данным таблиц показали, что средняя величина покрытия (X ) словарем словоформ составляет 6,8 букв, словарем словоизменительных основ слов - 7,6 букв; величина среднего квадратического отклонения ( b ) при покрытии словарем словоформ равна 3,04, словарем основ слов - 3,5. Формулы, по которым производились расчеты, следующие (см. [44] ).

Алгоритм автоматического назначения признаков с помощью обратного словаря словоформ

Алгоритм предназначен для назначения "новым" словам -словам, отсутствующим в словаре - грамматических и семантических признаков с помощью обратного словаря словоформ. Исходными данными для работы алгоритма являются обратный словарь словоформ объемом 40 000 единиц (см. приложение 8) и перечень "новых" слов. В словаре каждая словоформа сопровождается информацией о длинах словообразовательной основы и словоизменительной основы, номерах флективного класса и словообразовательного класса, модели управления и символе обобщенного лексико-грамматического класса. Перечень "новых" слов предварительно инвертируется и упорядочивается по возрастанию инвертированных буквенных кодов.

Результатом работы алгоритма является перечень семантических и грамматических признаков, поставленный в соответствие исходным "новым" словоформам. В алгоритме используется принцип аналогии. "Новому" слову присваиваются признаки такого слова из обратного словаря словоформ, конец буквенного кода которого максимально совпадает с концом буквенного кода "нового" слова. Укрупненная блок-схема алгоритма представлена на рис. 4.3.

При проведении экспериментов массивы исходных "новых" слов были получены путем обработки текстов I) по информатике, радиоэлектронике и вычислительной технике, объемом 4300 слов; 2) по металлургии объемом 2668 слов; 3) по машиностроению объемом 6564 слова. "Новим" словам автоматически в соответствии с данным алгоритмом были приписаны признаки (см.табл. 4.2 и прило-жение II). Дополнительно проведенный эксперимент автоматического назначения признаков с помощью словаря, содержащего только существительные и прилагательные, на исходном массиве "новых" слов, полученных путем обработки текстов поисковых образов документов по энергетике, объемом 200.000 слов показали, что вероятность правильного определения длины словоизменительной основы равна 0,995; длины словообразовательной основы - 0,973; номера флективного класса - 0,89.

Алгоритм предназначен для назначения "новым" словам грамматических и семантических признаков с помощью обратного словаря словоизменительных основ слов.

Исходными данными для работы алгоритма являются обратный словарь словоизменительных основ слов объемом в 22 000 единиц (см. приложение 9), список окончаний (см. приложение 7) и перечень "новых" словоформ. В обратном словаре словоизменительных основ каждой основе поставлена в соответствие информация о длине словообразовательной основы, словоизменительной основы, номере флективного класса, номере словообразовательного класса, модели управления и символе обобщенного лексико-грамматическо-го класса. Перечень "новых" слов предварительно инвертируется и упорядочивается в порядке возрастания их буквенных кодов.

Результатом работы алгоритма является перечень грамматических и семантических признаков, поставленных в соответствие исходным "новым" словоформам.

В алгоритме используется принцип аналогии. "Новому" слову приписываются признаки такой словарной основы, конец буквенного кода которой максимально совпадает с концом словоизменительной основы "нового" слова, а флективный класс совместим с окончанием "нового" слова.

При проведении экспериментов в качестве исходных данных были использованы "новые" слова, полученные путем обработки текстов по информатике, вычислительной технике и радиоэлектронике объемом I 000 слов. "Новым" словам автоматически были присвоены признаки в соответствии с данным алгоритмом (см. табл. 4.4 и приложение 12). Форма представления данных в табл. 4.4 такая же, как в табл. 4.2. В результате работы алгоритма оказалось, что у слов правильно определялась длина словообразовательной основы с вероятностью 0,98; длина словоизменительной основы - с вероятностью близкой к единице; номер флективного класса - с вероятностью 0,91; символ обобщенного лексико-грамматического класса - с вероятностью близкой к единице.

В алгоритме используется принцип аналогии. У "нового" слова отделяется окончание. Для оставшейся части слова в словаре суффиксов (псевдосуффиксов) находится совместимый с выделенным окончанием по флективному классу суффикс (псевдосуффикс). Получающееся при этом членение слова и номер флективного класса при словарном суффиксе (псевдосуффиксе) служат для определения признаков слова.

Похожие диссертации на Автоматизация лингвистической обработки словарей научно-технической информации