Моделирование орфографии якутского языка и разработка комплекса программ для проверки правописания якутских текстов в среде WINDOWS Мигалкин Василий Васильевич

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Мигалкин Василий Васильевич. Моделирование орфографии якутского языка и разработка комплекса программ для проверки правописания якутских текстов в среде WINDOWS : диссертация ... кандидата технических наук : 05.13.17. - Якутск, 2005. - 140 с. : ил. РГБ ОД,

Содержание к диссертации

Введение

ГЛАВА 1. Модель орфографии якутского языка 12

1.1. Приложения универсальной модели 17

1.2. Численное представление смысла предложения 18

1.3. Алгоритм определения смысла предложения 20

1.4. Способ проверки синтаксиса 24

1.5. Основные законы правописания 32

1.6. Метод составления электронного словаря 36

1.7. Статистические показатели применения корневых слов и продуктивных аффиксов ~ 38

ГЛАВА 2. Части речи в якутском языке 42

2.1. Имена существительные (прилагательные) 42

2.2. Продуктивные словообразовательные аффиксы (методы) для существительных (прилагательных) 43

2.3. Аффиксы для существительных и прилагательных - свойства объекта 45

2.4. Глаголы и побудительные формы 49

2.5. Продуктивные словообразовательные аффиксы (методы) к глаголам и побудительным фразам 51

2.6. Аффиксы к глаголам - методы и свойства объекта 54

2.7. Деепричастия, причастия и наречия 59

2.8. Числительные 61

2.9. Местоимения 62

2.10. Прочие части речи 63

2.11. Агглютинативный принцип построения якутских слов (морфология) 65

ГЛАВА 3. Алгоритм проверки орфографии якутского текста 67

3.1. Общий алгоритм работы автоматической проверки 68

3.2. Схема общего алгоритма процедуры проверки орфографии 71

ГЛАВА 4. Константы и коды вызова процедуры проверки 79

Заключение 91

Спикок литературы

Численное представление смысла предложения
Метод составления электронного словаря
Продуктивные словообразовательные аффиксы (методы) для существительных (прилагательных)
Схема общего алгоритма процедуры проверки орфографии

Введение к работе

Актуальность проблемы

Язык народа саха (якутский) является одним из древнейших живых языков, прошедших своеобразный путь развития в условиях почти полной изоляции от других тюркских языков. Своеобразный, почти не тронутый влиянием других языков, он привлекал внимание исследователей с давних пор. Можно назвать имена выдающихся исследователей первой половины XIX века: В. Шотт, О. Бётлингк, В. Радлов, В. Ястремский, Э. Пекарский. В знаменитых экспедициях Императорской Академии наук, возглавляемых академиком О.Н. Бётлингком, в достаточной мере исследовались фонетика, морфология и лексика языка саха. Наиболее полное исследование якутского языка проводили политические ссыльные В.М. Ионов, СВ. Ястремский, Э.К. Пекарский, труды которых востребованы и поныне [1].

Работы по установлению нормативной лексики якутского языка (выделение из различных диалектов [2, 3]), по детальному исследованию грамматики проводились только в советское время специалистами Института языка, литературы и истории Якутского филиала Сибирского отделения Академии Наук СССР и отдельными специалистами Якутского государственного университета [4-11]. Синтетический якутский язык, обладая минимальным количеством корневых слов, может тем не менее, благодаря большому количеству аффиксов (от 3000 до 6000 окончаний), образовывать огромное количество лексем (около 50 000 000 словоформ), не имеющих аналогов в русском языке. В силу этого не только в Якутии, но и в других тюркоязычных республиках не было автоматической проверки орфографии текстов, набранных на электронно-вычислительной машине (ЭВМ).

Первая версия программы Sakha Orthography была создана автором настоящей работы в 1998 г., (см. газету Якутия №87 от 16 мая 1998 г.). Из-за отсутствия тогда спонсоров (регистрационный взнос с учётом патентной

5 экспертизы составлял 10000 руб.) и замораживания финансовых обязательств РФФИ из-за обвала национальной денежной единицы России программа была зарегистрирована в Международном реестре авторских прав только в 2001 г.

В 2002 г. в Башкортостане Институт языка и литературы совместно с московской фирмой «Арсеналъ» создали локализованную на башкирский язык версию «Лексикона», выполняющую орфографическую проверку башкирских текстов. Сейчас ведутся работы для MSWord. В том же году в Татарстане Научно - исследовательская лаборатория «Проблемы искусственного интеллекта» Академии наук Татарстана и Казанский государственный университет совместно создали программу «WordCorr» с объёмом более 2500 корневых слов и объёмом файла около 1 мВ, но уже в «теле» MSWord.

Указом Президента Азербайджанской республики от 16 января 2003 г. в статье №13 указывается о создании орфографического и орфоэпического словарей для азербайджанского языка, а статья №18 обязывает их исполнение средствами электронной массовой информации.

Постановлением Правительства Республики Алтай №331 от 30 ноября 2001 г. Республиканская целевая программа «Электронный Алтай на 2002 -т-2007 гг. на третьем этапе (2007г.) предусматривает заказ на разработку программы по электронной проверке орфографии алтайского языка.

Решением Государственного комитета по науке и технике Республики Узбекистан коллектив под руководством Георгия Галахова и Анвара Нуриева награжден Государственной премией за создание «программы проверки орфографии узбекского языка в программном обеспечении Microsoft». Создатели этой программы в 2003 г. получили Авторское свидетельство на «Программу проверки орфографии узбекского языка».

Наиболее близким по уровню разработки является компьютерная программа проверки орфографии текста на казахском языке группы разработчиков KazSpelling vl.0, (Казахский национальный университет имени Аль - Фараби и фирма SanaSoft), выполнивших работу по заказу Министерства

культуры, информации и общественного согласия Республики Казахстан. Работа выполнялась по Постановлению Правительства Республики Казахстан №1793 от 1 декабря 2001 г. согласно Указу Президента Республики «О государственной программе функционирования и развития языков на 2001 и 2010 годы» и была закончена в 2003 г. Программа KazSpelling vl.O имеет словарную базу данных на 4 500 000 словоформ.

Безусловно, есть республики, автономные тюркоязычные образования, не имеющие государственной поддержки на автоматизацию, и работы по ним не ведутся (Туркменистан, Киргизия, Чувашия и др.).

Индоевропейские программы по проверке орфографии текста содержат в базе данных эталонные слова в разложенном виде (представляющие одномерный массив). Наиболее распространенным и сложным по грамматике является русский язык, имеющий безличные глаголы, глаголы употребляемые только в третьем лице, существительных используемых исключительно в единственном или во множественном числе, несклоняемых существительных, а также отсутствие в русском языке единого правила перехода глаголов из несовершенной формы в совершенную и наличие других отступлений от общих правил приводит к преимуществу одномерного массива данных для программы проверки орфографии текста на русском языке.

К сожалению, из-за постоянной нехватки финансовых ресурсов словари якутского языка, выпущенные в советское время, не обновлялись и морально устарели [12]. Наиболее известный орфографический словарь [13] имеет 10163 слов. Для решения этой проблемы необходимо было рассмотреть весь лексический запас современных якутских литературных произведений [14-39] и сравнить их с имеющимися словарями. Кроме того, по результатам выборочных проверок оказалось, что в имеющихся словарях отсутствуют многие обиходные слова и фразеологические конструкции. В целом задача усложнилась тем, что для наиболее полного решения вопроса по орфографии необходимо было создать существенно обновлённый в отношении лексики

7 якутский компьютерный словарь, содержащий атрибуты правил склонения и

указателей частей речи, которым принадлежит каждое слово в отдельности

[40-49].

В настоящее время нет специальной литературы, имеющей полный перечень аффиксов к частям речи, особенно по побудительным фразам, хотя глаголы изучены достаточно подробно разными исследователями[4-9]. Для решения этой задачи в настоящей работе систематизированы все имеющиеся работы филологов. Для учёта возможных комбинаций аффиксов потребовалось создать специальную электронную библиотеку форм побуждений, образования наречий, притяжательных форм, а также отдельную библиотеку аффиксов к частям речи.

Выбор модели и алгоритма автоматической проверки орфографии текста на якутском языке значительно упрощается тем, что в якутских словах нет префиксов. Кроме того, наличие в якутской фонетике простейшего правила, согласно которому любое слово может иметь гласные только заднего ряда (а, аа, ы, ыы, ыа, у, уу, уо, о, оо), или только переднего ряда (и, ии, э, ээ, иэ, у> уу₅ Y⁰j ^е5 ^ее)> также упрощает алгоритм. В свою очередь, каждый ряд образует по три группы правил склонения слов. Исключение составляют неологизмы, склонение которых зависит от конкретного слова.

Морфология якутского языка заключается в агглютинативном (прилепляющемся) принципе. Все основные значения якутских слов выражаются с помощью аффиксов. Учитывая то, что проверка орфографии заключается в сравнении проверяемого слова с эталонным словом, рационально хранение эталонного слова в особо сложенном виде - виде базы данных со связанными таблицами.

Следовательно наиболее подходящей моделью орфографии якутского языка является идентификационная сложная числовая функция связанных таблиц базы данных (иными словами совокупность абстрактных машинных правил), однозначно определяющая эталонное описание всех доступных

8 аффиксов к любому корневому слову для дальнейшего составления числовых функций с четырьмя аргументами [40-49]. Алгоритм проверки орфографии сводится к поиску корневого слова, а затем продуктивного и завершающего смысл сказанного разрешённых аффиксов по машинным правилам модели. Значения этих аффиксов зависят от последних букв корневого слова, которые при склонении могут изменяться (ассимилироваться). Поэтому эталонный словарь должен иметь под одним номером два значения: собственно словарное слово и его неизменяемое (действительное) значение.

Для обеспечения максимальной скорости поиска эталонных слов словарь разбит на восемь примерно одинаковых групп. Минимизация по использованию оперативной памяти ЭВМ достигается применением SQL -запросов (Structured Query Language). Алгоритм учитывает работу программы в среде наиболее известной в мире программы Microsoft Office в многоязыковом режиме.

Целью работы является создание программы для ЭВМ по автоматической проверке орфографии текстов на якутском языке, доступной среде Microsoft Office и совместимой с используемыми по умолчанию программами по проверке орфографии английского и русского текстов. Для достижения указанной цели были поставлены и решены следующие задачи:

Разработка модели склонения якутского языка в виде базы данных с четырьмя связанными таблицами, составление числовых функций изменения корневых слов по абстрактным машинным правилам, однозначно объединяющие грамматические аксиомы и правила.
Составление специального электронного якутского орфографического словаря объёмом 15442 слова с атрибутами правил склонения слов и указателем части речи, которой они принадлежат.

3. Составление специальных библиотек аффиксов по существительным,

глаголам, наречиям, притяжательным формам имён существительных и прилагательных представляющих аргументы числовых функций, а также по формам побуждений, и составление таблиц грамматических запретов.

Разработка алгоритма проверки орфографии и написание программ на алгоритмическом языке Visual Basic.
Разработка программы связи с текстовой программой Microsoft Word и её приложениями по проверке орфографии текстов на английском и русском языках.

Научная новизна

Разработана модель склонения якутского языка в виде базы данных с четырьмя связанными таблицами, составлены числовые функции изменения корневых слов по абстрактным машинным правилам, однозначно объединяющие грамматические аксиомы и правила. Показана применимость объектной методологии к описанию грамматики якутского языка. Унификация машинных правил модели по шести правилам склонения позволяет упростить математическое описание синтаксиса якутского языка, что важно для смыслового перевода с якутского языка на другой язык [49] и проверки грамматики в целом.

Практические результаты

Впервые в России разработана программа для ЭВМ, способная проверить около пятидесяти миллионов комбинаций спряжения 15442 слов якутского языка, работающая совместно с программами по проверке орфографии текстов на английском и русском языках.

Впервые составлена сводная таблица всех глагольных (побудительных), завершающих смысл сказанного аффиксов якутского языка (аргументов числовых функций) и создан обновленный электронный орфографический словарь.

10 Основные положения, выносимые на защиту:

модель представления эталонных якутских словоформ и числовые функции их склонения по абстрактным машинным правилам, состоящая из четырёх связанных таблиц базы данных, для проведения орфографии текстов на якутском языке,

якутский электронный орфографический словарь на 15442 слова,

полная электронная библиотека глагольных аффиксов и методов побуждений языка саха, представляющих аргументы числовых функций модели,

алгоритм проверки орфографии текстов на якутском языке и совместная его работа с приложениями Microsoft Word по проверке орфографии текстов на английском и русском языках,

программное обеспечение проверки орфографии якутских текстов.

Практическая ценность

Разработанная программа полезна для различных издательств, образовательных учреждений и для тех, кто готовит материалы на языке народа саха. В рамках освоения и внедрения данной программы Министерством образования Республики Саха (Якутия) проведена экспертиза и принято решение о ходатайстве перед Правительством Республики Саха (Якутия) о закупке программы для распространения среди общеобразовательных школ республики.

Личный вклад автора

Содержанием диссертации являются многолетние исследования автора в области анализа, систематизации якутского языка с точки зрения моделирования и автоматизации проверки орфографии, составления сводной таблицы аффиксов. Создан якутский электронный орфографический словарь на 15442 слов. Разработана модель склонения якутского языка из 78 машинных правил для наиболее быстрого принятия решения о правильности написания

текста. Разработан алгоритм и создана компьютерная программа проверки орфографии текста на якутском языке.

Апробация работы

Основные результаты докладывались на семинарах Института гуманитарных исследований Академии Наук РС(Я) (г.Якутск, 1998, 2000, 2001 гг.), Всероссийской конференции «Космо- и геофизические явления и их математические модели» посвященной 80-летию профессора А.И.Кузьмина (г.Якутск, 2002 г.), Четвёртой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (г.Дубна, 2002 г.), 2-й Республиканской научно-практической конференция «Информационные технологии в науке, образовании и экономике» (г.Якутск, 2003 г.), Европейской конференции «Philological Disciplines and Digital Technology» (г.Пиза, Италия 2003 г.).

Публикации. Основные результаты опубликованы в четырёх статьях и защищены четырьмя Авторскими свидетельствами об официальной регистрации в Международном реестре программ для ЭВМ. Российский Фонд Фундаментальных Исследований (РФФИ) дважды поддерживал эту работу трёхлетним грантом. Согласно «Положению РФФИ» каждый год представлялся отчёт о проведённой работе. Отчёты РФФИ автор имеет право самостоятельно публиковать в печатной и электронной формах.

Структура и объём работы

Диссертация состоит из введения, четырёх глав, заключения, списка работ автора по теме диссертации и списка используемой литературы из 81 названия. Общий объём — 140 страниц, включая 9 рисунков, 8 таблиц и 5 копий документов.

Численное представление смысла предложения

По мнению автора настоящей работы, смысл любого предложения можно свести к трём основным числам [40, 41, 45, 49]. CS = ObjOf Attention.ObjOfConclusion.ObjOfTime где Obj Of Attention - Объект внимания, ObjOfConclusion - Объект - заключение, ObjOfTime - Объект время.

Здесь понятие объект условное, грамматически может быть любой частью речи. Кроме того, объект может иметь однородное перечисление частей речи. Привязка к грамматике в большей части приводит к тупику (неопределённости), так как во многих якутских предложениях могут отсутствовать, как подлежащие, так и сказуемые. Грамматические правила присутствуют только в методах и свойствах. Далее Объект может подразделяться на классы и иметь методы и свойства. Синтаксис Объекта внимания - ObjOfAttention.Class.Method.Propertyl.Property2

Под классом в данном случае понимается концептуальное название объекта. Пила, топор и др. класс - инструментов, брусника, земляника относятся классу ягод, лось и медведь относятся классу диких зверей и т.д. В принципе пилой можно стукнуть, а топором можно сдвинуть. Вновь образованные слова с помощью методов, должны соответствовать только понятиям, для чего предназначены классы или ассоциативным восприятиям таёжного человека. Пила -пилить, распилка пилой и т.д., брусника - собирать бруснику, сбор брусники, а лось - охотиться на лося, охота на лося т.д.

Особо надо подчеркнуть об инкапсуляции методов в пределах класса, наследственности методов и полиформизме одних и тех же методов для разных классов. В якутском языке достаточно знать основные классы и методы. Выше приведённых примерах, если слова пила заменить на топор, лось - на заяц, а брусника на землянику, то словообразования рубить топором, рубка топором и т.д., охотиться на зайца, охота на зайца и т.д., собирать землянику, сбор земляники и т.д., производятся теми же способами. В то же время, тут участвуют одни и те же аффиксы (полиморфизм методов для разных классов). Неологизмы склоняются на правах наследственности в пределах класса. Следовательно, если в Якутии были бы сайгаки, то выражение «охота на сайгака» обозначалось бы одним словом «сайгактааЬын». Объект и класс состоят из идентификационных порядковых номеров в соответствующих словарях исходных слов.

Свойствам объекта внимания могут быть местоимения, имя прилагательное и причастие. Они также представляют численное значение машинных правил.

Метод есть номер программной оболочки распознавания объекта, класса, трансляции грамматической структуры, а также распознавания образа причины (почему, отчего, по какой причине) и места (где, куда, откуда). Таким образом, метод объекта внимания имеет шесть образов. Метод содержит полный смысловой перевод на русский язык Объекта внимания. Объект внимания всегда есть, даже если переводится одно слово.

Объект - время также содержит класс, методы и свойства, также автономен. Класс объекта времени обозначает числовые параметры объекта (6 сентября, шестое сентября). Метод объекта времени тоже есть номер программной оболочки, которая распознаёт из текста время, а также образы (когда, с каких пор, как долго, до каких пор). Порядок запуска процедур по распознаванию образов начинается с образа «когда». Метод содержит на русском языке описание временных факторов. Объект время не всегда присутствует в описании смысла предложения, если время неопределённое.

Объект заключение является завершающим объектом смысловой нагрузки. Он зависимый от предыдущих объектов и содержит пять основных методов и свойств. Должен содержать в методах перевод на русском языке заключительную стадию образов: зачем, для чего, с какой целью, как, каким образом, в какой степени, подобно как, при каком условии, несмотря на что, по сравнению с чем.

В конечном счёте, смысл предложения сводится к числу с фиксированной длиной, составленному аналогично грамматическому построению якутского языка. Такое построение смысла предложения резко облегчает (по скорости) учёт предыдущих предложений для анализа последующих высказываний. Хотя бы для определения рода объекта (он или она), но в основном для исключения омонимов и синхронизации числа объектов. В якутском языке нет слов, имеющих только единственное значение (плутовство, битьё) или слов имеющих только множественное число (очки, брюки), а также нет понятия мужской, женский род.

Метод составления электронного словаря

К сожалению, в Якутии филологи никогда не занимались исследованием статистических показателей тех или иных правил применения корневых слов и использования продуктивных словообразовательных аффиксов. При проверке —50 000 000 комбинаций изменения якутских слов статистические показатели являются решающими.

Ниже приведены исследования, проведённые по статистическим показателям применения корневых слов (рис. 1) и продуктивных аффиксов (рис. 2 и 3) по машинным правилам на 100 000 слов современного якутского языка. Эти данные необходимы для определённой систематизации правил и принятия программой наиболее быстрого решения проверки орфографии текстов на якутском языке и метода построения электронного орфографического словаря и библиотеки аффиксов.

На рис. 1 приведен график фонетического распределения корневых слов, где наиболее употребляемые слова принадлежат правилам 1, 4 и 2. Если в программировании применение множества логических операций в общем замедляет процесс вычисления, то для вышеуказанной группы слов в целом процесс проверки орфографии ускоряется. Возможно, в правилах 1 и 2 определённый вклад вносят неологизмы. Современный якутский язык состоит примерно из -30% введённых «извне» слов (телевизор, реклама, кафе и т.д.). Склонение неологизмов по якутским канонам по 4 правилу «бэйэ тыла» встречается редко: «председатель», «финиш» и т.д.

Для имён существительных и прилагательных распределение наиболее часто употребляемых аффиксов имеет достаточно сложный характер, поэтому логический выбор методов поиска Find First, Find Next и Find Last производится до четырнадцатого правила.

Характер кривой распределения склонения глаголов и побудительных форм показывает, что логические операции по выбору метода поиска применимы для первой, второй и восьмой групп аффиксов.

Статистические показатели применения корневых слов и аффиксов к ним зависят от конкретного составителя текста, но общий характер кривых должен оставаться неизменным.

Подводя итоги по моделированию якутского языка, можно сказать, что разработанные абстрактные машинные правила склонения для существительных (прилагательных) 26 и глаголов (побудительных форм) 16 полностью соответсвуют канонам якутской грамматики. Разработанная модель универсальна для проверки грамматики в целом (синтаксис, стилистика).

Метод составления электронного якутского словаря в отличие от индоевропейского с двумя основными параметрами, значительно ускоряет и упрощает процесс проверки орфографии текста.

Имена существительные в якутском языке в отличие от русского языка, хотя и имеют множественное число, у них единственное число обозначает как единичный предмет, так и совокупность предметов. Таким образом, волосы, глаза, ноги и т.д., если нет необходимости особо подчеркнуть множественность, употребляются в единственном числе. В русском языке такие случаи встречаются, например: на поле трава уже зелёная, собрать весь хлеб. Множественное число образуется с аффикса лар (лэр, нар, нэр и т.д.). Имена существительные девушка = кыыс, юноша = уол, муж (мужчина) = эр, женщина = дьахтар, старик = оконньор, старушка = эмээхсин, начальник (руководитель) = тойон, почтенная женщина = хотун, форму множественного числа образуют от других основ, исторически являющихся социальными терминами. Вышесказанные существительные относятся к неправильным.

Выступая в роли сказуемого, имена существительные принимают аффиксы сказуемости: я человек - я = мин киЬибин.

Имена существительные принимают притяжательные аффиксы, выражающие их принадлежность тому или иному лицу, или предмету.

В якутском языке имена существительные образуются синтетически (с помощью словообразовательных аффиксов) и аналитически (с помощью служебных слов), а также сложением основ. Отглагольные имена существительные (прекращение и т.п.), образованные от продуктивных аффиксов, сохраняют управление и сочетаются с наречиями. В якутском языке существует большое количество менее продуктивных аффиксов, которые являются общетюркскими и относятся, вероятно, к более ранней эпохе. Но так как слов, образованных с их помощью много, эти аффиксы легко выделяются и производят впечатление продуктивных. Обычно они встречаются в словах, образованных от глагольных основ.

Продуктивные словообразовательные аффиксы (методы) для существительных (прилагательных)

Глагольные основы в якутском языке составляют две основные группы: глаголы действия - состояния и глаголы образные и звукоподражательные. Важно, что в словоизменении и образовании залоговых форм все глаголы совпадают. Все формы глагола оформляются личными аффиксами и имеют парадигму спряжения.

Побудительная форма, выражающая волю говорящего, реализуется аффиксально. Е.И. Коркина [5] считает, что «неотъемлемым признаком побудительного наклонения, служащим, наряду с грамматической формой, средством его выражения, является интонация, которая может варьировать от самого грозного до самой кроткой просьбы — мольбы». Формирование побудительной фразы якутского языка происходит главным образом двумя путями: синтетическим и аналитическим «сложным» [7].

По форме спряжения глаголы делятся на: - Повелительное наклонение, выражающее просьбу или приказание. Имеет формы настоящего и будущего времени. - Изъявительное наклонение, имеющее следующие временные формы. Настоящее время. Недавно прошедшее время. Прежде прошедшее время. Прошедшее результативное I (оказывается ...). Прошедшее результативное II (как - то ...). Прошедшее незаконченное (бывало ...). Прошедшее эпизодическое I (пришлось однажды ...). Прошедшее эпизодическое II (однажды, хотя надо было...). Прошедшее эпизодическое III (как - то раз ...). Прошедшее ещё не совершившееся время. Давно прошедшее время. Будущее время. - Долженствовательное наклонение I (обязательно должен ...). - Долженствовательное наклонение II (сказано обязательно ...). - Желательно - сослагательное наклонение. - Наклонение опасения (как бы не .., не дай бог ...). - Условное наклонение и временные его формы. Вневременная форма. Настоящее время. Прошедшее время. - Условно - временное наклонение (если, когда ...) и временные его формы. Вневременная форма. Настоящее время. Прошедшее время. - Утвердительное наклонение. - Наклонение обычно совершаемого действия.

Собственно глагольные формы - формы различных времён и наклонений глагола - выступают в предложении только как сказуемое простого, сказуемое сложносочинённого и как главное сказуемое сложноподчинённого предложения. Глагольные основы образуются от других частей речи с помощью словообразовательных аффиксов. Кроме того, существуют аналитические глагольные основы. Они образуются посредством сложения основ, способами, определёнными отношениями понятий, выражаемых слагаемыми основами: - объект и действие: Имя существительное и знаменательный глагол, например: владей = бас бил, подписывай = илии баттаа. Имя существительное и служебные глаголы: испорть = буорту гын, испортился = буорту буолбут. Слово, утратившее значение и глагол: гордись = киэн тутун, замолчи = ах бар. - действие и действие: Деепричастие и основа глагола: разруби = быпа ог ус, разорви = быпа тарт. Два действия, в сумме дающие более широкое глагольное понятие (парные глаголы): беспорядочно двигайся туда - сюда = кэл бар.

. Продуктивные словообразовательные аффиксы (методы) к глаголам и побудительным фразам

Глаголы в якутском языке с помощью аффиксов также могут быть преобразованы в другую часть речи или в побудительную форму. Важно отметить то обстоятельство, что имеются чистые глаголы, по форме похожие на побуждение (с последними буквами аа, оо, ее, ээ). Например: санаа - думай (подумай), ааннаа - установи дверь (корневое слово аан - дверь), саныыр - он думает, аанныыр - он устанавливает дверь. В то же время, чистые глаголы не всегда имеют продуктивные аффиксы, точно такие, как у побудительных фраз. Например, глагол ыа - дои (подои) имеет правильные продуктивные аффиксы при кодах старше 20. Кроме того, глагол «ыа» полностью совпадает с завершающим аффиксом (барыа), что несколько усложняет программные коды. Методы к глаголам и побудительным фразам (Affl) также меняют смысл слова (кончать - кончаться).

Схема общего алгоритма процедуры проверки орфографии

Как указано выше, орфографическая проверка производится в наиболее распространённом в России текстовом редакторе Microsoft Word для русскоязычной версии (отдельного интерфейса Sakha Orthography не имеет). Таким образом, орфографическая проверка английского и русского текстов имеет больший приоритет и должна запускаться автоматически, а якутские тексты должны проверяться событийно, по нажатию кнопки на панели управления всего текста или по нажатию кнопки по выделению. При этом программа Sakha Orthography не должна внести изменения в результат проверки орфографии английского и русского текстов. Трёхязыковая проверка при любых включениях английского и русского текстов в якутские тексты или, наоборот, якутских текстов в английский и русский тексты производится согласно методу Range.

После нажатия кнопки «Сахалыы» интефейсом связи Sakha Orthography с Microsoft Word определяется позиция начала и конца текста, а если имеется выделенный участок в тексте, то его начало и конец. Далее, первое проверяемое слово отделяется от текста и запрашивается на готовность приёма программой; если готовность «1», то программа отправляет слово в контейнер проверяемых слов. При необходимости, до отправки слова в контейнер, производится конвертация шрифтов.

Алгоритм исходит из того, что якутские слова делятся на две группы. К первой группе относятся те слова, которые не меняют последний звук корня при любых склонениях. Например: аппа, ей, бар, ыл и.т.д. Ко второй группе относятся слова, меняющие последний звук при склонении. Например: суорат-суоракка - суораппар, бех - беду? ыыт - ыыппыт, сырыт - сылдьыбыт и.т.д. Следовательно, электронный словарь должен иметь, кроме основных понятий (Main Root), и дополнительные (неизменяемые) слова (Perfect Root). Для обеспечения максимальной скорости обработки выбран цифровой указатель части речи, где сотый номер говорит о наличии имени существительного (прилагательного, числительного), а младшие числа показывают номер правила склонения. Стотысячный номер указывает, что проверяемое слово является глаголом (побудительной фразой). Десятитысячный и тысячные цифры номера правил склонения глаголов. В якутском языке имеется много слов, часть речи которых определяется только в контексте, в зависимости от их синтаксической функции (омографы). Например: алтыс (имя числительное, глагол), ый (имя существительное, глагол), тогда указатель представляет составное число (см. таблицу 1). В этом случае начало поиска аффиксов зависит от места расположения слова в предложении, так как синтаксис якутского языка построен в большинстве случаев в глагольном завершении выражения мысли.

В первую очередь, слово проверяется на грамматический запрет. Пример запрещённых слов: тойоннор, кыыстар, тод, нукаай и др. Далее, с учетом агглютинативного принципа конструкции якутского языка, а также большого статистического показателя использования в текстах коренных слов, проверяемое слово укорачивается с конца на одну букву и производится поиск в словаре основных слов (Main Root); укорачивание производится до тех пор, пока не найдётся слово. При отсутствии слова в Main Root поиск производится в Perfect Root. После нахождения слова в словаре, программой вычисляется суммарный аффикс. Например: кыйбараьгнаама («кый» - корень, «бараігнаама» — суммарный аффикс). Словарное слово «кый» имеет указатель глагола (102000), следовательно, корень продуктивного аффикса ищется в библиотеке побудительных конструкций именно для глаголов фонетического правила 1 (А), укорачивая с конца суммарный аффикс. Для конкретного слова под номером 63 определяется слово «барангнаа» и дополнительный указатель разрешённого окончательного аффикса (SA_Extl01). Окончательный аффикс «ма» после подтверждения делает запрос через интерфейс связи к редактору Word и разрешает снятие подчёркивания ошибки. Благодаря высшему приоритету английского, затем русского языков, метод Range не позволяет правильно использованные английские и русские слова подчёркивать как неправильно введённые с точки зрения якутского языка.

Смешанная с другими национальными языками (английский, русский) проверка орфографии якутского текста требует операционную систему реагирования на события из очереди событий. Так как якутский язык в системе имеет низший уровень приоритета, выполнение программы Sakha Orthography должно быть задержано до тех пор, пока операционная система не завершит обработку всех событий из очереди. Кроме того, программа Sakha Orthography может забирать достаточно много процессорного времени, например, поиск слова «кыдамалапыннарбатахтарынаадар». В таких случаях программа должна периодически давать возможность операционной системе обработку других событий. Контроль времени итерации при обработке слова в зависимости от его длины и вызов функции DoEvents производит специальный модуль Limitation. Данный модуль запускается одновременно с основной программой и контролирует не только время поиска слов, но и время прохождения команд по реестру событий. Кроме вызова программы по распознаванию аббревиатур, как сказано в главе 1.3 программа SakhaOrthography.dll позволяет вызов других программ: по численному распознаванию смысла предложения, программы проверки синтаксиса и стилистики текста (грамматики) а также программ по переводу на другие языки. Указанные программы всегда работают в комплексе с настоящей программой.

Моделирование орфографии якутского языка и разработка комплекса программ для проверки правописания якутских текстов в среде WINDOWS Мигалкин Василий Васильевич

Численное представление смысла предложения

Метод составления электронного словаря

Продуктивные словообразовательные аффиксы (методы) для существительных (прилагательных)

Схема общего алгоритма процедуры проверки орфографии

Похожие диссертации на Моделирование орфографии якутского языка и разработка комплекса программ для проверки правописания якутских текстов в среде WINDOWS