Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Математические основы автоматизированной таджикско-персидской конверсии графических систем письма Гращенко Леонид Александрович

Математические основы автоматизированной таджикско-персидской конверсии графических систем письма
<
Математические основы автоматизированной таджикско-персидской конверсии графических систем письма Математические основы автоматизированной таджикско-персидской конверсии графических систем письма Математические основы автоматизированной таджикско-персидской конверсии графических систем письма Математические основы автоматизированной таджикско-персидской конверсии графических систем письма Математические основы автоматизированной таджикско-персидской конверсии графических систем письма
>

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Гращенко Леонид Александрович. Математические основы автоматизированной таджикско-персидской конверсии графических систем письма : диссертация ... кандидата физико-математических наук : 05.13.18 / Гращенко Леонид Александрович; [Место защиты: Ин-т математики АН Республики Таджикистан].- Душанбе, 2010.- 115 с.: ил. РГБ ОД, 61 10-1/464

Введение к работе

Актуальность темы. Существующая ситуация в области межкультурной коммуникации персоязычных народов во многом предопределена историческими событиями XIX - XX веков в Средней Азии и на Среднем Востоке, когда большая группа персоязычных народностей оказалась разделенной рамками новых государственных образований -Ирана, Афганистана и Таджикистана. В лингвистическом плане единый персидский язык так же оказался разделенным на три языка - персидский (фарси) в пределах Ирана, дари - в Афганистане и таджикский - сначала на части территории бывшей Российской Империи, потом СССР, а ныне -суверенного Таджикистана и некоторых областей Узбекистана и Киргизии.

Сохранив общую языковую систему, таджикский и персидский языки имеют в настоящее время разные системы письма: персидский (ПЯ) - письмо на основе арабской графики, а таджикский (ТЯ) - на основе расширенного кирилловского алфавита. При этом преобразование текстов с одного языка на другой нетривиально и не сводится к простой транслитерации. Неоднозначность соответствия букв используемых в ТЯ и ПЯ алфавитов создают проблему нахождения системы правил отображений между ними. Так, фраза классика таджикско-персидской поэзии XVI века Бадриддина Хилоли из произведения «Тазалиёт», одинаково понятная на слух и

таджикам, и персам, в письменной речи выглядит по-разному:

Су хан зохмр кунад сузи нщонро I j jl*J jj" & >Ui j^.

Зи шажъи дик барафрузад чрхрнро. U OU» Oj j\ л ifc u**" is*

Слово боль передаёт, что в душе таится,
Искрой сердца целый мир может озариться.

Наметившееся относительно недавно и неизбежное в исторической перспективе сближение персоязычных стран нуждается в интенсификации документооборота, обеспечивающего экономический, культурный и научный обмен информацией, а также официальную, коммерческую и частную переписку участников межъязыковой коммуникации.

С развитием международного телекоммуникационного пространства и, в частности, сети Интернет, различия в письменной графике проявляются серьезным сдерживающим фактором развития электронной коммуникации между гражданами и организациями этих стран, обуславливающим существование проектов перехода Таджикистана на арабскую графику, а Ирана, возможно, - к алфавиту на основе латиницы.

Указанные факторы обуславливают актуальность проблематики согласования систем письменности таджикского и персидского языков за счет разработки, исследования и обоснования системы формализованных правил взаимной конверсии письменных текстов рассматриваемой языковой пары, а на её основе - средств автоматизации данных процессов.

До недавнего времени рассматриваемая проблематика разрабатывалась, в основном, методами языкознания, при этом удовлетворительных решений найдено не было. Согласование систем письма производилось за счет разработки стандартов транслитерации таджикских и персидских текстов в промежуточный текст на основе латинской графики. Недостатки этого подхода очевидны. Языковая ситуация с письменностями таджикского и персидского языков, в том числе и в исторической ретроспективе, отражена в ряде трудов (Мусаев К.М., Асимова Б.С, Исаев М.И., Collin R.O.).

Таким образом, для замены диффузной, интуитивно сформулированной и не имеющей полного решения лингвистической задачи на математическую задачу, логически сформулированную и имеющую алгоритмическое решение, целесообразна математическая экспликация указанной проблематики, методология которой дана в работах Пиотровского Р. Г.

Для решения поставленной задачи автором применен комплексный подход [4], сочетающий отдельные стороны детерминированного и вероятностного подходов, получивших отражение в научных трудах по компьютерной и математической лингвистике. Решение задачи основано на членении словоформ исходного таджикского текста на цепочки символов, имеющих однозначное отображение на множество цепочек персидских символов. В качестве решающего алгоритма для такого членения, автором разработан автоматический вероятностный морфологический анализатор ТЯ. Исключения, возникающие в результате вероятностного морфоанализа, учитываются в отдельном информационном хранилище.

Теоретическими основами для реализации описанного подхода явились научные работы в областях вероятностного машинного перевода (Koehn P., Brown Р.); автоматической транскрипции имен собственных (Бондаренко А.В., Stalls В. G., Kevin К.); автоматической транскрипции для преобразования текст-речь (Azimizadeh A., Arab М.М., Quchani S.R.).

В качестве альтернативной выступает разработка на основе технологии Xerox Finite State Technology (Megerdoomian К., Parvaz D.), показывающая точность конверсии до 90%.

Значительный практический опыт обобщен рядом исследователей в области транслитерации личных имен (Ермолович Д.И., Arbabi М, Fischthal S., Pouliquen В.), а также систем межъязыковой транслитерации: англояпонских (Finch A., Sumita Е., Knight К., Graehl, J.), англо-персидских (Karimi S., Scholer F., Turpin А.) и англо-арабских (AbdulJaleel N., Larkey L.); системы конверсии текстов пенджабского языка (Saini T.S., Lehal G.S.).

Математическая база для практической реализации систем обработки текстов, модели словообразования и морфоанализа для ТЯ и ПЯ отражены в ряде работ ученых Таджикистана (Усманов 3. Д., Исмаилов М.А.).

Лингвистические основы преобразования систем письменности и типизации словарного многообразия таджикско-персидской языковой пары представлены работами таджикских лингвистов (Фомин А.Ю., Амонова Ф.).

Цель работы. Разработать эффективный вычислительный алгоритм таджикско-персидской конверсии графических систем письма и реализовать его в виде проблемно-ориентированного программного комплекса.

Достижение поставленной цели осуществляется путем решения следующих задач:

  1. Анализ и систематизация существующих научных знаний в области автоматической межъязыковой конверсии текстов.

  2. Исследование закономерностей отображения множества таджикских словоформ в персидские при таджикско-персидской конверсии текстов (ТПКТ).

  3. Разработка и обоснование математической модели ТПКТ.

  4. Разработка, обоснование и тестирование комплекса эффективных алгоритмов автоматической ТПКТ и их реализация в виде проблемно-ориентированного программного обеспечения.

  5. Проведение вычислительных экспериментов с целью тестирования и верификации разработанных программных средств и разработка научно-технических предложений по их практическому использованию и дальнейшему совершенствованию.

Методы исследования, достоверность и обоснованность результатов. Методологическую основу работы при построении и исследовании моделей и алгоритмов составляют методы теории алгоритмов, теории множеств, математического моделирования, теории информации, математической статистики, теории вероятностей и методы распознавания образов. Для разработки программных средств применялись методы объектно-ориентированного программирования, а также CASE-средства.

Теоретические результаты получены методом дедуктивных рассуждений. Достоверность результатов диссертации обеспечивается использованием строгих математических методов для обработки и анализа данных. Достоверность также подтверждается численным экспериментом.

Научная новизна работы обусловлена:

  1. применением математической экспликации рассматриваемой предметной области;

  2. сочетанием детерминированного и вероятностного подходов к решению задачи ТПКТ, за счет чего нивелированы недостатки и суммированы достоинства каждого из них в отдельности;

  3. применением нового подхода к морфологическому анализу заимствованных слов ТЯ, учитывающему морфологические правила языков, из которых произошло заимствование;

4. проведением комплексного кластерного анализа множества словоформ ТЯ, позволившего получить перечни и статистические распределения для различных морфологических элементов ТЯ.

Практическая значимость работы состоит в возможности широкого внедрения созданных средств конверсии в системах документооборота, а также в качестве элемента многозвенных систем машинного перевода.

Полученные результаты используются в учебном процессе Российско-Таджикского Славянского Университета при разработке курсов лекций и программы по дисциплине «Компьютерная лингвистика».

Созданный программный комплекс зарегистрирован Национальным патентно-информационным центром Министерства экономического развития и торговли Республики Таджикистан в качестве интеллектуального продукта № 091TJ от 16.03.2009 года.

Теоретическая ценность работы состоит в том, что разработанный подход к математическому моделированию и реализации вычислительных алгоритмов в области межъязыковой конверсии текстов эффективно приспосабливаются для решения как обратной задачи персидско-таджикской конверсии текстов, так и аналогичных задач для других языковых пар.

Апробация работы. Основные результаты диссертации обсуждались на научных семинарах Института математики АН РТ 2008-09 гг., научно-практическом семинаре в Технологическом институте Таджикистана 2009 г., научно-практическом семинаре Российско-Таджикского Славянского Университета 2009 г., а также в Отделении общественных наук АН РТ и Комитете по терминологии при АН РТ, г. Душанбе.

Публикации, личный вклад автора.

Основные положения, выводы и рекомендации диссертационной работы опубликованы в четырех статьях в научных изданиях Академии наук Республики Таджикистан [1-4].

Изложенные в диссертации результаты получены лично автором или при его непосредственном участии. В работах, выполненных вместе с соавторами, вклад автора является определяющим.

Структура и объем диссертации. Работа состоит из введения, трёх глав, заключения и приложений. Библиография насчитывает 84 источника. Объем работы 112 страниц, в тексте основной части имеется 28 рисунков и 17 таблиц.

Благодарности. Диссертант выражает глубокую благодарность Алексею Юрьевичу Фомину за значительную помощь на этапе исследования лингвистических объектов.

Похожие диссертации на Математические основы автоматизированной таджикско-персидской конверсии графических систем письма