Введение к работе
Актуальность темы. Существующая ситуация в области межкультурной коммуникации персоязычных народов во многом предопределена историческими событиями XIX - XX веков в Средней Азии и на Среднем Востоке, когда большая группа персоязычных народностей оказалась разделенной рамками новых государственных образований -Ирана, Афганистана и Таджикистана. В лингвистическом плане единый персидский язык так же оказался разделенным на три языка - персидский (фарси) в пределах Ирана, дари - в Афганистане и таджикский - сначала на части территории бывшей Российской Империи, потом СССР, а ныне -суверенного Таджикистана и некоторых областей Узбекистана и Киргизии.
Сохранив общую языковую систему, таджикский и персидский языки имеют в настоящее время разные системы письма: персидский (ПЯ) - письмо на основе арабской графики, а таджикский (ТЯ) - на основе расширенного кирилловского алфавита. При этом преобразование текстов с одного языка на другой нетривиально и не сводится к простой транслитерации. Неоднозначность соответствия букв используемых в ТЯ и ПЯ алфавитов создают проблему нахождения системы правил отображений между ними. Так, фраза классика таджикско-персидской поэзии XVI века Бадриддина Хилоли из произведения «Тазалиёт», одинаково понятная на слух и
таджикам, и персам, в письменной речи выглядит по-разному:
Су хан зохмр кунад сузи нщонро I j jl*J jj" & >Ui j^.
Зи шажъи дик барафрузад чрхрнро. U OU» Oj j\ л ifc u**" is*
Слово боль передаёт, что в душе таится,
Искрой сердца целый мир может озариться.
Наметившееся относительно недавно и неизбежное в исторической перспективе сближение персоязычных стран нуждается в интенсификации документооборота, обеспечивающего экономический, культурный и научный обмен информацией, а также официальную, коммерческую и частную переписку участников межъязыковой коммуникации.
С развитием международного телекоммуникационного пространства и, в частности, сети Интернет, различия в письменной графике проявляются серьезным сдерживающим фактором развития электронной коммуникации между гражданами и организациями этих стран, обуславливающим существование проектов перехода Таджикистана на арабскую графику, а Ирана, возможно, - к алфавиту на основе латиницы.
Указанные факторы обуславливают актуальность проблематики согласования систем письменности таджикского и персидского языков за счет разработки, исследования и обоснования системы формализованных правил взаимной конверсии письменных текстов рассматриваемой языковой пары, а на её основе - средств автоматизации данных процессов.
До недавнего времени рассматриваемая проблематика разрабатывалась, в основном, методами языкознания, при этом удовлетворительных решений найдено не было. Согласование систем письма производилось за счет разработки стандартов транслитерации таджикских и персидских текстов в промежуточный текст на основе латинской графики. Недостатки этого подхода очевидны. Языковая ситуация с письменностями таджикского и персидского языков, в том числе и в исторической ретроспективе, отражена в ряде трудов (Мусаев К.М., Асимова Б.С, Исаев М.И., Collin R.O.).
Таким образом, для замены диффузной, интуитивно сформулированной и не имеющей полного решения лингвистической задачи на математическую задачу, логически сформулированную и имеющую алгоритмическое решение, целесообразна математическая экспликация указанной проблематики, методология которой дана в работах Пиотровского Р. Г.
Для решения поставленной задачи автором применен комплексный подход [4], сочетающий отдельные стороны детерминированного и вероятностного подходов, получивших отражение в научных трудах по компьютерной и математической лингвистике. Решение задачи основано на членении словоформ исходного таджикского текста на цепочки символов, имеющих однозначное отображение на множество цепочек персидских символов. В качестве решающего алгоритма для такого членения, автором разработан автоматический вероятностный морфологический анализатор ТЯ. Исключения, возникающие в результате вероятностного морфоанализа, учитываются в отдельном информационном хранилище.
Теоретическими основами для реализации описанного подхода явились научные работы в областях вероятностного машинного перевода (Koehn P., Brown Р.); автоматической транскрипции имен собственных (Бондаренко А.В., Stalls В. G., Kevin К.); автоматической транскрипции для преобразования текст-речь (Azimizadeh A., Arab М.М., Quchani S.R.).
В качестве альтернативной выступает разработка на основе технологии Xerox Finite State Technology (Megerdoomian К., Parvaz D.), показывающая точность конверсии до 90%.
Значительный практический опыт обобщен рядом исследователей в области транслитерации личных имен (Ермолович Д.И., Arbabi М, Fischthal S., Pouliquen В.), а также систем межъязыковой транслитерации: англояпонских (Finch A., Sumita Е., Knight К., Graehl, J.), англо-персидских (Karimi S., Scholer F., Turpin А.) и англо-арабских (AbdulJaleel N., Larkey L.); системы конверсии текстов пенджабского языка (Saini T.S., Lehal G.S.).
Математическая база для практической реализации систем обработки текстов, модели словообразования и морфоанализа для ТЯ и ПЯ отражены в ряде работ ученых Таджикистана (Усманов 3. Д., Исмаилов М.А.).
Лингвистические основы преобразования систем письменности и типизации словарного многообразия таджикско-персидской языковой пары представлены работами таджикских лингвистов (Фомин А.Ю., Амонова Ф.).
Цель работы. Разработать эффективный вычислительный алгоритм таджикско-персидской конверсии графических систем письма и реализовать его в виде проблемно-ориентированного программного комплекса.
Достижение поставленной цели осуществляется путем решения следующих задач:
Анализ и систематизация существующих научных знаний в области автоматической межъязыковой конверсии текстов.
Исследование закономерностей отображения множества таджикских словоформ в персидские при таджикско-персидской конверсии текстов (ТПКТ).
Разработка и обоснование математической модели ТПКТ.
Разработка, обоснование и тестирование комплекса эффективных алгоритмов автоматической ТПКТ и их реализация в виде проблемно-ориентированного программного обеспечения.
Проведение вычислительных экспериментов с целью тестирования и верификации разработанных программных средств и разработка научно-технических предложений по их практическому использованию и дальнейшему совершенствованию.
Методы исследования, достоверность и обоснованность результатов. Методологическую основу работы при построении и исследовании моделей и алгоритмов составляют методы теории алгоритмов, теории множеств, математического моделирования, теории информации, математической статистики, теории вероятностей и методы распознавания образов. Для разработки программных средств применялись методы объектно-ориентированного программирования, а также CASE-средства.
Теоретические результаты получены методом дедуктивных рассуждений. Достоверность результатов диссертации обеспечивается использованием строгих математических методов для обработки и анализа данных. Достоверность также подтверждается численным экспериментом.
Научная новизна работы обусловлена:
применением математической экспликации рассматриваемой предметной области;
сочетанием детерминированного и вероятностного подходов к решению задачи ТПКТ, за счет чего нивелированы недостатки и суммированы достоинства каждого из них в отдельности;
применением нового подхода к морфологическому анализу заимствованных слов ТЯ, учитывающему морфологические правила языков, из которых произошло заимствование;
4. проведением комплексного кластерного анализа множества словоформ ТЯ, позволившего получить перечни и статистические распределения для различных морфологических элементов ТЯ.
Практическая значимость работы состоит в возможности широкого внедрения созданных средств конверсии в системах документооборота, а также в качестве элемента многозвенных систем машинного перевода.
Полученные результаты используются в учебном процессе Российско-Таджикского Славянского Университета при разработке курсов лекций и программы по дисциплине «Компьютерная лингвистика».
Созданный программный комплекс зарегистрирован Национальным патентно-информационным центром Министерства экономического развития и торговли Республики Таджикистан в качестве интеллектуального продукта № 091TJ от 16.03.2009 года.
Теоретическая ценность работы состоит в том, что разработанный подход к математическому моделированию и реализации вычислительных алгоритмов в области межъязыковой конверсии текстов эффективно приспосабливаются для решения как обратной задачи персидско-таджикской конверсии текстов, так и аналогичных задач для других языковых пар.
Апробация работы. Основные результаты диссертации обсуждались на научных семинарах Института математики АН РТ 2008-09 гг., научно-практическом семинаре в Технологическом институте Таджикистана 2009 г., научно-практическом семинаре Российско-Таджикского Славянского Университета 2009 г., а также в Отделении общественных наук АН РТ и Комитете по терминологии при АН РТ, г. Душанбе.
Публикации, личный вклад автора.
Основные положения, выводы и рекомендации диссертационной работы опубликованы в четырех статьях в научных изданиях Академии наук Республики Таджикистан [1-4].
Изложенные в диссертации результаты получены лично автором или при его непосредственном участии. В работах, выполненных вместе с соавторами, вклад автора является определяющим.
Структура и объем диссертации. Работа состоит из введения, трёх глав, заключения и приложений. Библиография насчитывает 84 источника. Объем работы 112 страниц, в тексте основной части имеется 28 рисунков и 17 таблиц.
Благодарности. Диссертант выражает глубокую благодарность Алексею Юрьевичу Фомину за значительную помощь на этапе исследования лингвистических объектов.