Введение к работе
Актуальность темы исследования. Начиная с 1960-х годов по нарастающей осуществляются исследования в области компьютерной обработки тюркских языков, а также разрабатываются системы и технологии с целью активного использования тюркских языков в информационном пространстве как языков накопления, обработки и передачи информации. Наибольшее количество работ посвящено разработкам в области автоматизации морфологического анализа, морфологического аннотирования текстов, что вполне ожидаемо и естественно для тюркских языков и объясняется их структурными особенностями и важным значением морфологии практически во всех аспектах обработки языков тюркской группы. Это касается снятия многозначности, определения тональности текста или машинного перевода и поиска информации в электронном пространстве. Наиболее активно в данной области работают турецкие, уйгурские, казахские, российские ученые, что отражается также и в количестве публикаций и программных разработок.
Вместе с тем, практически отсутствует реальная интеграция исследований по обработке тюркских языков, происходит дублирование лингвистических моделей и ресурсов, а также программных модулей их обработки, в основе своей на 70–80 и более процентов являющихся общими для всех тюркских языков. Актуальными являются преодоление такого дублирования, объединение усилий на совместных разработках и обмен программными модулями. Это позволит сэкономить ресурсы, как финансовые так и кадровые, направить усилия специалистов на нерешенные проблемы, достичь общего прорыва в области создания технологий для обработки тюркских языков и даже создавать новые технологии обработки информации на основе лексико-грамматических особенностей тюркских языков. В перспективе повысится эффективность создания многоязычных систем обработки текстов, что послужит решению других фундаментальных и прикладных задач. Для их решения необходимы концептуальные и формальные лингвистические модели, базы данных и знаний, единые для тюркских языков, а также программное обеспечение, построенное на основе этих моделей. Очевидно, одним из важных требований к такого рода разработкам сегодня и, тем более, в перспективе является размещение их в виде общедоступных открытых интернет-сервисов.
Для построения таких моделей, баз данных и программных модулей перспективным является прагматически-ориентированнный подход к разработке лингвистических моделей, ресурсов и лингвистического программного обеспечения, включающих минимальный набор средств, достаточный для решения определенного круга задач. Д.Ш. Сулеймановым в 1998 году дана следующая классификация прагматически-ориентированных лингвистических моделей: 1) когнитивные (семантико-контекстные) модели, обеспечивающие глубинное проникновение в текущий контекст и трансформацию его с сохранением смысла как внутри одной модели, так и между разными моделями (например, системы машинного перевода, системы извлечения знаний); 2) диалоговые запросно-ответные или интерактивные модели, обеспечивающие естественно-языковой диалог автоматизированной системы с пользователем при запросах к системе или ответах пользователя на вопросы системы; 3) концептуально-формальные модели, обеспечивающие целевую обработку текстов согласно соответствующим формальным правилам определенного языкового уровня (собственно грамматики естественного языка (ЕЯ)); 4) структурно-параметрические функциональные модели (СПФМ), являющиеся наиболее полными описаниями элементов и их взаимосвязей определенного ЕЯ-уровня или уровней,
которые обеспечивают разработчиков концептуальной информацией, необходимой при построении систем и информационных технологий обработки естественно-языковых текстов.
Модель, представленная в диссертационной работе, является комплексной
многоуровневой моделью, состоящей из множества подмоделей. Это подмодели относятся к 3-му и 4-му классам прагматически-ориентированных моделей согласно приведенной классификации. Первая группа подмоделей – структурно-параметрические функциональные подмодели, которые представляют собой описание тюркских языковых единиц. Вторая группа подмоделей - концептуально-формальные подмодели, которые описывают правила языковых уровней: морфонологического и синтаксического. В данной диссертационной работе описана модель морфонологического уровня. Эти модели положены в основу технологий анализа языковых структур, реализованных в рамках диссертационной работы.
Актуальность создания такого типа комплексной многоуровневой, многоязычной модели, лингвистической базы данных и многофункционального инструментария заключается в том, что существующие компьютерные модели не могут достаточно комплексно и адекватно отразить особенности тюркских языков; также не хватает лингвистических баз данных, адекватно отображающих информацию для тюркских языков. Предлагаемые в диссертации модель и многофункциональный сервис способствуют решению этих проблем. Предлагаемая модель позволяет эксплицитно отразить взаимосвязи между различными языковыми уровнями тюркских языков, единицами этих языковых уровней, провести статистический сравнительный анализ параметрических данных с описанием языковых свойств.
Объектом исследования диссертации является процесс создания концепуальных моделей и программных средств, а также лингвистического интернет-ресурса для автоматизированной обработки и использования тюркских языков.
Предметом исследования являются технологии автоматизации создания
многофункциональной модели морфологического (МРФЛ) и морфонологического (МРФН) уровней естественных языков с учетом соответствующих им структурно-параметрических характеристик.
Цель работы – повысить эффективность создания многоязычных систем обработки
текстов, внедрить новые модели, которые позволяют отразить взаимосвязи между различными
языковыми уровнями, единицами этих языковых уровней путем разработки концептуальных и
формальных моделей морфологического и морфонологического уровней, баз данных и
программных модулей в рамках проекта многофункционального многоязычного
лингвистического интернет-ресурса, основанного на структурно-параметрической
функциональной модели тюркской морфемы.
Достижение поставленной цели предполагает решение следующих исследовательских и прикладных задач:
-
разработка концептуальных и формальных моделей для представления языковых единиц морфологического и морфонологического уровней тюркских языков на основе их исследования и сравнительного анализа;
-
разработка базовых модулей многопользовательской многоязычной программно-информационной среды для создания, модификации и применения лингвистичской базы данных в виде интернет-ресурса на основе структурно-параметрических моделей морфологического и морфонологического уровней;
-
заполнение базы данных морфологического и морфонологического языковых уровней
многофункционального многоязычного лингвистического интернет-ресурса на примере татарского, казахского, турецкого языков;
-
разработка технологий сравнительного анализа близкородственных языков на морфологическом и морфонологическом уровнях с использованием структурно-параметрической модели тюркской морфемы и реализация их в виде отдельного сервиса;
-
создание программы морфологического анализа и синтеза тюркских словоформ на основе структурно-параметрической модели тюркской морфемы.
Научная новизна диссертационного исследования заключается в следующем:
-
Реализована многоязычная версия структурно-параметрической функциональной модели (СПФМ) тюркской морфемы на основе прагматически-ориентированного подхода к построению систем обработки ЕЯ-информации.
-
Разработаны базовые модули многофункционального многоязычного многопользовательского интернет-сервиса для создания, модификации и применения лингвистической базы данных с описанием МРФЛ- и МРФН-уровней СПФМ тюркской морфемы.
-
Осуществлено заполнение базы данных языковых уровней МРФЛ и МРФН многофункционального многоязычного интернет-ресурса на примере татарского, казахского, турецкого, а также крымскотатарского и узбекского языков.
-
Разработана программа морфологического анализа для тюркских языков с использованием МРФЛ- и МРФН аспектов СПФМ тюркской морфемы.
-
Реализованы технологии сравнительного анализа близости языков с использованием МРФЛ и МРФН аспектов СПФМ тюркской морфемы.
Теоретическая и практическая ценность полученных результатов.
Теоретическая ценность результатов, полученных в диссертации, заключается в разработке компонентов многофункционального многоязычного многопользовательского лингвистического интернет-сервиса, являющегося ресурсной базой для программных продуктов, осуществляющих компьютерную обработку тюркских языков, а также новых моделей и алгоритмов для сравнительного анализа степени близости тюркских языков по заданным параметрам.
Практическая значимость заключается в том, что разработанный интернет-сервис может быть использован в качестве информационно-справочной системы, содержащей наиболее полную информацию о тюркских языковых единицах – морфемах, а также в качестве технологического инструментария для заполнения базы морфем для разных тюркских языков и осуществления научно-прикладных исследований учеными-тюркологами в области морфологии.
Методология и методы исследования. При разработке структуры модели и ее наполнении использованы описательно-аналитический и контекстологический методы. При разработке структуры подмоделей использованы методы моделирования и сопоставительного анализа. При разработке программного комплекса использованы методы алгоритмического моделирования, структурного программирования, логического программирования.
Положения, выносимые на защиту:
-
Концептуально-формальные и структурно-параметрические функциональные модели для описания свойств языковых единиц морфологического и морфонологического уровней тюркских языков, как базовые лингвистические компоненты программ для обработки тюркских языков;
-
Программный инструментарий многопользовательской многоязычной программно-информационной среды для создания, модификации и использования базы данных, созданной
на основе СПФМ языковых единиц МРФЛ- и МРФН-уровней многофункционального интернет-ресурса;
-
Алгоритмы и программа МРФЛ анализа и генерации тюркских словоформ с возможностью анализа аналитических (многословных) форм единиц языка;
-
Технология и программный инструментарий для лингвостатистического сравнения близости тюркских языков с использованием СПФМ тюркской морфемы.
Степень достоверности апробация полученных научных результатов. Модели и алгоритмы, предложенные в диссертационной работе, обоснованы корректным применением указанных выше методов исследования. Практическая апробация результатов работы подтвердила эффективность предложенных моделей и алгоритмов.
Результаты работы докладывались на международных конференциях и семинарах: Международная конференция по компьютерной обработке тюркских языков TurkLang-2014 (Стамбул, 2014), TurkLang-2015 (Казань, 2015), TurkLang-2017 (Казань, 2017), XIV Международной конференции по компьютерной и когнитивной лингвистике TEL'2016 (Казань, 2016), V и VI Международная научно-практическая конференция «Сохранение и развитие родных языков в условиях многонационального государства: проблемы и перспективы» (Казань, 2014, 2015); Форум гуманитарных наук (Казахстан, Астана, 23–25 мая 2016), «Филология и Культура» (Казань, 2016), а также на различных городских научных семинарах, итоговых конференциях Казанского федерального университета (Казань, 2014–2018).
Публикации. Основные положения и результаты диссертационной работы опубликованы в 8 печатных изданиях [1–8], из которых статьи [1–3] входят в перечень журналов ВАК РФ, а также получено свидетельство о внедрении программы морфологического анализа для тюркских языков, разработанной на базе структурно-параметрической модели тюркской морфемы в поисково-аналитическую систему Exactus. Многофункциональный интернет-сервис также используется в учебном процессе в Казанском (Приволжском) федеральном университете по курсу “Компьютерная лингвистика”.
Структура и объем работы. Диссертация состоит из введения, трех глав, заключения, списка использованной литературы и 5 приложений. Объем диссертации составляет 132 страницы (без приложения), 7 таблиц, 47 рисунков.