Введение к работе
Актуальность темы. Среди приложений компьютерной лингвистики выделяются немногочисленные собственно лингвистические приложения, такие как машинный перевод, автоматизированное обучение языку, автоматизация лингвистических исследований. Немаловажное место среди таких нро-грамм занимают системы автокоррекции текста на естественном языке.
Разработка систем автоматизированной коррекции текста, являющихся исторически одним из первых видов компьютерных нроірамм, связанных с обработкой естественных текстов, несмотря на то. что первые программы аптокоррекции появились еще в 50-х гг. нашего века, сохраняет актуальность до настоящего времени, особенно для языков с развитой морфологической системой и нефиксированным порядком слов. Такая актуальность обуславливается, в первую очередь, нерешенностью проблемы в требуемом объеме.
С другой стороны, лингвистическое обеспечение- такой программы требует формализованного описания значительного по объему подмножества языка, причем такое описание может оказаться применимым и полезным также и для решения других задач компьютерной лингвистики. Кроме того, во многих компьютерных системах существует предварительная коррекция вводимых данных как начальный этап их обработки. Таким образом, актуальность исследования не ограничивается сферой автохоррекции.
Наконец, некоторые выводы и решения, предлагаемые нами в реферируемой диссертации, могут, на наит взіляд, оказаться полезными и в общелипгвистическом плане. Это относится, например, к анализу соотношения понятий нормативного и грамматичного (глава 1>, к предложенному в главе второй критерию выводимости функциональных характеристик единиц речи, к функциональной интерпретации регулярной неполноты парадигм.
Цель работы состоит в разработке методов приведения содержащего отклонения от нормы русского письменного текста в соответствие с языковой нормой на орфографическом уровне на основе собственно языковых характеристик единиц текста без обращения к прагматической стороне текста и его составляющих как лежащей вне языка, что предполагает построение модели ірамматической правильности русского языка, допускающей машинную реализацию.
Задачи исследования:
-
определить коррекцию как объект и предмет автоматизации;
-
на основе современных представлений о языковой норме провести классификацию ее нарушений;
-
определить способы их выявления и исправления в тексте;
-
разработать структуру данных для представления словаря номинативных единиц (лексем, словоформ, частей фразеологических единиц), информационно достаточную для применения в системах автокоррекции;
-
формально определить и классифицировать синтагматические способы орфографического уровня организации текста (словоизменительные, трансформообразоватсльные), то есть морфологию, а также разработать их формализованное представление, информационно достаточное для применения в системах автокоррекции.
Объектом исследования послужили процесс коррекции, соотношение системы языка, речи и нормы, а также некоторые закономерности грамматического строя русского языка.
Эмпирическую базу исследования составили тексты газетных статей (газеты "Невское время", "Санкт-Петербургские ведомости") объемом си. 4 млн. словоупотреблений, тексгы нормативных и типовых документов общим объемом сп. 2 млн. словоупотреблений, а также данные "Синтаксического словаря русского языка" Г.А.Золотовой, "Русской грамматики", "Словаря современного русского литературного языка", "Грамматического словаря" А.А.Зализняка, "Частотного словаря русского языка" под ред. Л.Н.Засориной, а также программы для ЭВМ: ОРФО, КОРРЕКТОР, ДИАКОР, РУССИКОН, Проверка русской орфографии, Crammatik V и иск. др.
Научная новизна диссертации.
В теоретическом плане:
-
предложен критерий выводимости, позволяющий в ряде сложных случаев различать между собой явления языковой и речевой систем. На основе этого критерия уточняются некоторые соотношения единиц языка и речи;
-
уточнены соотношения понятий ірамматичноети и нормативности текста;
-
предложена функциональная интерпретация регулярной неполноты морфологических парадигм как синтаксически обусловленного явления, определяющегося семантической невозможностью употребления регулярно отсутствующих морфологических форм;
-
уточнено соотношение понятий контекстного и синтаксического анализа.
В практическом ачане:
-
предложен новый способ машинного представления русской мор-фолоши, включая словоизменение и трансформообразование;
-
проведена классификация отклонений от языковой нормы;
-
построена морфологическая словарная база данных, представляющая св. 120 тыс. лексем.
Апробация работы. Диссертация обсуждалась па заседаниях кафедры математической лингвистики Санкт-Петербургского государственного университета.
На основе описанного п настоящей диссертации лингвистического обеспечения созданы две системы автоматизированной коррекции русского текста: — в соавторстве с Л.М.Прокофьевым (]992 г.) и AutoSpet — в соавторстве с С.Л.Слобоцянкжом и К.А.Мурзипым2. В настоящее время эти программы функционируют во многих крупных редакциях и издательствах: газеты "Санкт-Петербургские педомости", "Невское время", "Сегодня", ГИПК "Лениздат" и др.
Кроме того, на основе описываемой в диссертации морфологической базы данных нами в соавторстве с СЛ.Слободянюком и проф. Н.Д.Светозаро-вой разработана и функционирует система автоматической акцентно-иитона-ционной транскрипции русского текста Udar, предназначенная для использования в качестве компонента системы синтеза речи, создаваемой на кафедре фонетики и методики преподавания иностранных языков СПбГУ.
Структура работы. Диссертация состоит из Введения, трех глав, Заключения и двух Приложений.