Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Проблема формализации лингвистических знаний (На материале пунктуации русского языка) Анненкова Елена Алексеевна

Проблема формализации лингвистических знаний (На материале пунктуации русского языка)
<
Проблема формализации лингвистических знаний (На материале пунктуации русского языка) Проблема формализации лингвистических знаний (На материале пунктуации русского языка) Проблема формализации лингвистических знаний (На материале пунктуации русского языка) Проблема формализации лингвистических знаний (На материале пунктуации русского языка) Проблема формализации лингвистических знаний (На материале пунктуации русского языка) Проблема формализации лингвистических знаний (На материале пунктуации русского языка) Проблема формализации лингвистических знаний (На материале пунктуации русского языка) Проблема формализации лингвистических знаний (На материале пунктуации русского языка) Проблема формализации лингвистических знаний (На материале пунктуации русского языка)
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Анненкова Елена Алексеевна. Проблема формализации лингвистических знаний (На материале пунктуации русского языка) : Дис. ... канд. филол. наук : 10.02.19 : Ростов н/Д, 2004 184 c. РГБ ОД, 61:04-10/1101

Содержание к диссертации

Введение

Глава 1. Формализация как метод теоретического исследования в языкознании 12

1. Понятие формализации в лингвистике и научном познании 12

2. Формализация в отечественном и зарубежном языкознании 17

3. Формализация и моделирование лингвистических процессов 27

4. Формализация и алгоритмизация лингвистических процессов 33

5. Новые тенденции формализации с точки зрения процесса автоматизации лингвистических знаний 37

6. Формализация синтаксического уровня языка и ее применение в системе пунктуации 53

Выводы 66

Глава 2. Формализация постановки тире в пунктуационной системе языка 68

1. Формализация постановки тире в предложении со словом это» 68

2. Моделирование простого предложения и автоматизация его структурной организации 86

3. Структура простого предложения с формантом «это» (и его эквивалентами) между главными членами 91

Выводы 106

Глава 3. Автоматизация процесса постановки тире в простом предложении между главными членами перед словом «это» (и его эквивалентами) 108

1. Решение задачи автоматизации процесса постановки тире в простом предложении между главными членами перед словом «это» (и его эквивалентами) 108

2. Вопросы построения лингвистического алгоритма «Тире в простом предложении между главными членами перед словом «это» (и его эквивалентами)», ориентированного на ЭВМ 113

3. Автоматизация процесса постановки тире в простом предложении между главными членами перед словом «это» (и его эквивалентами) 129

3.1. Инвариантные и вариантные структурные схемы простых предложений как основа алгоритмизации процесса постановки

4 тире 129

3.2. Алгоритмы для автоматизации процесса постановки тире 136

Алгоритм№ 1 NI-3TONI 137

Алгоритм № 2 Ni - это N2-6 138

Алгоритм № 3 Ni -это Adv-o 139

Алгоритм № 4 Ni -это Inf. 140

Алгоритм № 5 Ni - это когда Р [KaK,Ni, Adj і; одно из; (и) есть, (и) значит Ni, Adj і, Inf] 141

Алгоритм № 6 Ni - это Part-но 142

Алгоритм № 7 Ni - это то, что 143

Алгоритм № 8, Ni - это Adj і 144

Алгоритм № 9 Inf- это ((и) значит, (и) есть) Inf [одно из N2-6, AdJ2-6; как№, Adji, Inf] 145

Алгоритм № 10 Inf-это Adv-o 146

Алгоритм № 11 Inf - это N2-6 147

Алгоритм № 12 Inf- это Ni 148

Алгоритм № 13 Inf- это Part-но 149

Алгоритм № 14 Inf - это Adj і. 150

Алгоритм № 15 Inf—это то, что 151

Алгоритм № 16 Adj і - это Ni 152

Алгоритм № 17 Adj і - это N2-6 153

Алгоритм № 18 Adj і - это Inf. 154

Алгоритм № 19 Adji - это когда Р[как Ni, Adj і;одно из N2-6, AdJ2-6; (и)есть (и) значит Ni, Adj і, Inf; то, что] 155

Алгоритм № 20 Adj і - это Adv-o (Part-но) 156

Алгоритм № 21 Adji- это Adji 157

3.3. Комментарии к алгоритмам 158

Выводы 165

Заключение 167

Литература 171

Введение к работе

Проблема формализации лингвистических знаний на современном этапе развития языкознания является чрезвычайно актуальной. Это связано, во-первых, с тем, что информатизация мыслительной деятельности человека требует использования метода формализации как одного из методов научного познания и программирования различных типов языковых данных.

Во-вторых, продолжающаяся работа по созданию Машинного фонда русского языка, по словам А.П. Ершова, нуждается в разработке формализованного словаря русского языка и формальной грамматики, сравнимой по полноте с Академической грамматикой русского языка. Все это подчинено цели комплексной автоматизации лингвистических знаний и прикладных разработок в области языкознания, более полному и глубокому познанию природы языка в целом (Андрющенко, 1985, 54; Ершов, 1985, 51).

В-третьих, образованному фонду лингвистических алгоритмов и программ необходимы новые и усовершенствованные материалы (текстовые редакторы, автокорректоры, программы издательской подготовки, анализа и синтеза русской речи) для автоматизации разного рода работ. Поиски новых методов предупреждения и обнаружения ошибок и реализация этих методов на основе электронной техники еще не вышли из стадии научно-исследовательских разработок и экспериментов (Васильев, 1981, 91).

В-четвертых, вопрос о возможностях и границах формализации в научном познании и лингвистке в том числе, о критериях формализуемого и неформализуемого остается спорным.

Научный интерес к проблеме формализации лингвистических знаний (на
материале русской пунктуации) вызван и тем фактом, что отсутствуют
работы в области пунктуации, посвященные данной проблеме, несмотря на
то, что опыт формализации различных типов языковых данных, как показало
исследование специальной литературы по этому вопросу, есть.
Пунктуационная система, как считает Б.С. Шварцкопф (Ширяев, 1991, 148-
149), по своим основополагающим свойствам аналогична любой языковой
системе (или подсистеме). При этом между естественными собственно
языковыми системами, естественность которых представляется

аксиоматичной, и пунктуационной системой отсутствуют существенные различия. Это позволяет предположить возможность формализации и в пунктуации.

На современном этапе научного развития формализация - это прежде всего автоматизация или путь к автоматизации. Именно кибернетика придала такое огромное значение научным и философским вопросам формализации, по-новому поставила вопрос о значении научной строгости.

При изучении проблемы формализации лингвистических знаний
применительно к пунктуации выяснилось, что функции и правила
употребления знаков препинания привлекали особое внимание
исследователей на первом этапе работы над проблемой автоматизации
* перевода. Позднее интерес к этому вопросу уменьшился и уступил место

«центральным» вопросам синтаксиса (Арапов, 1967, 52). Таким образом, пунктуация в прикладном аспекте, как мы установили, оказалась в числе наименее изученных вопросов.

Всестороннее рассмотрение данной проблемы приводит к обнаружению
того, что многие задачи, связанные с автоматизацией лингвистических
знаний, еще не решены (Герд, 1986, 92-93). Их решением занимается
структурная, математическая, компьютерная и прикладная лингвистика,
использующая методы формального анализа. Именно здесь формализация, ее
*"' принципы, приемы, способы играют важную роль по выявлению,

представлению и уточнению содержания изучаемого явления через рассмотрение и фиксацию его формы и оперирование с нею.

Разработка формального аппарата для описания строения естественного
языка, начавшаяся в 50-х годах XX века, основана на восходящем к Ф.де
Соссюру представлению о языке как механизме, функционирование которого
проявляется в речевой деятельности его носителей; ее результатом являются
«правильные тексты» - последовательности речевых единиц,
ш. подчиняющиеся определенным закономерностям, многие из которых

допускают математическое описание (Лингвистический энциклопедический словарь, 1990, 287).

Главной чертой языкознания 2-й половины XX века, как утверждает Ю.С. Степанов (1975, 34), является то, что лингвистические исследования имеют формальный характер. К проблеме формализации и формальным исследованиям в своих работах обращаются такие ученые, как Ю.Д. Апресян, А.В. Гладкий, В.А. Звегинцев, Ю.К. Лекомцев, Ю.Н. Марчук, И.А. Мельчук, Л.Л. Нелюбин, А.И. Новиков, Р.Г. Пиотровский, И.И. Ревзин, Ю.А. Шрейдер и др. Анализ фундаментальных работ этих авторитетных ученых

дает наиболее полное представление о формализации и ее роли в языкознании.

Таким образом, актуальность диссертационного исследования состоит в том, что в нем в теоретическом и прикладном аспектах дается анализ проблемы формализации лингвистических знаний на материале пунктуационной системы русского языка. Это обусловило, выбор соответствующей темы диссертации, в центре внимания которой - проблема формализации и, в частности, формализации структуры простого предложения с тире между главными членами перед словом «это» (и его эквивалентами).

Объектом исследования данной работы является пунктограмма тире в простом предложении между главными членами перед словом «это» (и его эквивалентами).

Предмет исследования — формализация и автоматизация процесса постановки тире в рамках объекта исследования.

Цель диссертационной работы — исследование проблемы формализации и автоматизации процесса постановки тире в простом предложении между главными членами перед словом «это» (и его эквивалентами).

В соответствии с поставленной целью реализуются следующие частные задачи:

  1. Изучение процесса формализации синтаксического уровня языка и возможности применения методов его формализации в системе пунктуации.

  2. Обоснование возможности формализации и автоматизации процесса постановки тире в простом предложении между главными членами перед словом «это» (и его эквивалентами).

3.Выделение инвариантных структурных схем простого предложения со словом «это» (и его эквивалентами) между главными членами.

4. Построение математической модели; структуры простого предложения с формантом «это» (и его эквивалентами) между главными членами.

5.Составление общего лингвистического алгоритма «Тире в простом предложении между главными членами перед словом «это» (и его эквивалентами)» и вспомогательных алгоритмов, детализирующих общий алгоритм, по структурным схемам простого предложения (Общий и частные алгоритмы ориентированы на электронно-вычислительную машину).

Реализация цели и задач исследования опирается на общую философскую, общенаучную и частную методологию. В работе используются диалектический метод, метод восхождения от абстрактного к конкретному, системный подход. Приемами исследования являются анализ и синтез, абстрагирование и идеализация, индукция, дедукция и аналогия. К методам и приемам лингвистического исследования материала относятся как традиционные методы, так и методы и приемы прикладной лингвистики. Использовались лингвистический метод описания с такими приемами, как

* наблюдение, сопоставление, обобщение, классификация, а также

структурные и конструктивные методы. В работе находят применение теоретические методы исследования - формализация и аксиоматический метод с приемами алгоритмизации и алгоритмического описания, гипотетико-дедуктивный метод и моделирование, в частности, графическое, логико-математическое и интуитивно-математическое моделирование, метод математической гипотезы, алгебраический метод — и эмпирические методы — мысленный эксперимент, метод теории автоматов, связанный с экспериментами. Кроме того, используется метод пошаговой детализации,

Ф* принятый в информатике.

Материалом, на котором выполнено исследование, послужили структурные схемы двусоставных предложений со словом «это» (и его эквивалентами) между главными членами при отсутствии глагольной связки (в количестве 9 как основных, инвариантных, производных для составления алгоритмов), представленные в «Грамматике современного русского литературного языка» (1970), «Русской грамматике» (ТЛІ, 1980), исследованиях Н.Ю. Шведовой (Шведова, 1967, 18-20). Материалом

« исследования явились также примеры из текстов художественных

произведений и периодической печати, иллюстрирующие данные структурные схемы. Картотека составляет около 2 тысяч примеров.

Научная новизна предлагаемой диссертации состоит в том, что пунктуация и проблема употребления тире в простом предложении между главными членами при отсутствии связки перед словом «это» (и его эквивалентами) впервые исследуется в аспекте формализации и прикладном аспекте, что позволяет определить возможность автоматизации процесса постановки тире в указанном случае.

Теоретическая значимость работы состоит в том, что исследование проблемы формализации лингвистических знаний (на материале русской пунктуации) расширяет представление о методе формализации в языкознании, определяет возможность формализации пунктуационной системы языка, показывает логику и динамичность абстрактных языковых явлений, подтверждает тезис об однородности системы языка и системы программирования. Данное исследование является некоторым вкладом в теорию автоматической обработки текста, способствует дальнейшему продуктивному исследованию указанной проблемы.

Практическая ценность работы заключается в том, что исследование способствует пополнению созданного фонда лингвистических алгоритмов и программ по решению проблемы автоматизации данной пунктуационной нормы для текстовых редакторов, автокорректоров, программ издательской подготовки, одним из назначений которых является грамотная правка текста, находящегося в памяти ЭВМ. Кроме того, полученные результаты исследования могут послужить основой к составлению компьютерной программы по автоматизации процесса постановки тире в указанном случае, могут быть полезными при последующем изучении данной проблемы, при создании руководства, призванного усовершенствовать владение этим пунктуационным правилом. Также материалы работы могут быть использованы в школьной и вузовской практике преподавания русского языка, для создания обучающей компьютерной программы.

На защиту выносятся следующие положения:

  1. Проведенное исследование показало, что метод формализации применим к синтаксическому уровню языка. Формальное представление синтаксического уровня способствует формализации пунктуационной системы языка. Для описания структуры системы знаков препинания могут быть использованы формальные способы порождающей грамматики.

  2. Пунктуационную систему можно подвергнуть формализации. Формализация пунктуации основывается на структурно-синтаксическом (формально-грамматическом) принципе. Формализуется, в частности, случай постановки тире в простом предложении между главными членами перед словом «это» (и его эквивалентами). Здесь в большей степени выделяется формализуемая часть и - в меньшей - неформализуемый остаток. Этот определенный неформализуемый участок языка представляет собой

закономерное явление, своего рода универсальный закон, распространяющийся как на систему естественного языка, так и на научное знание в целом.

  1. Автоматизации процесса постановки тире в простом предложении между главными членами перед словом «это» (и его эквивалентами) способствует формализация структуры простого предложения с данной пунктуационной нормой, выделение структурных схем и их вариантов для предложений соответствующего типа.

  2. Для решения задачи автоматизации указанного процесса возможно построение математической модели, представляющей структуру простого предложения с тире между главными членами перед формантом «это» (и его эквивалентами).

  3. Автоматизация этого пунктуационного правила предполагает составление общего лингвистического алгоритма и вспомогательных алгоритмов, детализирующих общий алгоритм, по выделенным структурным схемам и их вариантам. Алгоритмы должны иметь определенную специфику — ориентацию на электронно-вычислительную машину.

Структура работы подчинена последовательной реализации цели и задач исследования. Диссертация состоит из Введения, трех глав, Заключения, Приложения, включающего общий алгоритм «Тире в простом предложении между главными членами перед словом «это» (и его эквивалентами)», списка источников лингвистического материала, списка литературы, в который включено 173 наименования работ по исследуемой теме.

Во «Введении» обосновывается тема диссертации, определяются ее актуальность и научная новизна, формулируются цель и задачи, представляются теоретическая значимость, практическая ценность и методология исследования, приводятся положения, выносимые на защиту.

В первой главе диссертации «Формализация как метод теоретического исследования» раскрывается сущность метода формализации в научном познании и лингвистике, определено значение формализации в лингвистических исследованиях, представлен теоретический материал по проблеме формализации в отечественном и зарубежном языкознании и различные точки зрения на возможность формализации в лингвистике.

Вторая глава «Формализация простановки тире в пунктуационной системе языка» посвящена обоснованию возможности формализации пунктуации и автоматизации процесса постановки тире в простом предложении между главными членами перед словом «это» (и его эквивалентами). Особое внимание уделяется тому, что формализация, моделирование простого предложения, выделение инвариантных структурных схем простого предложения и их вариантов с данной пунктуационной нормой и алгоритмизация на этой основе необходимы для

автоматизации указанного процесса.

В третьей главе «Автоматизация процесса постановки тире в простом предложении между главными членами перед словом «это» (и его эквивалентами)» описывается решение задачи автоматизации, обеспечивающейся построением структурных схем в качестве описательной информационной модели и её формализацией — построением математической модели структуры простого предложения с формантом «это» (и его эквивалентами) между главными членами, а также разработкой общего лингвистического алгоритма и вспомогательных алгоритмов

4* исследовательского прототипа, ориентированных на ЭВМ.

В «Заключении» формулируются результаты исследования по проблеме формализации и автоматизации процесса постановки знаков препинания, в частности, тире в простом предложении между главными членами перед словом «это» (и его эквивалентами), даются рекомендации по дальнейшей разработке алгоритма для составления компьютерной программы и использованию результатов исследования в теоретическом и прикладном языкознании.

^ Научные выводы, содержащиеся в диссертации, обеспечиваются

использованием в работе фактического материала и тем, что в исследовании подвергается» тщательному анализу значительный объем лингвистической литературы по исследуемой проблеме и смежным вопросам.

Основные положения диссертации получили апробацию на научных конференциях в Ростовском государственном педагогическом университете. По теме диссертационного исследования опубликовано 4 работы.

Понятие формализации в лингвистике и научном познании

Проблема формализации - не частная проблема философии языкознания, по существу, - это общеметодологическая проблема, относящаяся к области философии, науки вообще (Ветров, 1973, 4).

Специфика методологических проблем современной лингвистики определяется тем, что в современном языкознании находит широкое применение формальный метод исследования. Поэтому среди важнейших методологических вопросов современной науки о языке большое место занимает вопрос о возможностях и границах формализации лингвистических знаний (Ветров, 1973, 4).

Вопросы об адекватности моделей живому языку, о сводимости языковых процессов к их представлению в формально описываемых моделях, о полезности формальных методов в языкознании служат предметом многочисленных споров и дискуссий. Но тем не менее не выдвинуто достаточно ясных концепций самого понятия «формализации» или «модели» (Шрейдер,1971,40).

В настоящей работе понятие «формализации» представляется с различных точек зрения. В Большой советской энциклопедии формализация определяется как «представление какого-либо содержания (рассуждений, доказательств, процедур классификации и т.д.) в виде формальной системы, или исчисления». При этом подчеркивается, что формализация используется прежде всего в математике, а также в тех науках, в которых применение математического аппарата достигает необходимой зрелости. Кроме того, формализация предполагает усиление роли формальной логики как, основания теоретических наук. Формализация как познавательный прием — в частности формализация в узком, «математическом» смысле — носит относительный характер: одна и та же теория может быть одновременно и средством формализации (некоторой другой теории и области явлений), и предметом формализации (в более «формальной» теории). Формальная система в свою очередь определяется как «неинтерпретированное исчисление, класс выражений (формул) которого обычно задается индуктивно - посредством задания исходных (элементарных или «атомарных») формул и правил образования (построения) формул...». Одним из синонимов формальной системы является «формализованный язык». В широком смысле «формализованный язык» - это любая совокупность некоторым образом специализированных языковых средств (с более или менее) точно фиксированными правилами образования (синтаксис) и приписывания этим выражениям определенного смысла (семантика) (Большая советская энциклопедия, 1977, 540-541). В Новейшем философском словаре (1998, 772) формализация трактуется как «способ выражения содержания совокупности знаний через определенную форму — знаки искусственного языка». Отмечается, что наиболее значимой разновидностью формализации является логическая формализация, которая означает выражение мысленного содержания посредством логических форм. Это способствует процессу приведения наук в строгую систему. Логика стремится как можно точнее передать и преобразовать %" существующую информацию и тем самым устранить некоторые недостатки естественного языка путем создания искусственных формализованных языков. Такие искусственные языки нашли широкое распространение в программировании и алгоритмизации различных процессов с помощью компьютеров. Достоинство подобных языков состоит прежде всего в их точности, однозначности, а самое главное в возможности представления обычного содержательного рассуждения посредством вычисления. Формализация рассуждения состоит в представлении его посредством символов и формул искусственного (формализованного) языка, в котором перечисляются, во-первых, исходные формулы, выражающие основные утверждения содержательной теории, во-вторых, первоначальные понятия, которые фигурируют в этих утверждениях, и, в-третьих, явно указываются правила вывода или преобразования (Рузавин, 1997, 35-36). Любой формализованный язык характеризуется двумя особенностями: наличием некоторого алфавита, т.е. определенного набора объектов, называемых буквами, или символами; существованием правил, указывающих, как из символов, можно образовывать их различные комбинации, называемые выражениями или словами. Такие правила представляют собой правила образования (Рузавин, 1984, 160).

В Лингвистическом энциклопедическом словаре (1990) формализация рассматривается относительно такого круга понятий, как генеративная лингвистика (с. 98-99), дескриптивная лингвистика (с. 130-131), искусственные языки (с. 201-202), метаязык (с. 297), модель (с.304), структурная лингвистика, (с. 496-497), математическая лингвистика (с. 287-289).

Специальное определение термина «формализация» по отношению к языкознанию в научной литературе, словарях и справочниках отсутствует, но «общепринято употребление термина «формализованный» вместо термина «формальный» в тех случаях, когда при решении задач приходится сочетать формальные и неформальные отображения» (Волкова, 1993, 6).

В лингвистике понятие «формальный» означает «исходящий из формы, основывающийся на особенностях выражения, служащий формой; связанный с выражением грамматического значения, относящийся к форме слов» (Ахманова, 1969,501).

Так, например, под формальной грамматикой в лингвистике понимается «логическая система, или исчисление, задающая некоторое множество («правильных») цепочек (= конечных последовательностей), построенных из символов заданного набора, называемого «алфавитом» или «основным (терминальным) словарем». Цепочки интерпретируются как языковые объекты различных уровней: например, слоги (= цепочки фонем), словоформы (=цепочки морфем), предложения (=цепочки словоформ) (Большая советская энциклопедия, 1977,243).

Новые тенденции формализации с точки зрения процесса автоматизации лингвистических знаний

Освобождаясь от ряда функций, переданных машинам, человек получает новые возможности для реализации своих целей (Основы инженерной психологии, 1986, 6). Постепенный перенос функций носителя знаний на вычислительную технику позволяет говорить о формировании нового способа формализации знаний - компьютерной формализации, который значительно расширяет само понятие «формализация». Любая компьютерная система является полностью формализованной - ее поведение детерминировано, повторяемо. В этом смысле любой объект можно считать формализованным, если в компьютере есть программа, результаты которой адекватно описывают этот объект. Так, текст на естественном языке, загруженный в ЭВМ, будет оставаться неформализованным, бессмысленным для нее набором символов до тех пор, пока не появится программа, понимающая естественный язык. Компьютерная формализация составляет идейную основу успешно развивающегося компьютерного моделирования, которое сочетает достижения математического моделирования и системного at программирования. Это дает ученым возможность надеяться на то, что она в дальнейшем позволит существенно расширить возможности формализации знаний (Искусственный интеллект и проблемы организации знаний, 1991, 31-32). Идея применения ЭВМ для анализа текста привела к разработке методов математической и прикладной лингвистики, основанных на формализации задач и материала. Наиболее характерной чертой современного этапа развития автоматизации лингвистических исследований является создание автоматизированных систем обработки естественного языка (Асиновский, 1986,86). Прикладные системы и теория автоматической обработки текста развивались с конца 50-х гг. XX в.в системном программировании, издательском деле и вычислительной лингвистике. Наиболее полно функции автоматической обработки текста развиты в системах человеко-машинного общения, где основным является синтаксический, а в системах общения с ЭВМ — семантический анализ. Эти наиболее сложные формы автоматической обработки текста целиком опираются на формальный аппарат, развитый в рамках математической и вычислительной лингвистики.

Преобразование текста при автоматизированном редактировании как одном из видов автоматической обработки текста заключается во внесении в текст, находящийся в памяти ЭВМ, исправлений и дополнений. Текстовые редакторы используются как средства подготовки и ввода в ЭВМ программ, программной документации, научных отчетов и других данных.

В издательской практике системы автоматизированного редактирования используются, как правило, совместно с системами автоматического набора и верстки. В качестве составных частей в такие системы входят и некоторые лингвистические программы, например, программы переноса слов, проверки и исправления орфографии, выделения имен собственных.

Функции редактирования сливаются с функциями содержательной обработки текста, образуя единый аппарат понимания текста. Это открывает возможности для автоматизации наиболее сложных областей человеческой деятельности, требующих затрат прежде всего интеллектуального труда, таких, как редакционно-издательские процессы, извлечение информации из текстов и др., ив целом связанных с областью искусственного интеллекта (Лингвистический энциклопедический словарь, 1990,14-15). Автоматизация редакционно-издательской деятельности развивается и в области технологического процесса переработки текста (Цыганенко, 1990, 5). Автоматизированные системы в издательском деле стали возможны благодаря использованию компьютеров, которые по заданным алгоритмам способны вести обработку текстовой информации (Цыганенко, 1990, 29).

Создание интегрированной системы автоматизации издательских процессов должно поставить на более высокий качественный уровень работу издательства. Широкое развитие получают так называемые настольные издательские системы на базе различных ЭВМ. Сквозная автоматизация издательских процессов, создания систем автоматизированной подготовки издательского оригинала, информационного обеспечения и управления -задача сложная. Это связано с тем, что отсутствуют промышленно изготовляемые системы, низка пока надежность функциональных средств вычислительной техники (Издательское дело и полиграфия, 1991, 109-115).

Опыт применения настольных издательских систем показал, что эффективность системы в целом определяется способностью программного обеспечения использовать все возможности новой технологии. Так, программы обработки текста (текстовые процессоры) служат для создания печатных документов различного назначения (Автоматизация издательской деятельности, 1989, 5).

Настольно-издательские системы базируются на персональных компьютерах IBM РС/АТХ. Одной из мощных издательских систем является система ЗВ2 английской фирмы ADVENT. Работает эта настольно-издательская система ЗВ2 под управлением операционной системы MS DOS. Например, с помощью текстового редактора данная система позволяет , пользователю редактирование и правку в интегрированном режиме с автоматическим поиском и заменой знака, слова, предложения, абзаца. Но определив круг требований издательств, компания ADVENT пришла к выводу, что ни одна из существующих издательских систем не может в настоящее время решить широкий круг проблем, которые ставят перед разработчиками многочисленные пользователи и их трудно прогнозируемые запросы (Вычислительная техника и ее применение, 1991, 23-24).

Моделирование простого предложения и автоматизация его структурной организации

С семиотической точки зрения предложение есть цепочка знаковых единиц, представленных словами разных классов. Структура предложения отображает структуру предиката как системы с отношениями. Она представляется в форме модели предложения, которая включает знаки всех предметов (актантов) и знак их соотношения (Ломтев, 1973, 196-198).

Моделированием структуры простого предложения занимается структурная лингвистика. Элементарным приемом для этого является замена последовательности слов предложения последовательностью символов и попытка классифицировать полученные цепочки (Бабицкий, 1962, 117). Этот прием был использован нами при построении моделей структуры простого предложения с формантом «это». Для моделирования предложения каждый элемент способствует семантической интерпретации (знаменательные, полузнаменательные и незнаменательные «слова» (глаголы-связки, числительные, союзы, относительное слово который и др.), а также грамматические категории и показатели анафорических связей) (Лингвистические проблемы функционального моделирования речевой деятельности, 1974, 10). Так, один из шагов представленного в работе алгоритма постановки тире в простом предложении между главными членами перед словом «это» (даже если простое предложение входит в состав сложного предложения) основывается на выявлении некоторых из перечисленных элементов. На основе семантических представлений элементов (элементарных составляющих) и синтаксических отношений между ними в глубинном дереве зависимостей правила рекурсивной интерпретации, по мнению ученых, последовательно приписывают «смысловое представление» всему предложению. Роль служебных элементов структуры, имеющих общеязыковой, независимый от рассматриваемой предметной области характер, состоит в том, что они сами определяют некоторые операции (правила интерпретации), позволяющие по известным значениям элементов, связанных со знаменательными в глубинной структуре синтаксическими отношениями различных типов, получать («вычислять») новые единицы с другими Г значениями. Семантическое представление служебных элементов состоит в описании тех операций над связанными с ними синтаксически элементами в глубинной структуре, которые они вызывают в процессе семантической интерпретации этой структуры. «Поведение» служебных элементов аналогично «поведению» знаков операций +, -, х, / выделение служебных элементов соответствует выделению так называемых несобственных символов в логических языках. Многие служебные элементы можно рассматривать как операторы, изменяющие «модели управления» предикатных слов по их различным местам (Лингвистические проблемы функционального моделирования речевой деятельности, 1974, 10-11). В естественных языках специальные грамматические средства для обозначения синтаксических отношений — показатели синтаксической роли. Эти средства включают морфологические показатели, служебные слова, порядок слов и пунктуацию. Служебные слова являются показателями синтаксических связей, а пунктуация используется для формального выражения некоторых связей слов (Хейс, 1971, 47-49). Синтаксическое служебное слово «это» оформляет определенный член предложения, чаще всего — сказуемое (Маслов, 1975, 230). Иными словами, местоименная связка «это» является «предикативным усилителем» для выражения главных членов предложения, определения их местоположения (Федоров, 1972,41). Алгоритм автоматизации процесса постановки тире в данном случае должен включать, на наш взгляд, и такие показатели, как синтаксические типы слов, порядок слов. Компьютерный алгоритм должен, опираясь на синтаксические правила, определить для каждой фразы ее структуру, т.е. синтаксические связи и их типы. Следует отметить, что модель в ЭВМ функционирует при соблюдении двух условий: 1) наличие полного формального аппарата у грамматических категорий, составляющих модель; 2) модель должна иметь такое структурное оформление, которое обеспечило бы при соблюдении условия (1) выделение из естественного текста моделируемого явления с точностью 50% и выше (Коверин, 1987, 55). Процедура построения лингвистической модели должна повторяться до Ч тех пор, пока модель не будет воспринимать нужные грамматические элементы, содержащиеся в тексте в определенной последовательности. Надежность модели обеспечивается постепенным накоплением в ней всех грамматических признаков, которые представляет естественный текст. В частности, испытываются информационные элементы семантического, морфологического и синтаксического порядка (Коверин, 1987, 56-57). Итак, для автоматизации процесса постановки тире в простом предложении между главными членами перед словом «это» необходимо построение моделей предложения данного типа и лингвистического алгоритма (ориентированного на ЭВМ) постановки тире в указанном случае.

Модель предложения представляет многообразие конкретного предложения естественного языка в виде конечного списка синтаксических структур или конечного множества одноуровневых единиц синтаксической системы языка. Моделью предложения является его предикативная основа, формой - минимальная структурная схема. В структуру предложения включаются компоненты, распространяющие и осложняющие предикативную основу. Прием моделирования структуры простого предложения - замена последовательности слов предложения последовательностью символов и классификация полученных цепочек. Для моделирования предложения каждый элемент способствует семантической интерпретации предложения. Поэтому в настоящем исследовании модель предложения - это не только его предикативная основа, структурная схема, но и предикативная основа с информативными распространителями — факультативными членами.

Решение задачи автоматизации процесса постановки тире в простом предложении между главными членами перед словом «это» (и его эквивалентами)

Вычитчики особенно остро ощущают потребность в установлении единой системы орфографии и пунктуации. Справочники и пособия по трудным случаям орфографии и пунктуации в какой-то степени помогают избежать разного рода разнобоя, однако не до конца (Почечуев, 1955, 26). Все справочные материалы, как показал проведенный нами анализ, рассматривают самые основные и широко встречающиеся случаи употребления тире между подлежащим и сказуемым и практически не учитывают тонкостей, приведенных в Г-80 (Т.2) и Г-70. Это касается и электронной справочной службы (http: www.examen.ru/db/Examen Base/catdoc). Именно поэтому при построении моделей предложений и алгоритма для автоматизации процесса постановки тире перед словом «это» в указанном случае целесообразно, как мы считаем, опираться на такие фундаментальные работы, как Г-80 (Т.2) и Г-70.

Решение задачи на компьютере разделяют на несколько основных этапов: 1. Построение описательной информационной модели объекта или процесса. 2. Формализация описательной информационной модели (запись с помощью какого-либо формального языка, например, математической модели в форме чертежа, схемы, в форме функциональной зависимости текущих координат и др.). 3. Преобразование информационной модели в компьютерную модель, т.е. выражение ее на понятном для компьютера языке. Дальнейшее исследование динамичной информационной модели, записанной в форме алгоритма, проводят различными способами: кодируют алгоритм на языке программирования или пользуются программным приложением. 4. Проведение компьютерного эксперимента. 5. Анализ получаемых результатов и корректировка исследуемой модели (Ефимова, 2002, 87-90). Процесс решения сложной задачи часто сводят к решению нескольких более простых задач. Так, при разработке сложного алгоритма этот процесс разбивают на отдельные алгоритмы, которые называют вспомогательными. Каждый такой вспомогательный алгоритм описывает решение какой-либо подзадачи. Процесс построения сложного алгоритма ведется обычно методом последовательной детализации. Сначала строится основной алгоритм, состоящий из «крупных» блоков, команд, которые могут быть непонятны исполнителю (т.е. не входят в его систему команд). Такие команды записываются как вызовы вспомогательных алгоритмов. Затем происходит детализация, т.е. вспомогательные алгоритмы записываются с использованием команд, понятных исполнителю (Ефимова, 2002, 85). В информатике метод пошаговой детализации, который мы и использовали при построении лингвистического алгоритма постановки тире между подлежащим и сказуемым перед словом «это» (и его эквивалентами) (алгоритма, ориентированного на ЭВМ), называют методом структурного программирования. Общая его идея - разложение процесса на отдельные действия, а соответствующих программ на отдельные инструкции. На каждом таком шаге декомпозиции необходимо убедиться, что: решение частных задач приводит к решению общей задачи; выбранная последовательность действий разумна; выбранная декомпозиция позволяет получить инструкции, близкие к языку, на котором в конечном счете будет сформирована программа (Методы программирования, 2000, 210). К началу непосредственного написания текста структурированной программы должны быть четко определены назначение программы, ее исходные данные и требуемые результаты, разработана структура программы, т.е. четко выделены составные части (блоки) будущей программы, точно определено назначение каждой из них и их взаимодействие (связи по данным и порядок выполнения). После того как программа составлена, ее следует промоделировать, т.е. выполнить вручную, просматривая оператор за оператором. Только после тщательной проверки можно переносить текст на технический носитель (Методы программирования, 2000, 215). Опираясь на изложенные выше этапы решения задачи на компьютере, перечислим этапы решения задачи автоматизации процесса постановки тире в указанном случае: 1. Построение описательной информационной модели объекта или процесса — структурные схемы предложений со словом «это» (и его эквивалентами) и тире перед ним. 2. Формализация описательной информационной модели - построение математической модели структуры простого предложения с формантом «это» между главными членами в форме схемы, алгоритма (блок-схемы общего алгоритма) и вспомогательных алгоритмов, детализирующих общий алгоритм, по принципу разветвляющегося алгоритма. 3. Составление программы на языке машины. 4. Отладка алгоритма вручную с использованием примеров, иллюстрирующих структурные схемы предложений. 5. Проведение компьютерного эксперимента. 6. Анализ полученных результатов, корректировка исследуемой модели, отладка программы. Решение задачи включает следующее: 1. Метод решения задачи - построение разветвляющегося алгоритма. 2. Сообщение исполнителю метода в определенном виде - написание алгоритма и компьютерной программы. 3. Проверка решения задачи в ходе эксперимента. Описание метода решения задачи включает: 1. Задание исходных величин задачи: Ni; Numi; Adji; Inf; Adv-o; N2-«; Part-но, -то; слов когда; (и) значит; как; одно из; то, что; (и) есть. 2. Разбиение процесса решения задачи на такие этапы, которые известны исполнителю, которые он может выполнить однозначно, без пояснений - этапы алгоритма. 3. Указание порядка выполнения этапов — номера шагов алгоритма. 4. Указание признака окончания процесса решения задачи — вывод предложения с тире или без него. 5. Указание во всех случаях того, что является результатом решения задачи - постановка тире (машиной) или его отсутствие, обращение к справке для некоторых случаев. Отметим, что для формализации некоторых лингвистических суждений необходимы математические отношения равенства, подобия и эквивалентности, упорядочения объектов, входящих в некоторое множество для построения математических моделей в отвлечении от свойств конкретных языковых единиц (Марчук, 1974, 184).

Похожие диссертации на Проблема формализации лингвистических знаний (На материале пунктуации русского языка)