Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Компьютерное моделирование графемно-фонемного преобразования в английском языке Корочков Александр Викторович

Компьютерное моделирование графемно-фонемного преобразования в английском языке
<
Компьютерное моделирование графемно-фонемного преобразования в английском языке Компьютерное моделирование графемно-фонемного преобразования в английском языке Компьютерное моделирование графемно-фонемного преобразования в английском языке Компьютерное моделирование графемно-фонемного преобразования в английском языке Компьютерное моделирование графемно-фонемного преобразования в английском языке Компьютерное моделирование графемно-фонемного преобразования в английском языке Компьютерное моделирование графемно-фонемного преобразования в английском языке Компьютерное моделирование графемно-фонемного преобразования в английском языке Компьютерное моделирование графемно-фонемного преобразования в английском языке
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Корочков Александр Викторович. Компьютерное моделирование графемно-фонемного преобразования в английском языке : диссертация ... кандидата филологических наук : 10.02.21. - Санкт-Петербург, 2005. - 396 с. РГБ ОД,

Содержание к диссертации

Введение

Глава 1. Классификация и сравнение подходов к построению графемно-фонемного преобразования 16

1.1. Классификация 16

1.2. Словесные подходы 19

1.3. Морфемные подходы 29

1.4. Графемные подходы 33

1.5. Комбинированные подходы 36

1.6. Сравнение подходов 40

Выводы по первой главе...: 42

Глава 2. Графемные подходы 44

2.1. Изученность вопроса (состояние дел) 44

2.2. Последовательность моделирования 48

2.2.1. Источники правил 48

2.2.2. Исходные наборы (своды) правил 50

2.2.3. Дополнительная обработка 50

2.2.4. Алгоритмизация и реализация 52

2.2.5. Результаты моделирования 53

2.3. Формальная система 55

2.3.1. Операции и типы правил 55

2.3.2. Упорядоченность правил 58

2.3.3. Выбор правила для преобразования 59

2.3.4. Представление объектов 60

2.3.5. Конечный преобразователь 61

Выводы по второй главе 61

Глава 3. Моделирование процесса слогоделения 64

3.1. Исходная задача 64

3.2. Исходные правила 65

3.3. Предварительная часть формализации 66

3.4. Графемная сегментация и категоризация 67

3.5. Слоговое маркирование 69

3.6. Обработка буквы X. 71

3.7. Обработка начального слога 72

3.8. Обработка конечного слога 74

3.9. Набор правил маркирования 75

3.10. Примеры анализа 78

3.11. Проблема зияний и диграфов 79

3.12. Вспомогательные правил а 82

3.13. Компонент слогоделения 83

Выводы по третьей главе 84

Глава 4. Моделирование процесса акцентуации 86

4.1. Исходная задача 86

4.2. Исходные правила 87

4.2.1. Исходный набор правил 87

4.2.2. Мотивировка и примеры 91

4.3. Предварительная часть формализации 96

4.3.1. Дополнительные свойства объектов 97

4.3.2. Дополнительные операции 98

4.4. Выделение частей слова 99

4.5. Специальный морфологический анализ 104

4.6. Правила акцентуации 109

4.7. Предварительная инициализация 110

4.8. Первичное ударение 111

4.9. Вторичное ударение и терминация 116

4.10. Компонент акцентуации 120

4.11. Примеры анализа 121

Выводы по четвертой главе 124

Глава 5. Моделирование процесса определения типа слога 126

5.1. Характеристики слога 126

5.2. Определение модифицированности слога 127

5.3. Первичная открытость/закрытость слога 129

5.4. Вторичная закрытость слога 131

5.4.1. Исходный набор правил 131

5.4.2. Мотивировка и примеры 132

5.4.3. Формализация 135

5.5. Определение степени редукции 138

5.5.1. Исходный набор правил 138

5.5.2. Мотивировка и примеры 139

5.5.3. Формализация 141

5.6. Компонент определения типа слога 145

5.7. Примеры анализа 146

Выводы по пятой главе 149

Глава 6. Моделирование процесса посимвольных преоб разований согласных 150

6.1. Введение 150

6.2. Формулировка задачи 151

6.3. Преобразование буквы В 152

6.4. Преобразование буквы С 153

6.5. Преобразование буквы D 156

6.6. Преобразование буквы F 158

6.7. Преобразование буквы G 159

6.8. Преобразование буквы Н 161

6.9. Преобразование буквы J 162

6.10. Преобразование буквы К 163

6.11. Преобразование буквы L 164

6.12. Преобразование буквы М 166

6.13. Преобразование буквы N 166

6.14. Преобразование буквы Р 170

6.15. Преобразование буквы Q 171

6.16. Преобразование буквы R 172

6.17. Преобразование буквы S 175

6.18. Преобразование буквы Т 182

6.19. Преобразование буквы V 187

6.20. Преобразование буквы W 187

6.21. Преобразование буквы X 189

6.22. Преобразование буквы Z 192

6.23. Удвоенные согласные звуки 193

6.24. Последовательность обработки 196

Выводы по шестой главе 197

Глава 7. Моделирование процесса посимвольных преобразований гласных 199

7.1. Исходная задача 199

7.2. Преобразование буквы А 200

7.3. Преобразование буквы Е 209

7.4. Преобразование буквы 1 222

7.5. Преобразование буквы 0 230

7.6. Преобразование буквы U 242

7.7. Преобразование буквы Y 251

7.8. Выбор текущего элемента 253

7.9. Примеры анализа 254

Выводы по седьмой главе 258

Глава 8. Компьютерное моделирование 260

8.1. Реализация системы 260

8.1.1. Язык программирования 260

8.1.2. Характеристики системы 262

8.2. Эталонные машиночитаемые словари 263

8.2.1. Словарь Хорнби 263

8.2.2. Словарь Мюллера 264

8.2.3. Словарь проекта CMU 265

8.3. Оценочные процедуры 265

8.4. Апробация системы на словарях 276

8.4.1. Быстродействие и степень адекватности 276

8.4.2. Влияние дополнительной разметки 277

8.4.3. Выводы по результатам эксперимента 279

Выводы по восьмой главе 281

Заключение 283

Библиографический список

Введение к работе

Актуальность темы исследования. Рассмотрение языка как деятельности, т.е. системы или процедуры преобразований языковой информации одного типа в другой, хотя и имеет некоторую традицию (см., например, В. фон Гумбольт [6]), приобрело особую актуальность с момента появления такого универсального средства реализации различных дея-тельностных моделей как компьютер, что, в частности, проявилось в создании такой отрасли знаний о языке, которую принято называть "Обработка естественного языка (ОЕЯ)" (Natural Language Processing - NLP). Одним из типов преобразователей языковой информации является процедура, задающая переход от графемного представления слова к фонемному. Этот тип преобразования или перевода составляет основное содержание лингвистической части перехода от письменного представления информации к звуковому. .

В области ОЕЯ подобного рода преобразование осуществляется в системах порождения речи "Текст — Речь", которые либо реализуются как отдельные самостоятельные системы преобразования, либо включаются в качестве компонента объемлющей системы ОЕЯ. Большая часть существующих систем подобного рода в лингвистическом аспекте теоретически основывается на работах Р.Л. Венезки (R.L. Venezky [139]) (теория буквенно-звуковых (фонемных) соответствий), Н. Хомского (N. Chomsky) и М. Халле (М. Halle) [49] (генеративная фонология - абстрактные базовые формы и правила постановки словесных ударений).

В то же время параллельно с задачами построения автоматических систем порождения речи существует достаточно традиционная область обучения иностранному языку, в интересующем нас случае - английскому языку, и одним из неотъемлемых компонентов данного процесса является обучение умению читать, т.е. озвучивать письменный текст. Как пра вило этот процесс предполагает использование некоторого набора правил чтения, которые теоретически не только не основываются на идеях генеративной фонологии, но и не являются даже в достаточной степени формализованными.

Если для правил первого типа существуют некоторые количественные оценки их адекватности (например, [ 39, 54]), то для правил второго типа, которые широко используются в обучении, существует либо лишь достаточно приблизительная качественная оценка их адекватности, либо количественная оценка некоторой части правил без учета их взаимовлияния, зависящего от порядка их применения [7, 31]. Это не позволяет научно-обоснованно решать вопросы их применимости при обучении английскому языку. Потребность в использовании научно-обоснованных критериев для решения указанной проблемы придает научную актуальность исследованиям, способным получить необходимые количественные данные.

Необходимая количественная оценка может быть получена только после компьютерного моделирования правил второго типа, что определяет научную актуальность исследования и последующего компьютерного моделирования графемно-фонемного перехода (ГФП), базирующегося на существующих правилах чтения.

Объектом исследования является этап перехода между графем-ным и фонемным представлениями информации в языке, предметом — (компьютерное) моделирование перехода от графемного представления к фонемному в английском языке на основе традиционных правил чтения для этого языка.

Степень научной разработанности проблемы. Проблематика графемно-фонемного преобразования достаточно интенсивно исследуется, особенно за рубежом, что связано с задачами построения эффективных систем синтеза речи. Данная проблематика рассматривается в работах цч M.J. Adamson и R.I. Damper (1996) [34], Albano, E. Cavalcante, A.A. Moreira (1996) [35], J. Allen, M.S. Hunnicutt, D. Klatt (1987) [37], O. Andersen, P. Dalsgaard (1994) [38], P. C. Bagshaw (1998) [40], J.R. Belle-garda (2002) [41], E. Berendsen, J. Don (1987) [42], J. Bernstein, D. B. Pisoni (1980) [43], M. Bisani, H. Ney (2002) [44, 45], A. W. Black, K. Lenzo, V. Pagel (1998) [46], A. van den Bosch, W. Daelemans (1993) [47], G. Bouma (2000) [48], K. Church (1985) [50], Bert Van Coile (1990, 1991) [52, 53], C.Coker, K. Church, M. Liberman (1990) [54], J. Coleman (1993) [55], N. Cremelie, Jean-Pierre Martens (1996) [56], W. Daelemans (1985, 1988) [57, 58], W. Daelemans, A. van den Bosch, S. Gillis, G. Durieux (1993) [59], W. Daelemans, S. Gillis, G. Durieux (1994) [60], W. M. P. Daelemans, van den Bosch (1997) [61], R. I. Damper (1995) [62], M. Dedina, H. Nusbaum (1991) [63], N. Deshmukh, M. Weber, J. Picone (1996) [64], M. Divay, A. J. Vitale (1997) [65], B. E. Dresher, J. D. Kaye (1990) [66], T. Dutoit (1997) [67], H.S. Elovitz, R. Johnson, A. McHugh, J.E. Shore. (1976) [68], S. Fitt (1995, 1997) [69, 70], E. Fosler, M. Weintraub, S. Wegmann, Yu-Hung Kao, Sanjeev Khudanpur, С Galles, M. Saraclar (1996) [71], D. Gildea, D. Jurafsky (1996) [73], S. Gillis, G. Durieux, W. Daelemans, A. van den Bosch (1992) [63], P. Gupta, D. S. Touretzky (1994) [75], M. Hammond (1995) [77], J. Hochberg, CV S. Mniszewski, T. Calleja, A. Papcun (1991) [81], S. Hunnicutt (1976, 1980) [82, 83], S. Hunnicutt, H. Meng, S. Seneff, V. Zue (1993) [84], S. Jannedy, B. Mobius (1997) [85], Jiang, Li, Hsiao-Wuen Hon, Xuedong Huang. (1997) [86], O. Karaali, G. Corrigan, I. Gerson (1996,1997) [88, 89], A.K. Kienappel, R. Kneser (2001) [91], Byeongchang Kim, Wonil Lee, Geunbae Lee, Jong-Hyeok Lee (1998) [92], Byeongchang Kim, Geunbae Lee, Jong-Hyeok Lee (1999, 2002) [93, 94], D.H. Klatt (1987) [95], J.M.G. Lammens (1987) [99], M. Liberman, K. Church (1992) [101], S. M. Lucas, R. I. Damper (1992) [106], R. W. P. Luk, R. I. Damper (1991, 1992, 1993) [100-111], H. M. Meng, S. Seneff, V. Zue (1996) [113], B. Mobius, R. Sproat, J. Santen, J. Olive (1997) [114], A. Monaghan (1990) [115], A. Nunn, V. J. van Heuven (1993) [116], G. Ottesen, B. Horvei, S. Stensby (1994) [117], S. H. Parfitt, R. A. Sharman (1991) [118], D. Plaut (1999) [119], P. A. Rentzepopoulous, G. K. Kokkinakis (1996) [123], M. Riley, A. Ljolje (1996) [124], J. Rodd (1997) [125], T. Se-jnowski, C. Rosenberg (1987) [127], R. Sproat (1994) [128], C. W. Stanfill (1987) [129], I. P. Stoianov (2000) [130], I. P. Stoianov, J. Nerbonne (2000) [131, 132], I. P. Stoianov, J. Nerbonne, H. Bouma (1998) [133], K. Torkkola (1993) [135], N. Torstensson (2002) [136], S. C. Urbanczyk, S. J. Eady (1989) [138], T. Vitale (1991) [141], K. Wothke (1991) [144], D. Yarowsky (1997) [145], RYvon (1996) [146].

Однако полностью отсутствует описание этапа ГФП на основе моделирования традиционных правил чтения. Отсутствует также количественная оценка степени адекватности традиционных правил чтения, применяемых при обучении английскому языку.

Отсутствие полного описания ГФП, основанного на существующих правилах чтения и пригодного для последующей компьютерной реализации, определяет основную цель данного исследования.

Основная цель диссертации — моделирование этапа перехода от графемного представления к фонемному в английском языке такими средствами, которые позволили бы произвести последующую апробацию этого описания средствами компьютерного моделирования, т.е. реализацию описания на каком-либо языке программирования. Другими словами это означает создание формального описания данного перехода на уровне, достаточном для последующей реализации на соответствующих языках программирования.

Выдвижение данной цели обусловило постановку следующих задач:

- создание логической классификации возможных способов организации ГФП в языке для последующего отграничения/выделения объекта исследования и определения состояния дел в его описании;

- введение критериев для сравнения подходов с целью определения наиболее эффективного подхода для использования в последующем компьютерном моделировании перехода;

- выявление на основе введенной классификации структуры перехода, т.е. разбиение всего перехода на отдельные подэтапы;

- определение последовательности моделирования;

- описание формальных средств, которые могут быть достаточными для получения промежуточного формального описания, предназначенного для последующей реализации на одном из языков программирования;

- описание при помощи этого формального средства каждого из выявленных подэтапов и его частичная (первичная) апробация путем анализа соответствующих примеров;

- компьютерное моделирование полученного описания, т.е. его реализация на одном из языков программирования;

- выбор или создание/модификация источников для апробации полученной компьютерной модели (машиночитаемых словарей соответствующей структуры, содержащих в словарных статьях результат эталонного транскрибирования);

- построение оценочной процедуры;

- апробация компьютерной модели при помощи этой процедуры и используемых источников, в частности, получение количественной оценки степени адекватности применяемых правил чтения для английского языка.

Структура диссертации отражает ход исследования и соответствует последовательности решения сформулированных выше задач. Первая глава посвящена рассмотрению возможных подходов, вторая - анали зу состояния дел в описании моделируемого объекта исследования и введению формальных средств, используемых для его описания. Главы с третьей по седьмую посвящены построению формальных моделей слогоделения, акцентуации, определения типа слога и посимвольного преобразования. Восьмая глава посвящена описанию создания компьютерной модели формализованного в предшествующих главах преобразования и ее апробации на материале машиночитаемых словарей (в частности, получению количественной оценки степени адекватности применяемых правил чтения для английского языка и влиянии на адекватность преобразования информации о частеречной и/или морфемной разметке).

Разработка теоретических положений и создание на их основе компьютерной модели графемно-фонемного преобразования для английского языка стало возможным благодаря комплексному использованию теоретических и экспериментальных методов исследования.

Методология работы опирается на:

- системный подход, позволяющий определить место предмета исследования диссертации в области обработки естественного языка;

- монографический метод, предполагающий всестороннее, полное и детализированное описание исследуемого объекта, в данном случае этапа графемного-фонемного перехода;

- проектный метод, определяющий целостность исследования, стадии и порядок его разработки;

- абстрактно-логический метод, используемый при классификации подходов и описании исходных наборов правил;

-моделирование как метод исследования структуры и основных свойств объекта моделирования;

- эмпирический метод, связанный с постановкой экспериментальных проверок теории (правил);

- эмпирической основой работы послужили уже существующие и дополнительно созданные правила чтения.

Научная новизна исследования определяется, во-первых, как постановкой самой проблемы полного формального описания этапа графем-но-фонемного перехода для английского языка на основе существующих правил чтения, так и сущностью избранного подхода к ее решению. Названные выше цели и задачи исследования применительно к данному материалу ранее другими авторами не ставились. Во-вторых, впервые получена полная работающая компьютерная модель графемно-фонемного перехода (части этапа чтения графемного текста) для английского языка, основанного на традиционных правилах чтения. В-третьих, впервые получена количественная оценка степени адекватности применяемых правил чтения для английского языка, степени влияния на адекватность преобразования информации о частеречной и/или морфемной разметке и исчерпывающий список слов-исключений для этих правил, начинающихся с буквы А английского алфавита, и созданы предпосылки для получения полного исчерпывающего списка слов-исключений для этих же правил.

К результатам, выносимым на защиту, можно отнести следующие:

1. Логическая классификация возможных способов организации этапа графемно-фонемного перехода.

2. Результаты сравнения возможных способов организации перехода и критерии, используемые для их получения.

3. Описание структуры перехода для используемого подхода.

4. Определение последовательности применения существующих правил чтения для реализации структуры перехода (алгоритмизация исходных правил чтения).

5. Модифицированный вариант существующих исходных правил чтения и авторские правила.

6. Формальное описание выявленных подэтапов перехода для английского языка.

6.1. Формальное описание слогоделения.

6.2. Формальное описание акцентуации.

6.3. Формальное описание определения типа слога.

6.4. Формальное описание посимвольных преобразований.

7. Количественные оценки степени адекватности применяемых правил чтения для английского языка и степени влияния на адекватность преобразования информации о частеречной и/или морфемной разметке

Теоретическая значимость работы. Теоретическая значимость полученных результатов состоит в том, что они могут быть использованы при построении как частных теорий графемно-фонемных переходов для других языков, так и общей теории графемно-фонемных переходов. Кроме того, полученные результаты могут послужить основой для построения типологии языков, базирующейся на степени сложности графемно-фонемного перехода в языках и используемых при этом типах преобразований (правил).

Практическая значимость исследования заключается в создании предпосылок для получения эффективного и компактного (для применения, например, в мобильных устройствах связи) программного и/или аппаратного лингвистического обеспечения синтеза речи, способного работать на неограниченном входном материале, что характерно для любых систем, построенных на правилах.

Результаты данного исследования могут быть также использованы в общих и специальных курсах языкознания и в практике обучения студентов английскому языку.

Апробация работы. Основные идеи и результаты настоящего исследования обсуждались на Огаревских чтениях Мордовского государственного университета (Саранск, 2002), на международной конференции "Когнитивное моделирование в лингвистике" (Варна, 2003) и на международной конференции SPECOM 2003 ("Речь и компьютер") (Москва, 2003).

Словесные подходы

Словесные подходы основаны на преобразовании отдельных изолированных слов (вход системы), рассматриваемых как цельный объект, в соответствующую строку из символов транскрипции (выход системы). В этом случае при преобразовании происходит замена слова некоторого естественного (в рассматриваемом случае - английского) языка Z,, на строку некоторого искусственного языка L2. Соответствующие строки каждого из этих языков строятся путем применения операции сцепления (конкатенации) к элементам множества символов этого языка, называемого алфавитом этого языка. Обозначим алфавиты соответственно А1 иА2. Для английского языка и стандартной транскрипции: і4,={а,Ь,с,(І,е,ґ ,Ь,іо,к,Ьт»п,о,р,я,г,8,1,и,у,\у,х,у,г,А,В,С,В,Е,Р,0,Н,І,І,К,Ь,М, N,0,P,Q,R,S,T,U,V,W,X,Y,Z}, а А 2={i,:,i,u,u, ,,e,3,3,D,ae,A,a,D,a,p,b,t,d,J,3,j,k,g,f,v,9,5,s,z,m,n,g,h,l,r,w}, где и , являются знаками соответственно первичного и вторичного ударений. С точки зрения употребления каждый элемент множества Ах имеет парный ему элемент в этом же множестве, поэтому элементы этого множества можно также представить как Л,-{(а,А), (b,B),(c,C),(d,D),(e,E),(f,F), (g,G),(h5H),(i,I),GJ),(k,K),(lL),(m,M),(n,N),(o,0),(p,P),(q,Q),(r,R),(s,S),(t,T), (u,U),(v,V),(w,W),(x,X),(y,Y),(z,Z)}. Так как при построении любого лингвистического объекта может быть использован в каждом конкретном случае только один из элементов пары, то в рамках рассматриваемой далее задачи преобразования можно попробовать ограничиться только одним из 2 непересекающихся подмножеств множества А, (прописными или строчными буквами). Далее будем считать, что A ,={a,b,c,d,e,f,g,h,i j,k,l,m, n,o,p,q,r,s,t,u,v,w,x,y,z}. В свою очередь, из элементов множества А 2 для английского языка некоторым способом построено множество Л2-{і:,і,и,и:,ю,еі, ,,е,8,з:р:,и8, Di,8u,ae,A,a:,D,ea5ai,au,p,b,t,d,tJ,d3,k,g,f,v,0,B,s,z,/,3,m,n,rj,h,l,r,w,j}, из элементов которого и строятся собственно строки транскрипций.

Отношение, существующее между множествами А 2 и А 2 будем называть порождающим, а действия, посредством которых происходит такое порождение, - порождающими. Функции, соответствующие этим действиям, также будем называть порождающими. Рассмотрение порождающих функций в задачу данной работы не входит.

Из элементов множества А, могут быть построены конечные последовательности символов (строки) длиной от 1 до К элементов. Эти строки образуют множество SK. Только часть элементов этого множества входит в подмножество WK, определяемое грамматикой G английского языка, т.е. Wк с SK. Именно элементы этого множества Wк, которые далее будут называться словоформами (а само множество - лексиконом грамматики G), являются исходными (входными) объектами РГФП при первом возможном варианте словесного подхода (РГФП1). Результирующими (выходными) объектами преобразования являются элементы множества Т, построенного при помощи некоторой порождающей функции из множества А2. Собственно преобразование включает: (1) отображение входной строки sm (s/N eSK ) на множество Wк — поисковую функцию/,(sm,WK ) и (2) отображение найденного элемента wt (ws є WK) на множество Т — связующую функцию/т( w,.,7).

Таким образом, РГФШ можно представить как шестерку (кортеж) WK, T,fs,fm, sM,sT , где WK - множество всех словоформ английского языка длиной не более К символов, Т - множество всех возможных строк транскрипций, которые можно построить из элементов множества А2\ включая пустую строку, т.е. Т= А 2 (через А 2 , т.е. через обозначение множества (алфавита) с символом в верхней части, здесь и далее будет обозначаться множество, содержащее все цепочки (строки) в этом алфавите (множестве), включая пустую строку);/, и fm — поисковая и связующая функции соответственно, sIN— входная строка, sT — транскрибированная (результирующая) строка.

Прежде чем характеризовать полученную систему по вышеназванным критериям сравнения, проведем некоторую ее модификацию (первого, или базового, варианта РГФШ). Допустим, что связующая функция, источниками информации для построения которой являются либо существующие словари с транскрипцией, либо получение соответствий в процес се речевой практики (если речь идет о системе преобразования, используемой человеком), была однократно применена ко всем элементам Wк, и результатом ее работы является некоторое (новое) множество М. Элементами этого множества будут упорядоченные пары элементов Wк и Т, т.е. Л/= {(w,,f,), (w2,f2), (w.»OI wi WK,tieTWiTwczT}. Таким образом, fmiWx J) можно рассматривать как порождающую функцию и заменить ее в кортеже на множество М. В этом случае отпадает также необходимость иметь дело непосредственно с множествами Wк и Т, которые теперь представлены вМ. Кортеж РГФП1 теперь будет выглядеть как M,fs,sJN,sT . Поисковая функция, представленная в нем, должна, исходя из состава входной строки sIN, найти в М элемент, у которого первая часть упорядоченной пары совпадает со входной строкой. Вторая часть найденного элемента используется как выходная строка sT, т.е. является результатом работы функции, а именно, результатом преобразования входной строки s м в sT.

Исходные наборы (своды) правил

Встречаются также правила, которые прямо противоречат друг другу. Под противоречащими правилами подразумеваются правила, имеющие одинаковый вход и условия применения, но приводящие к разным результатам. Например, следующее правило (приводится в модифицированной редакции, не меняющей сути правила) содержит противоречие:

Вне правого контекста с конечной буквой е буквосочетание qu озвучивается либо как [к], либо как [kw].

Исходя из этого правила в полученных сводах затем подвергаются дополнительной обработке, в результате которой из сводов устраняется ситуация противоречия в правилах и оставляется лишь один из вариантов разнообъемных правил. Это должно делаться путем либо 1) аргументированного выбора одного из вариантов правил, либо 2) создание нового правила, снимающего существующее противоречие, либо, при невозможности первых двух подходов, 3) случайным (произвольным) выбором правила с явной фиксацией этого выбора.

Кроме того, дополнительная обработка может включать следующие два вида работ: - устранение так называемых исключений из правил, что может быть необходимо для получения дополнительной информации на последнем этапе моделирования; — обобщение сводов правил, включающее создание правил, обобщающих некоторые из правил в сводах и добавление собственных (авторских) правил по ходу обобщения.

После этого оставшиеся правила алгоритмизуются (т.е. задается последовательность их применения) и формализуются. Алгоритмизация предполагает введение последовательности применения правил внутри отдельного свода правил, с одной стороны, а, с другой, - объединение всех типов правил — слогоделения, акцентуации и преобразования — в единую последовательность применения. Формальная система, лежащая в основе алгоритмизации (формализации) рассматривается в следующем разделе.

На последнем этапе собственно моделирования эти правила (алгоритмы) реализуются на каком-либо языке программирования, что приводит к созданию работающей на компьютере модели соответствующих языковых процессов. Необходимость этого этапа обуславливается следующими соображениями.

Алгоритм, построенный на основе формализации обозначенного выше типа, использует систему объектов (понятий), предоставляемых соответствующей формальной теорией. Эта система объектов не отображается прямо на систему объектов основного средства автоматизации или аппаратного моделирования — компьютера. Запись алгоритма в системе объектов последнего крайне неудобна, что приводит к необходимости записи алгоритма в системе объектов другой формальной системы, называемой языком программирования. Система объектов, которую можно описать при помощи последнего (поддерживается языком программирования), обычно занимает промежуточное положение между системой объектов и средствами их описания, предоставляемой некомпьютерными формальными системами и, соответственно, традиционно предназначенными для непосредственного использования человеком, и системой объектов компьютера. Средства описания объектов языка программирования, с одной стороны, ориентируются на человека, а, с другой, достаточно легко переводятся автоматическими процедурами из этой системы в систему объектов компьютера. Существует множество языков программирования, из которых в большинстве случаев должен быть выбран только один, предоставляющий наиболее удобные средства для описания моделируемой системы объектов.

Следующий после первоначальной реализации этап моделирования принято называть отладкой программы, который, в частности, включает выявление и устранение несоответствий между двумя формальными представлениями алгоритма - программным и непрограммным.

В последний этап моделирования можно включить действия, обозначаемые как оценка результатов (тестирование) и получение новых знаний. Это достаточно важный этап моделирования, позволяющий использовать вычислительную мощь компьютера и, соответственно, программы. Какого рода новые знания могла бы предоставить программа, реализующая некоторый алгоритм ГФП? Если брать только программу в отдельности, то таким знанием была бы информация о времени, необходимом для выполнения соответствующих преобразований на определенных аппаратных средствах, что могло бы быть использовано при сопоставлении двух основных подходов к компьютерному моделированию подобного преобразования.

При добавлении к созданной системе возможности сравнения результатов ее работы с транскрипциями из корпуса транскрипций, основанного на достаточно большом словаре, появилась бы возможность получения ответа на некоторые дополнительные вопросы, например, такие как: а) какова точная количественная оценка исключений из правил чтения для английского языка для данного корпуса транскрипций (=выбранного словаря) и использованных сводов правил; б) каков точный список слов-исключений для этих же исходных условий; в) какова природа этих исключений, т.е. какие правила нарушаются или каких правил не хватает и возможно ли создание новых правил для уменьшения числа исключений?

Предварительная часть формализации

Как говорилось выше, предполагается, что процесс моделирования носит итеративный характер. Источником информации для первого этапа (первой итерации) могут быть существующие правила чтения, в частности для данной главы, та их часть, которую принято называть правилами слогоделения в одних работах [1] или правилами деления написания слова на силлабографы в других [3]. Последующие итерации предполагается строить исходя из результатов реализации и тестирования первого этапа (лингвистического эксперимента).

Правила слогоделения в выбранных источниках описываются как в некоторых специальных работах [1, 3, 19], так и в работах более общего характера, в частности учебниках [2, 18, 33]. Указанные работы и были использованы в качестве первоначального источника правил слогоделения. Существующие правила (далее исходный набор правил — ИНП) можно свести к следующим положениям (возможно с учетом особого понимания слога в данной работе): 1. Слогообразующим элементом является либо одиночная гласная, либо диграф (две смежные гласные буквы). 2. Если между слогообразующими элементами находится одна согласная буква, то она относится к правому слогу. 3. Если между слогообразующими элементами находятся две разные согласные буквы и правая из них является буквой "/" или V, то обе согласные относятся к правому слогу либо в любом случае [1], либо только при наличии дополнительного условия, ко торое заключается в том, что второй слогообразующий элемент является буквой V и относится к конечному слогу [19]. 4. В остальных случаях если между слогообразующими элементами находится более одной согласной буквы, то первая (левая) из них относится к левому слогу, а остальные - к правому. 5. Буква "х" рассматривается как две согласные буквы, например, [1, 19].

Другие правила, встречающиеся в источниках, могут рассматриваться как следствие вышеуказанных, поэтому они здесь не приводятся. Кроме того, как можно заметить, в третьем положении правила из [19] являются подмножеством правил из [1]. На первом этапе моделирования предполагается использовать только более общие из них. Если результаты компьютерной реализации модели покажут их неадекватность, они могут быть заменены более частными правилами из [19].

Представим теперь эти правила в форме, более подходящей для их последующего компьютерного моделирования. Для этого, прежде всего, необходимо ввести некоторые дополнительные объекты, упоминаемые в этих правилах. Так, помимо элементов алфавита Ах, о которых говорилось ранее и которые далее будут называться терминальными символами, или термами, в правилах упоминаются такие лингвистические объекты, как гласные и согласные буквы. Эти объекты являются обобщенными, т.е. представляют целый класс, или категорию, терминальных объектов, поэтому далее такие объекты (символы) будут называться категориальными.

Из приведенных правил можно заключить, что используется множество категориальных символов (обозначим его К), содержащее два катего риальных объекта: гласный, обозначим его V, и согласный, который обозначим как С, т.е. K={V,C}.

В приведенных выше правилах (ИНП) неявно использованы правила отнесения терма к определенной категории. При моделировании эти правила должны быть заданы в явной форме. Так как речь идет об отнесении символов к некоторой категории, то эти правила будут называться правилами категоризации, а правила отнесения символов к определенному слогу слова, о которых говорилось выше, - правилами слогового маркирования.

Если использовать достаточно традиционное деление термов и их сочетаний на гласные, гласные диграфы и согласные, то правила категоризации/сегментации (с учетом положений из существующих правил слогоделения) будут следующими (упорядоченное множество правил KR): где /? є Аі (через Д обозначено множество всех цепочек символов (строк), которые можно построить из элементов множества Ах (алфавита)), к, є К.

Выбор правила для преобразования происходит следующим образом. Для каждого текущего символа анализируемого слова просматривается множество KR, начиная с правила KR1 и далее по порядку номеров правил. На начальном этапе, т.е. при выборе первого правила, текущим является первый символ слова. При выборе правила сравнивается на совпадение левая часть правила (до знака преобразования) и часть слова такой же длины, что и левая часть правила, начинающаяся с текущего символа. После выбора правила и преобразования по этому правилу текущим становится первый символ непреобразованной части слова. Выбор правил прекращается после преобразования последнего символа слова.

Перейдем теперь к правилам маркирования. В результате применения таких правил у категоризованного объекта (символа) должна появиться дополнительная характеристика, указывающая на его принадлежность к определенному слогу слова. Для этой характеристики удобно использовать числовой номер, т.е., например, элемент множества натуральных чисел N. Этот номер может быть операндом арифметической операции сложения.

Кроме того, в правилах удобно использовать не собственно номер, а некое имя, являющееся ссылкой на какое-то значение (в данном случае на номер слога), что принято называть областью памяти с переменным значением, или просто переменной в языках программирования. В качестве такого имени будет использован греческий символ TJ. Будем считать, что исходное значение (до применения набора правил) в этой переменной, или номер слога, равно 0

Предварительная часть формализации

В предшествующей главе были описаны правила слогоделения, т.е. выявления графических слогов (далее просто слогов) в слове. Сегментация входного (анализируемого) слова на слоги не является самоцелью, а служит необходимым предварительным этапом для получения информации о типе слога. Эта информация используется в подходах к моделированию РГФП, применяющих графемное (посимвольное) преобразование, -графемном, графемно-словесном и словесно-графемном - для проведения преобразования символов, относящихся к категории гласных. В данной главе будет рассмотрен вопрос определения такой характеристики слога, как его ударность или безударность в изолированном слове. Постановка (расстановка) ударения (ударений) в изолированном слове далее будет называться акцентуацией слова.

Перейдем теперь к задаче определения места (мест) ударения в анализируемом слове. Эта информация влияет на преобразование гласных букв и поэтому логично приписывать ее именно таким элементам слова. Соответственно исходная задача определения ударности или безударности слога формулируется следующим образом: всем символам данной входной строки, относящимся к категории гласных, добавить атрибут (свойство), обозначающий тип ударности слога, к которому принадлежит гласная.

В дальнейшем будем исходить из того, что существует 4 типа ударности слога. Прежде всего, все слоги можно разделить на безударные и ударные, что соответственно, приведет к выделению двух типов ударности: безударный и ударный. Если выделение безударного типа на данном этапе рассмотрения видится достаточно информативным без дальнейшего подразделения на подтипы, то выделение только ударного типа не является информационно достаточным. Можно попробовать разделить ударный тип на подтипы, исходя из следующих двух возможных оснований для деления.

Во-первых, можно все ударные слоги разделить на первично и вторично ударные, принимая во внимание последовательность постановки ударений в слове.

Вторым основанием для выделения подтипов может быть учет того, что в некоторых случаях приобретение слогом свойства ударности приводит к одновременному изменению других (всегда одних и тех же) свойств слога, а в некоторых - не приводит (свойства, которые при этом изменяются, будут рассмотрены в следующей главе). Ударение первого типа будет далее называться сложным, а второго — простым.

Вторичное ударение всегда относится к первому типу, и поэтому, можно ограничиться тремя подтипами ударного слога: первичное простое, первичное сложное и вторичное (сложное), что вместе с безударным типом в итоге приводит к отмеченным выше четырем типам.

Исходя из тех же источников, что и в предыдущей главе [1, 2, 3, 18, 19, 33], и, прежде всего, [19], можно представить следующий частично обобщенный и упорядоченный (алгоритмизированный) исходный набор правил (ИНП) акцентуации:

1. Акцентуации подвергается не все входное слово в целом, а его части, выделенные в результате стандартного (общего) морфологического анализа (МА).

2. Из частей, выделенных в результате стандартного МА, отдельному анализу подлежат следующие: а) грамматические окончания: -(e)d, -er, -(e)s, -est, -ing; б) некоторые продуктивные суффиксы: -er, -ess, -ful, -ing, -less, -ly, -ness, -or, -ship; в) отрицательные префиксы: anti-, de-, dis-, in-, mis-, поп-, un-; г) префикс повторного действия re-; д) префиксы circum-, contra-, contro-, counter-, inter-, In tro-, over-, retro-, super-, under-; е) суффиксы отглагольных существительных -al, -ance, -ant, -ence, -ent, -ment; ж) суффиксы отглагольных существительных (-at-)-or, (-fi-)-er, (-is-)-er, (-is-)-or, (-iz-)-er, (-iz-)-or (в скобках обозначен левый контекст, который в отдельный элемент для самостоя тельного анализа не выделяется).

При этом элементы пунктов (а), (б), (е) и (ж) являются безударными, а остальные подлежат дальнейшей акцентуации (п. 4). 3. Основа, полученная после отделения аффиксов, описан ных в предыдущем пункте, анализируется на наличие следую щих префиксов (специальный МА): а) неизменяемые наречно-предложные а- и Ье-; б) неизменяемые глагольные be-, de-, for-, per-, pre-, pro-, re-, se-; в) изменяемые (преимущественно глагольные) abs-, ad-, con-, dis-, en-, ex-, in-, ob-, sub-, trans-. Возможное изменение мо жет состоять либо в уподоблении (полном или частичном) последней буквы префикса следующей за префиксом букве, либо в выпадении одной или нескольких последних букв префиксов. Возможные выпадения следующие: ad- a, dis di, ex- е, ob- о, trans- tra. Частичное уподобление можно описать следующим переходом: in- im. 4. Выделенные и не проанализированные части подлежат описанной ниже акцентуации. 4.1. Если выделенная часть оканчивается на одно из буквосочетаний -elle, -ете, -esce, -ese, -ette, -ina или -que, то второй слог с конца получает первичное простое ударение. 4.2. Если выделенная часть оканчивается на буквосочетание -ее, то первый слог с конца получает первичное простое ударение. 4.3. Если выделенная часть является трехсложной, содержит префикс и оканчивается на букву -е, то второй слог части получает первичное простое ударение.

Похожие диссертации на Компьютерное моделирование графемно-фонемного преобразования в английском языке