Содержание к диссертации
Введение
1.1. Актуальность темы 4
1.2. Цели и задачи 6
1.3. Новизна работы 7
1.4. Теоретическая и практическая значимость 7
1.5. Терминология 8
1.6. Краткое описание источников 8
1.7. Краткий обзор литературы по теме 9
1.8. Методы исследования 10
1.9. Апробация работы 10
1.10. Структура работы 11
Глава I. Морфология слова в современной лингвистике . 13
1.1.1. Проблема морфологии слова в русском языкознании 13
1.1.2. Проблема морфологии слова в тюркологии 20
1.1.3. Проблемы морфологии слова в татарском языкознании 25
Глава II. Морфологическая информация в современной лингвографии 33
2.2.1. Типы и формы лингвографирования в татарских языковых справочниках 33
2.2.2. Типы и формы лингвографирования в русских языковых справочниках 50
Глава III. Машинный фонд татарского языка: морфологический словарь татарского языка 68
3.3.1. Архитектура и информационные возможности f. морфологического словаря татарского языка 68
Глава IV. Обратный словарь татарского языка как база для исследования морфологических особенностей слова 87
1. Из истории создания обратных словарей 87
2. Особенности построения ОСТЯ 92
3. Количественная характеристика единиц ОСТЯ 101
Заключение 117
Библиография 124
Лексикографические источники 124
Использованная литература 125
Приложения 142
- Проблема морфологии слова в русском языкознании
- Типы и формы лингвографирования в татарских языковых справочниках
- Архитектура и информационные возможности f. морфологического словаря татарского языка
- Из истории создания обратных словарей
Введение к работе
1.1. Актуальность темы
Задача создания машинных фондов языков, поднятая в 1980-е годы как «качественно новая филологическая проблема, поставленная перед современным языкознанием», в настоящее время, стала одной из перспективных областей развития теоретической и прикладной лингвистики. Первые отечественные разработки автоматизированного языкового фонда были связаны с русским языком. Методологическая основа создания Машинного фонда русского языка (МФРЯ) была сформулирована Ю.Н.Карауловым и устанавливала следующее: «Любые данные о языке могут быть представлены в лексикографической форме. <...> Любые лексикографированные данные о языке могут быть переведены в алгоритмизированную, машинную форму» [Караулов 1986: 13]. Создание МФРЯ активно обсуждалось среди учёных-лингвистов. Об этом свидетельствуют всесоюзные конференции, посвященные Машинному фонду русского языка [1983, 1987, 1988, 1989]. Формирование МФРЯ послужило отправной точкой для создания компьютерных фондов других языков.
Основным направлением в информатизации татарской лингвистики
т явилось формирование Машинного (компьютерного) фонда татарского
языка (МФТЯ). Концепция построения МФТЯ была разработана в конце 80-х годов членами группы «Прикладная лингвистика» (КГУ) совместно с сотрудниками отдела лексикологии и лексикографии Института языка, литературы и искусства АН РТ. Идея создания компьютерного фонда нашла широкий отклик и послужила предметом многочисленных
' обсуждений на конференциях и семинарах [К.Р.Галиуллин, Р.Г.Бухараев,
Н.А.Обносова, Ф.С.Сафиуллина, В.Д.Соловьев, Дж.Ш.Сулейманов].
Создание МФТЯ позволит «обеспечить принципиально новую техническую основу для поиска, хранения, обработки и описания
5 лингвистической информации <...>» [Компьютерная лингвография 1995: 50].
Структурно МФТЯ состоит из двух основных подфондов - словарно-
грамматического и иллюстративно-текстового. В рамках словарно-
грамматического подфонда создаются словари различных типов,
значительное место среди которых занимают компьютерные словари,
содержащие грамматическую (морфологическую и словообразовательную)
характеристику слов. Формирование словарно-грамматического подфонда
МФТЯ, в первую очередь, призвано содействовать оптимизации
лингвистических исследований, справочно-информационному
обеспечению, информатизации и компьюте-ризации татарского языкознания.
Актуальность разработки грамматических компьютерных словарей обуславливается также и тем, что грамматике уделяется особое внимание в процессе обучения. Важное место в описании лексической единицы занимает ее морфологическая характеристика. О значимости сведений морфологического характера свидетельствует тот факт, что эти сведения являются обязательной частью практически всех словарей. Поэтому разработка компьютерных морфологических компонентов МФТЯ даст немало нового материала для анализа и характеристики морфологических особенностей слова, обеспечит повышение уровня информатизации татарского языкознания.
Возможность многоцелевого использования имеющегося материала позволила создать в рамках словарно-грамматического подфонда МФТЯ компьютерный морфологический словарь (КМСТЯ) и обратный словарь татарского языка (ОСТЯ).
Актуальность проводимых работ подтверждается и тем, что они включены в Государственную программу по сохранению, изучению и развитию языков народов РТ; план-программу гуманитарных исследований Республики Татарстан на 1992-2005 гг., программу работ по созданию
6 машинного фонда татарского языка, а также поддержаны грантовой научно-исследовательской работой по теме «Научно-организационное, методическое и техническое обеспечение и организации и поддержки научно-образовательных центров в области лингвистики и осуществление на основе комплексного использования материально-технических и кадровых возможностей совместных исследований и разработок» (гос. контракт 02.438.11.7015), выполняемой в рамках Федеральной целевой научно-технической программой «Исследования и разработки по приоритетным направлениям развития науки и техники» на 2002-2006 годы.
1.2. Цели и задачи исследования
Целью данной диссертационной работы является разработка структуры и научно-лингвистическое обеспечение морфологических компонентов МФТЯ. Поставленная цель определила ряд задач теоретического и практического характера, которые решались в ходе работы с ориентацией на компьютерно-лингвографическое представление материала, это:
исследование проблемы частей речи в тюркском, татарском, русском языкознании; анализ критериев выделения частей речи в тюркском, татарском, русском языкознании;
выработка принципов описания лингвографических источников;
отбор источников для анализа и описания морфологической информации в словарях;
определение типологии морфологических сведений в словарях;
характеристика формы представления морфологической информации (по частям речи и формообразованию) в современных лингвографических источниках по татарскому и русскому языку;
разработка концепции и архитектуры компьютерного морфологического словаря;
создание исходной версии компьютерного морфологического словаря, на основе которого будет проходить дальнейшее развитие и формирование справочно-информационной базы;
определение круга основных запросов справочно-информационной базы;
создание обратного словаря татарского языка в составе словарно-грамматического подфонда МФТЯ; разработка макро- и микроструктуры обратного словаря татарского языка;
составление частотного указателя морфологических признаков;
характеристика продуктивных суффиксов татарского языка, участвующих в образовании слов разных частей речи.
1.3. Новизна работы
Научная новизна работы видится в том, что в исследовании удалось поднять и решить ряд вопросов компьютерно-грамматического описания словарной единицы, связанных как с отнесенностью слов к определенным частям речи, так и с формообразованием данных слов. В результате исследования были созданы компьютерные морфологические компоненты МФТЯ. Данные морфологические компоненты являются новыми справочно-информационными системами по татарскому языку, которые представляет собой разветвленную структуру, на основе которой созданы два лингвографических издания - компьютерный морфологический словарь татарского языка и обратный словарь татарского языка, не имеющие аналогов в современной татарской лингвографии.
1.4. Теоретическая и практическая значимость
Теоретическая и практическая значимость диссертации заключается в следующем. В процессе исследования была разработана концепция формирования компьютерно-морфологических компонентов словарно-грамматического подфонда МФТЯ и создание морфологического и обратного словарей татарского языка. Эти лингвографические справочники могут быть использованы в работах по татарской, а также по татарско-
8 русской и русско-татарской общей и учебной лингвографии, в преподавании татарского языка как родного и неродного, а также в качестве информационно-справочной системы при изучении языков, для решения различных вопросов, связанных с грамматической характеристикой слова и словоизменением. Пользователями справочно-информационной базы могут быть школьники, студенты, преподаватели - представленная информация оптимизирована для всех категорий пользователей. На базе морфологических компонентов возможно создание различных учебных и игровых языковых программ. Материалы диссертации могут быть использованы в научных и методических работах по компьютерной лингвистике и по компьютерной технологии обучения.
1.5.Терминология
В диссертационной работе, наряду с использованием лингвистических терминов, были использованы термины из области информатики (например, "запрос", "меню", "помощь", "пользователь").
1.6. Краткое описание источников
При формировании компьютерного морфологического словаря и при
создании обратного словаря татарского языка привлекались различные
источники. Основу лексической базы составил академический
лингвографический источник, представленный в трёх томах, - «Толковый словарь татарского языка» 1977-1981 [«Татар теленец ацлатмалы сузлеге»]. Его объём - 46890 единиц. Данный словарь явился основным источником информации по акцентологии и грамматической характеристике слов татарского языка.
В процессе формирования словника были привлечены и другие лингвографические источники общего и учебного характера, включающие в себя разнообразные морфологические сведения. В частности, это орфографические словари. Среди них изданный недавно «Орфографический словарь татарского языка» 2002 [«Татар теленец орфография сузлеге»] - 140079 слов и форм слов. Данный словарь явился
9 основным источником для пополнения словарной базы, так как в нём содержатся новые слова, которые отсутствуют в «Толковом словаре татарского языка». Также в компьютерную базу был включён «Орфографический словарь татарского языка» 1983 года [«Татар теленец орфографик сузлеге»], объём которого составляет 38000 слов.
При формировании языковой базы привлекались и материалы двуязычных словарей. Это «Татарско-русский словарь» 1966 [«Татарча-русча сузлек»], словарный объём которого составляет 38000. Данный словарь является академическим изданием, содержащим сведения по грамматике. Использовался и «Татарско-русский словарь» 1995 [«Татарча-русча сузлек»] - 25000 слов, предоставивший сведения по акцентологии и частям речи татарского языка.
Вышеназванные словари явились основными источниками для формирования Генерального словника.
1.7. Краткий обзор литературы по теме
В ходе работы были использованы материалы различных исследований, связанных с проблематикой данной работы. Современная библиография располагает значительным количеством публикаций, посвященных проблемам морфологии, лингвографии, а также теории и практике создания и эксплуатации различного рода автоматизированных справочных систем. Среди исследований, посвященных вопросам татарской и русской лингвографии (как общей, так и учебной), рассматривающих комплекс лингвографических проблем, можно отметить работы В.М.Андрющенко [Андрющенко 1986, 1988]; Д.Р.Валиахметовой [Валиахметова 1992]; К.Р.Галиуллина [Галиуллин 2000]; Ф.А.Ганиева [Ганиев 1992, 2000]; А.С.Герда [1988]; М.Р.Гатиатуллина [Гатиатуллин 1988, 1990, 2000]; П.Н. Денисова [Денисов 1969, 1977, 1978]; Х.Ф.Исхаковой [Исхакова 1968]; Ю.Н.Караулова [Караулов 1986, 1988]; В.В.Морковкина [Морковкин 1986, 1987]; Л.А.Новикова [Новиков 1969,
10 1974]; А.А.Поликарпов [Поликарпов 1990]; Р.П.Рогожниковой [Рогожникова 1984] и других исследователей.
Среди работ, посвященных проблемам компьютеризации лингвографии, можно отметить работы казанских исследователей [Галиуллин 1988, 1990, 1992; Галиуллин, Валиахметова, Сабаева и др. 1995; Хасанова 1991; Сулейманов 1995; Сабаева 1999; Ризванова 2001; Сабитова 1999, 2002].
1.8. Методы исследования
Для решения поставленных задач в процессе работы использовались следующие методы:
описательный метод (при описании лингвистического материала для компьютерных морфологических компонентов);
сравнительно-сопоставительный метод (при анализе материалов различных лингвографических источников);
квантитативный метод (при характеристике языкового материала).
1.9. Апробация работы
Результаты исследования и основные положения диссертации отражены в 7 публикациях, которые были представлены в научных сборниках и докладах на конференциях:
- международных: «Компьютерная лингвография: комплексное
описание языковых единиц» в сборнике «Dialog'95: Computation Linguistics
and its Applications: International Workshop» (Kazan, May 31 - June 4, 1995) в
соавторстве с К.Р.Галиуллиным; «Свод лексики татарского языка:
инверсионный компонент» в сборнике «Русская и сопоставительная
филология: состояние и перспективы»: Международная научная
конференция, посвященная 200-летию Казанского университета (Казань, 4-
6 октября 2004 года);
- всероссийских: «О морфологическом компоненте Машинного
фонда татарского языка» в сборнике «Сопоставительная филология и
11 полилингвизм» Материалы Всероссийской научно-практической конференции (Казань, 29-31 октября 2002 года);
- научно-практических: «Информатизация татарской лингводидактики и компьютерные справочники» в сборнике «Проблемы обучения татарскому языку учащихся старших классов школ, средних специальных и высших заведений» (Казань, 1996) в соавторстве с К.Р.Галиуллиным; «Квантитативная характеристика татарской лексики: анализ форм словарных единиц» в сборнике «Модели национальных языков» (Казань, 1996) в соавторстве с К.Р.Галиуллиным; «Татар теленец морфологик компоненты компьютер сузлеген принциплар турында» в сборнике «Языковая ситуация в Республике Татарстан: состояние и перспективы» (Казань, 1999);
- итоговых: «О принципах построения обратного словаря татарского словаря» сборник «Проблемы лексикологи и лексикографии татарского языка» (Казань, 1999).
Демонстрационная версия компьютерного обратного словаря была представлена на Международной научной конференции, посвященной 200-летию Казанского университета (Казань, 4-6 октября 2004 года).
1.10. Структура работы
Цели и задачи нашего исследования предопределили структуру
щ работы, которая состоит из введения, основной части, содержащей четыре
главы, заключения, библиографии и приложений.
Во введении формулируется цель и задачи исследования,
обосновывается актуальность и новизна работы, определяется
теоретическая и практическая значимость, краткий обзор привлечённых
источников и анализ литературы по теме.
* Основная часть состоит из четырёх глав.
В первой главе (I) на основе обзора литературы рассматривается актуальные проблемы морфологии в современной лингвистике. В том
»
12 числе, раскрываются проблемы морфологии слова в татарском, тюркском и русском языкознании.
Вторая глава (II) посвящена рассмотрению типов морфологической информации и форм их лингвографирования в разноаспектных словарях татарского языка, а также в языковых справочниках русского языка.
В третьей главе (III) рассмотрены принципы построения компьютерного морфологического словаря татарского языка, представляющего собой комплексную информационно-справочную систему.
В четвёртой главе (IV) характеризуются принципы создания обратного словаря татарского языка; описываются макро- и микроструктуры обратного словаря татарского языка.
В заключении излагаются основные результаты исследования, подводятся итоги, рассматриваются перспективы дальнейшей работы.
Библиография содержит перечень источников и список использованной литературы.
В приложении (5) представлены фрагменты обратного словаря татарского языка, приведен список обратных словарей в хронологическом порядке.
Проблема морфологии слова в русском языкознании
Морфология, являясь одной из классических языковых дисциплин, относится одновременно к числу наиболее активно разрабатываемых областей языкознания. Возникновение слова «морфология», состоящего из двух греческих корней «morhe» и «logos» - форма и учение, первоначально не было связано с областью лингвистики. Данный термин использовался в XIX веке для описания различных форм природы в естественных науках. К лингвистике он был впервые применен во второй половине XIX века. Однако значение этого термина оказалось, в конечном счёте, далёким от первоначального изучения форм.
В процессе приобретения самостоятельного статуса в языкознании морфология прошла долгий путь от компонента «грамматического искусства» до «системы языка» и «раздела грамматики, изучающего закономерности функционирования и развития этой системы» [ЛЭС 1990: 313].
В задачи морфологии входит изучение основных понятий грамматики (грамматическая форма, грамматическая категория, грамматическое значение), распределение слов по частям речи, а внутри частей речи - по семантико-грамматическим разрядам, рассмотрение грамматических категорий и формообразования отдельных частей речи.
Одним из основных вопросов морфологии является определение объекта изучения. В лингвистике на данную проблему существует несколько точек зрения. Согласно одной - морфология является грамматическим учением о слове. Такой подход характерен для русской лингвистической традиции в целом и объединяет, несмотря на наличие порой весьма серьёзных расхождений по другим проблемам языкознания, таких лингвистов как Ф.Ф.Фортунатов, В.В.Виноградов, В.А.Богородицкий, Л.А.Булаховский, А.А Шахматов., Т.С. Кузнецов.
Другая точка зрения основывается на расширенном понимании морфологии, определяя её как науку о формах языка вообще, а не только как науку о формах слова. Такой взгляд, популярный в 20-30 г.г., был представлен в работах И.А.Бодуэна де Куртенэ, В.Матиуса, Ф. де Соссюра, О.Есперсена. И.А.Бодуэн де Куртенэ писал: «Морфология, или наука о строе языка, в самом обширном смысле распадается на науку о построении слов и словоподобных единиц (морфологию в тесном смысле) и науку о строении предложений и их сочетаний (синтаксис). Элементами морфологического деления будут в таком случае не только слова и морфемы, но и синтагмы и предложения» [Бодуэн де Куртенэ 1963: 34].
В современном языкознании языковед В.А.Плунгян в качестве исходного понимания морфологии указывает наиболее полно сформулированное определение И.А.Мельчука: «Морфология есть часть лингвистики, занимающаяся словом во всех его релевантных аспектах» [Мельчук 1997: 3]. По мнению В.А.Плунгяна объектом современной морфологии являются минимальные двусторонние единицы языка (морфемы) и «жёсткие» комплексы этих единиц (словоформы). О постановке проблемы он пишет следующее: «Таким образом, можно сказать, что вся морфологическая проблематика помещается в пространстве между морфемой и словоформой; на менее техническом языке морфология определяется как описание свойств слова и его (значащих) частей» [Плунгян 2000: 13-14].
Наиболее дискуссионной является проблема сущности и принципов классификации частей речи. На протяжении XIX века к этой проблеме обращались ведущие языковеды А.Х.Востоков, Г.П.Павский, К.С.Аксаков, Ф.И.Буслаев, А.А.Потебня. В XX веке продолжили обсуждать эту проблему Ф.Ф.Фортунатов, А.М.Пешковский, А.А.Шахматов, Л.В.Щерба, И.И.Мещанинов, Г.О.Винокур, Р.И.Аванесов, В.В.Виноградов, А.А.Реформатский. «Проблема, касающаяся сущности частей речи и принципов их выделения в различных языках мира, - одна из наиболее дискуссионных проблем общего языкознания» [Плотникова 1990: 578].
В языкознании существуют различные подходы к определению принципов выделения частей речи. А.М.Щербак отмечает, что для одних исследователей части речи определяются как лексико-грамматические категории слов, группируемых по совокупности всех свойственных слову признаков - семантических, морфологических, синтаксических. Для других части речи являются категориями (или классами) формально-грамматическими, устанавливаемыми для каждого языка по отдельности, либо по одним только морфологическим особенностям слова, либо также по особенностям его синтаксических форм и функций. По мнению третьих, части речи - тоже собственно грамматические разряды слов, но разряды, выделяемые не по одним лишь внешним формально-грамматическим признакам, а по некоторым наиболее общим грамматическим значениям, свойственным полнозначным номинативным словам каждого языка.
В XIX веке А.А.Потебня предложил семантический принцип классификации частей речи, при этом указав и на синтаксический аспект. Ф.Ф.Фортунатов построил классификацию по морфологическому принципу, назвав части речи «формальными классами». А.М.Пешковский, объединив указанные выше принципы классификаций Потебни и Фортунатова, отнёс части речи к словообразовательным формам, придающим особый оттенок лексическому значению слова.
В XX веке А.А.Шахматов в основу выделения частей речи положил синтаксический принцип с учётом морфологического аспекта: «Слово в его отношении к предложению или вообще к речи определяется в грамматике как часть речи» [Шахматов 1952: 29]. Л.В.Щерба в статье «О частях речи в русском языке» даёт подробную характеристику каждой из частей речи, исходя из совокупности семантических, морфологических и синтаксических признаков. По мнению Л.В.Щербы, придававшего первостепенное значение семантическому признаку, «не видя смысла нельзя ещё устанавливать формальных признаков, так как неизвестно, значат ли они что-либо, а следовательно, существуют ли они, как таковые, и существует ли сама категория» [Щерба 1957: 8]. Так, основанием для классификации частей речи являются общие для всех языков мира семантические категории: предметность, действие, качество. Одной из основных и актуальных проблем, стоящих перед языкознанием, является «проблема функционирования слова - центральной единицы в системе языка, и классификация слов на различные части речи...» [Болдычева 1991: 16].
Типы и формы лингвографирования в татарских языковых справочниках
Состояние и развитие лингвографии характеризуется видами разрабатываемых словарей. Валеную культурно-речевую функцию выполняют словари ударения (акцентологические), произношения (орфоэпические), правописания (орфографические), словари трудностей, толковые, двуязычные, учебные и т.д. В настоящее время в татарской лингвографии активно ведётся работа по созданию словарей различного характера: толковых, диалектных, орфографических, терминологических, словарей лексических минимумов и так далее. Одним из важных направлений этой деятельности является создание учебных и двуязычных словарей.
Предметом исследования явилась грамматическая характеристика слов в современных словарях. В процессе работы нами были проанализированы толковые, учебные и двуязычные словари, несущие в себе разнообразную грамматическую информацию о лексических единицах татарского языка.
Рассмотрим принципы подачи грамматических сведений, представленных в словарях. Первым рассмотрим академическое издание - «Татарско-русский словарь» [1966] («Татарча-русча сузлек»), содержащий около 38000 слов. По определению составителей, словарь «представляет собой наиболее полный из издававшихся до сих пор татарско-русских словарей, он отличается не только объемом охватываемого лексического материала, но и полнотой разработки словарных статей» [1966: 5]. Данный лингвографический источник был использован для работы, поскольку он представляет собой интерес как первое послевоенное академическое издание. В словаре грамматическая информация в виде помет на русском языке представлена только для отдельных частей речи (местоимения, числительные, послелоги, междометия, подражательные слова).
Следующий академический лингвографический источник, изданный в трёх томах, - «Толковый словарь татарского языка» [1977, 1979, 1981] («Татар теленец ацлатмалы сузлеге»). Словарь содержит 46890 словарных единиц, из них - 32880 заглавных слов и 14010 составных слов и фразеологических единиц. Составители так определяют основную задачу словаря: «Основная задача данного словаря - сконцентрировать богатство общеупотребительной лексики и фразеологии татарского литературного языка начиная с XIX века до наших дней, раскрыть значения и оттенки значений слов, дать им грамматико-стилистическую характеристику, показать особенности их употребления» [1978: III]. Грамматическая характеристика представлена указанием на часть речи и для отдельных слов -сведениями по формообразованию.
Для уточнения сведений по акцентологии и орфографии татарского языка к работе был привлечен «Орфографический словарь татарского языка» [1983] («Татар теленец орфографик сузлеге»). Словарь содержит 38000 слов. По определению составителей словаря, основным предназначением словаря является показать правильное употребление слов и форм слова, а также правильность их написания. Словарь рассчитан на широкий круг читателей.
Также для анализа были привлечены двуязычные словари -учебный и переводной. Это, во-первых, «Татарско-русский учебный словарь» [1993] («Татарча-русча уку-укыту сузлеге»), который является лингвографическим справочником учебного направления, предназначенным для широкого круга лиц, как владеющих языком (учащихся, преподавателей татарского языка), так и изучающих татарский язык. Словарь содержит около 10000 лексических единиц современного татарского языка. Как отмечает редактор словаря Ф.А.Ганиев: «Задача словаря - предоставить в распоряжение читателя самый необходимый материал для общения на русском и татарском языках» [1993: 6]. В данном словаре представлена расширенная грамматическая характеристика, как по частям речи, так и по формообразованию слов.
Во-вторых, рассматривался «Татарско-русский словарь» [1995] («Татарча-русча сузлек»), который содержит 25000 слов. Основу словника данного словаря составила лексика, отобранная по принципу актуальности и словоупотребительности из трёхтомного «Толкового словаря татарского языка». Редактор «Татарско-русского словаря» Ф.А.Ганиев так определил задачу: «Основная задача словаря - дать наиболее правильный и точный перевод на русский язык татарских слов с указанием их грамматической природы и актуальных фразеологических единиц» [1995: 7]. Отличительной чертой данного лексикографического источника является то, что глаголы отделены от отглагольных существительных, так как «в современном языковом мышлении имена действия на -у/-у (язу - писание) не воспринимаются как чистые глагольные формы, они совпадают с отглагольными существительными» [1998: 8]. Поэтому за начальную форму подачи глагола была принята форма инфинитива на -рга/-ргэ, полностью соответствующая русскому инфинитиву как по значению, так и по употреблению. «Татарско-русский словарь» предназначен для широкого круга читателей. Он может служить практическим пособием для лиц, изучающих русский и татарский языки, а также для учителей, преподавателей, переводчиков и других специалистов. И в заключение нашего описания лингвографических источников назовем «Орфографический словарь татарского языка» [2002] («Татар теленец орфография сузлеге»), в котором на сегодняшний день представлено наибольшее количество слов и форм слова татарского языка - 140079 единиц. В словаре представлены сведения по орфографии, акцентологии, формообразованию отдельных частей речи татарского языка.
Анализ словарных источников показывает, что в татарской лингвографии ведётся активная работа по созданию словарей различного типа предназначенных для широкого круга пользователей: преподавателей, студентов, учащихся школ. Формы лингвографирования, в рассмотренных выше лингворафических источниках, имеют значительные различия в зависимости от типа источника, но неизменной грамматической информацией во всех рассмотренных словарях остается указание на часть речи. У большинства словарей отмечена морфологическая принадлежность лексем. В татарском языке, как и во многих тюркских языках, у значительного числа слов слабо выражено их формальное различие по частеречному признаку. Поэтому указание на часть речи даёт возможность представить грамматическую сущность слова, возможные его формы и сочетаемость.
Архитектура и информационные возможности f. морфологического словаря татарского языка
Развитие словарного дела и активное внедрение в него компьютерной техники - вот два составляющих фактора, предопределивших создание компьютерных языковых справочников. Выдвинутый Ю.Н.Карауловым тезис о возможности перевода любых лексикографированных данных в машинную форму явился ключевым в создании компьютерной языковых разработок. Сказанное в полной мере может относиться и к грамматике, тем более, что «именно грамматика, благодаря высокой степени формализации, пока легче других разделов языка поддается компьютерной обработке» [Кихтенко 1989: 91].
Автоматизированный словарь может быть намного лучше в подаче информации, чем традиционный. Поэтому «если раньше перед составителями автоматизированных словарей стояла задача приблизить компьютерный вариант к бумажному и создать его автоматизированный аналог, то сейчас, напротив, речь идет о принципиальной невозможности создать бумажный аналог автоматизированного словаря, если при его создании использованы возможности, которые предоставляет современный компьютер (например, возможность организации гипертекста, привлечение систем мультимедиа и т.д.)» [Компьютерная лингвография 1995: 17].
В связи с поставленной перед татарским языкознанием задачей, связанной с расширением фундамента научных исследований и созданием информационно-справочных систем различного характера на базе компьютера, была разработана концепция компьютерного морфологического словаря татарского языка (КМСТЯ). Создание ІСМСТЯ входит в круг задач по формированию Машинного фонда татарского языка (МФТЯ). МФТЯ является комплексной системой, которая представляет собой принципиально новую полифункциональную технологическую основу для поиска, хранения, обработки и описания лингвистической информации. МФТЯ состоит из нескольких подфондов, одним из которых является словарно-грамматический подфонд. Словарно-грамматический подфонд представляет собой многокомпонентную систему, в состав которой входят следующие компоненты:
1) компьютерный словообразовательный словарь татарского языка информационная система словообразовательных связей татарского языка;
2) компьютерный морфологический словарь татарского языка;
3) компьютерный обратный словарь татарского языка;
4) компьютерная версия академической грамматики татарского языка;
Подфонд строится с использованием гипертекста - нелинейного множества текстов (информационных блоков), связанных друг с другом разнообразными ассоциативными связями и образующих, таким образом, систему. Гипертекст позволяет облегчить поиск информации по содержательному критерию (в отличие от формального). Гипертекстовая организация материала предоставляет возможность «не листая» осуществлять прямой переход к соответствующим информационным зонам. Компьютерный морфологический словарь татарского языка представляет собой автоматизированную информационно-справочную систему, в состав которой входят 45700 наиболее употребительных слов, отобранных на основании 5 лексикографических источников татарского языка, это: «Татарско-русский словарь» [1966] («Татарча-русча сузлек»), «Толковый словарь татарского языка» в 3-х томах [1978-1981] («Татар теленец ацлатмалы сузлеге»), «Орфографический словарь татарского языка» [1983] («Татар теленец орфографик сузлеге»), «Татарско-русский словарь» [1995] («Татарча-русча сузлек»), «Орфографический словарь татарского языка» [2002] («Татар теленец орфография сузлеге»).
В компьютерном морфологическом словаре нашли отражение сведения по морфологии, рассмотренные в теоретической части диссертации. В частности, в виде информационно-справочных окон была представлена морфологическая характеристика по частям речи, сведения о склонении и спряжении знаменательных частей речи. Неизменяемые части речи были отражены в информационных окнах с указанием разрядов и формы степеней сравнения - для наречий. В КМСТЯ принят прямой алфавитный порядок расположения слов. Поиск необходимых лексических единиц будет возможен с учётом как начальных, так и конечных букв. Все слова представлены в исходной форме: имена - в именительном падеже единственного числа; глаголы - в форме инфинитива; неизменяемые части речи - в своей единственной форме.
Из истории создания обратных словарей
Создание и развитие инверсионных словарей насчитывает многовековую историю. Первыми обратными словарями, по мнению ученых, следует считать средневековые арабские классические словари XIII-XIV веков. В Европе, начиная с XVIII века, обратный порядок слов использовался при составлении словарей рифм (так называемых «рифмовников»). Обратные словари конца XIX - начала XX веков имели лингвистическое направление, хотя это были словари древних индоевропейских языков: латинского, древнегреческого, санскрита, тохарского, древнеперсидского, старославянского. Данные словари представляли собой обычно обратные индексы к существующим словарям, которые или прилагались к словарям, или, в некоторых случаях, издавались отдельно. Эти обратные словари ставили перед собой задачи вспомогательные для филологических исследований - в первую очередь, создание списков слов с одинаковыми суффиксами в виде обратных индексов к словарям или текстам для изучения словообразования, затем — создание списков слов с одинаковыми морфологическими исходами для изучения морфологической структуры частей речи.
Первые обратные словари русского языка появились за рубежом в 50-е годы XX века: словарь под редакцией Г.Бильфельдта [Bielfeld:1958] и словарь Р.Грёве, Г.Крёше под редакцией М.Фасмера [Greve, Krousche:1958 щ 1959]. Отечественные обратные словари начали издаваться с 60-х годов. В
эти годы были изданы обратные словари грузинского языка [Почхуа:1967] , латышского языка [Сойда, Клявиня: 1970], украинского языка [1971]. Инверсионный (обратный) порядок расположения слов находит отражение в учебной лексикографии [Тихонов: 1978; Потиха: 1981], а также при создании словарей терминов библиотечного дела [Вильма: 1987], гидронимов бассейнов Оки [Смолицкая: 1988], деривационного словаря русских новообразований [Кудрявцева: 1993], удмуртского [Насибуллин, Дудоров: 1992] и марийского [2002] языков, словаря славянской ихтиологической терминологии [Усачёва: 2003].
В 1974 году появился «Обратный словарь русского языка», содержащий около 125.000 слов. Научными консультантами словаря явились А.А.Зализняк, Р.В.Бахтурина, Е.М.Сморгунова. Это был новый этап в создании обратных словарей, так как обработка грамматического материала производилась с применением вычислительной техники в Вычислительном центре АН СССР. В словаре при каждом слове были даны сведения по словарям-источникам (толковым словарям современного русского языка), грамматические пометы, приведены статистические сведения о количестве слов, оканчивающихся на определенную букву или сочетание букв, о распределении слов по грамматическим классам. Автоматическая обработка поставила перед обратными словарями прежние задачи в несколько другом аспекте - дать списки всех типов исходов в языке, для того чтобы получить сведения о формальных признаках классов слов, о возможных значениях окончаний, способах различения омонимов и т.п. В конце 70-х годов выходит «Грамматический словарь русского языка: Словоизменение» А.А.Зализняка [1977], в основе которого лежит обратный порядок расположения слов.
В тюркологии разработка обратных словарей началась в конце 60-х годов с создания обратного словаря узбекского языка [Кунгиров, Тихонов, 1967], затем казахского языка [Бектаев, 1971]. Позднее появились обратные словари татарского [Ахтямов: 1999] и башкирского [Ахтямов: 1999] языков. К настоящему времени создано более 60 обратных словарей. Хронологический список обратных словарей представлен в приложении №3. Обратные словари различаются между собой как объёмом, так и характером содержащейся в них информации. Отличительная особенность расположения слов обратного от традиционного словаря состоит в следующих аспектах.
1. Порядок расположения слов. Обратный или инверсионный алфавитный порядок заключается в расположении слов не с начальных (как это принято в обычных словарях), а с конечных букв: на первом месте стоят слова оканчивающиеся на —а, потом на -б, -в, -г и так далее. Слова с одинаковой конечной буквой располагаются в алфавитном порядке предпоследних букв. Таким образом, расположение в инверсионном порядке означает, что из двух слов первым станет то, у которого конечная буква ближе к началу алфавита. Для иллюстрации можно сравнить одну и ту же группу слов, например из «Обратного словаря русского языка»: Обратный словарь не следует путать с «перевёрнутым словарём», в котором слова расположены в порядке от я до а.
2. Выравнивание по правому краю. Для более удобного поиска в обратных словарях слова выравнивают по правому краю, в отличие от обычных словарей, в которых принято привычное для нас выравнивание по левому краю. 3. Объединение слов по грамматическому значению. При инверсионном порядке в одном месте группируются слова с одинаковыми окончаниями или аффиксами, то есть превалирует грамматический признак в отличие от обычного прямого алфавитного порядка, в котором слова сгруппированы по лексическому значению (все производные одного корня стоят рядом). Таким образом, при инверсионном порядке слова с одинаковым или сходным типом словоизменения обычно оказываются рядом и образуют как большие, так и малые массивы, как правило, в пределах одной части речи, например (в татарском языке), существительных на -че, -чы, -лык, -лек, прилагательных на -сыз, -сез, -ык, -ек и т.д: толкече себеркече искече эчкече тирече борече бурече шурече