Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Компьютерная база данных "Языки мира" и ее возможные применения Ярославцева Елена Игоревна

Компьютерная база данных
<
Компьютерная база данных Компьютерная база данных Компьютерная база данных Компьютерная база данных Компьютерная база данных Компьютерная база данных Компьютерная база данных Компьютерная база данных Компьютерная база данных
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Ярославцева Елена Игоревна. Компьютерная база данных "Языки мира" и ее возможные применения : Дис. ... д-ра филол. наук : 10.02.21 Москва, 2005 305 с. РГБ ОД, 71:06-10/89

Содержание к диссертации

Введение

Часть I. Компьютерная база данных «Языки мира»

1.1 История вопроса 18

1.1.1 Задачи справочного аппарата энциклопедии «Языки мира» 18

1.1.2 Издание «Языки мира». Типовая схема статьи 19

1.1.3 Реферат как свернутое энциклопедическое описание 20

1.2 Компьютерный аналог энциклопедии «Языки мира» 32

1.2.1 Абстрактная схема реферата 37

1.2.2 Требования к реферату 47

1.3 Модель реферата 54

1.3.1 Детализация и конкретизация типовой схемы статьи о языке 56

1.3.2 Уровни иерархии элементов реферата 61

1.3.3 Классифицирующие и фактографические элементы 62

1.3.4 Способы задания характеристик 63

1.3.5 Языки, представленные в базе данных 66

1.3.6 Модель реферата в базе данных 69

1.4. Процесс реферирования 140

1.4.1 История создания программы 141

1.4.2 Инструкция к программе автоматического реферирования 142

1.4.3 Инспекция реферата 147

1.4.4 Редактирование рефератов 149

1.4.5 Принципы адекватного реферирования 151

1.4.6 Примеры фрагментов статей и их рефератов 152

1.4.7 Отзывы на рефераты 169

1.4.8 Проблема синонимии в модели 170

1.5. Грамматикой (универсальный, конкретно-языковой и частные) 171

1.5.1 Тезаурус грамматических категорий и явлений 173

1.5.2 Определения тезауруса 177

1.5.3 Тезаурус как модель грамматикона 178

1.5.4 Схема словарной статьи тезауруса 181

1.5.5 Тезаурус как указатель 190

1.5.6 Фрагмент тезауруса, упорядоченного по алфавиту 194

1.6 Система указателей как справочный аппарат энциклопедии «Языки мира» 224

1.6.1 Географический указатель 224

1.6.2 Генетический указатель 228

1.6.3 Предметные указатели - систематический и алфавитный 231.

1.6.3.1 Алфавитный указатель 231

1.6.3.2 Систематический указатель 233

Часть II. Применение базы данных в лингвистических исследованиях

2.1 Применение базы данных для педагогов, переводчиков, студентов и лингвистов 237

2.2 Автоматизированный перевод базы данных 239

2.3 Автоматизированный поиск информации 241

2.4 Формальная типология языков 243

2.4.1 Возможные пути решения проблемы 243

2.4.2 Инструкция к программе сопоставления языков 244

2.4.3 Верификация традиционной типологии 246

2.4.4 Примеры проведенного сопоставления языков 247

2.4.5 Веса в зависимости от степени универсальности категории 255

2.4.6 Функционирование базы данных 258

2.5 Банк лингвотипологических данных 268

2.5.1 Определение основных понятий 268

2.5.2 Структура банка лингвотипологических данных 272

2.5.3 Поисковые запросы и поисковые предписания 273

Заключение 285

Выводы 292

Литература

Введение к работе

В связи со сказанным, в Институте языкознания довольно давно (с начала 80-х гг.) ведется разработка базы данных (БД), которая включает в себя свернутые, формализованные и определенным образом структурированные описания языков мира. В настоящее время БД «Языки мира», несмотря на свою незавершенность, находится в такой стадии разработки, когда она вполне может уже использоваться и как инструмент лингвистического исследования, в чем и состоит ее основное назначение В связи с этим главной целью данной диссертации является краткое описание устройства этой БД и тех полезных для лингвистики функций, которые она способна выполнять на данном этапе ее создания.

У истоков создания энциклопедии и БД «Языки мира» стояла член-корреспондент РАН В.Н.Ярцева - автор и руководитель проекта «Энциклопедия «Языки мира». Ей принадлежала идея создания с

помощью компьютера справочного аппарата к этой энциклопедии в виде системы указателей. Эта идея трансформировалась затем в проект по разработке базы данных, создаваемой на основе энциклопедии, но позволяющей в дальнейшем выдавать сведения лингвотипологического характера без непосредственного обращения к самому энциклопедическому изданию.

Первоначально в разработке проекта по созданию базы данных принимал участие Борис Владимирович Якушин, но к сожалению, недолго, так как он преждевременно скончался.

В работе по составлению рефератов статей энциклопедии «Языки мира» и введению их в базу данных, а также в составлении модели реферата принимали участие: О.И.Романова, Я.Г.Тестелец, А.К.Валентей, М.Е.Алексеев, Н.Б.Бахтин, В.А.Виноградов, А.В.Дыбо, В.П.Калыгин, И.Ш.Козинский, М.С.Полинская, Н.В.Рогова, Д.И.Эдельман, Н.К.Рябцева.

В начале 90-х годов работы по наполнению базы данных информацией из-за плохого финансирования велись недостаточными силами. Несмотря на это, в этот период старшим научным сотрудником отдела прикладного языкознания Ю.П.Скоканом был разработан комплекс программ, позволяющий осуществлять ввод, редактирование и корректировку информации. На основе данного программного продукта было введено и отредактировано около 200 описаний языков Евразии как на русском, так и на английском языках усилиями автора. В 2000 году к данному проекту присоединился Московский государственный лингвистический университет, где была создана Лаборатория типологических исследований (зав. лабораторией - А.И.Новиков). В соответствии с договором данная тема в настоящее время разрабатывается как совместная. (Виноградов В.А., Новиков А.И., Ярославцева Е.И. База данных «Языки мира» как инструмент лингвистического исследования. // Вопросы языкознания, 2003, №3, с.3-14).

Основной единицей энциклопедии «Языки мира» является статья. Объем статей колеблется от половины печатного листа до нескольких печатных листов. С одной стороны, в связи с большим объемом издания и разнородностью включаемого в него материала алфавитный принцип его организации является единственно приемлемым, поскольку он наиболее универсален. С другой стороны, он не является достаточным, поскольку назначение энциклопедии «Языки мира» не может быть сведено к одной задаче - обеспечить поиск отдельных статей по алфавиту. Энциклопедия должна обеспечить решение самых различных исследовательских задач, что связано с обращением не только к самим статьям, а и к тем сведениям, фактам, которые содержатся в различных местах одной статьи и в разных статьях, находящихся в разных алфавитных зонах энциклопедии. Другими словами, для решения исследовательских задач на базе энциклопедии «Языки мира» потребуется многоаспектный поиск, который не обеспечивается алфавитным расположением статей, вследствие чего этот поиск потребитель должен осуществлять сам. Учитывая значительный объем экциклопедии (она состоит из множества томов), следует предположить, что такой поиск будет связан со значительными трудностями, а в некоторых случаях будет и невозможен.

Все это делает необходимым создание специального справочного аппарата, дополняющего основное издание. Традиционной формой такого справочного аппарата являются различного рода указатели, отражающие тот или иной дополнительный аспект поиска и тем самым компенсирующие в некоторой степени недостатки алфавитного принципа организации словаря или энциклопедии. Но такой справочный аппарат имеет свои ограничения, связанные с тем, что он рассчитан на человека, а значит, не должен содержать в себе много указателей, указатели не должны быть большими по объему и т.д., поскольку в противном случае

эффективность их использования значительно снижается. Не последнюю роль здесь играют и те соображения, что справочный аппарат не может приближаться к объему основного издания. Следовательно, справочный аппарат может отразить только какие-то отдельные аспекты, а не все необходимое, тем более, что в момент его создания невозможно предугадать все потребности науки, которые могут возникнуть в будущем.

В период широкого распространения компьютеров, электронной почты, надежных электронных носителей информации и т.п. появляется реальная альтернатива для получения, хранения и распространения научных знаний. С этой целью необходимо решить ряд проблем, связанных с обеспечением эффективного и комфортного использования электроники в повседневной практике научной деятельности ученого. В русле этих проблем и предлагается комплекс компьютерных программ, способствующих как облегчению кропотливых и трудоемких процессов изучения особенностей различных языков, так и расширению круга пользователей энциклопедии «Языки мира» - компьютерная база данных «Языки мира».

Такая база данных обеспечит:

  1. эффективное обобщение знаний среди специалистов в области различных языков;

  2. создание электронного варианта энциклопедии «Языки мира»;

3) удобное и экономное распространение энциклопедических знаний о
языках как в нашей стране, так и за границей.

Хочется надеяться, что по своему научному уровню и практическому значению эта работа займет достойное место в ряду современных концепций баз данных по языкам мира, например таких, как Ethnologue, созданная в Summer Institute of linguistics (www. sil. org/ethnologue/maps), база данных лейпцигских исследователей в Мах

Planck Institute for Evolutionary Anthropology

(), база данных M. Драйера (wings, ), см. также проект Autotyp Дж. Николз и Б. Бикеля (), представляющий собой попытку объединения нескольких наиболее авторитетных баз. Большой интерес представляет недавно вышедшая монография О.С.Широкова «Языковедение: введение в науку о языке», М., «Добросвет», 2003. Создаваемая в нашем институте база данных «Языки России: социолингвистический портрет» является более частной по сравнению с базой данных «Языки мира» () и имеет некоторые сходные с ней области применения.

Цель

Целью данной диссертации является создание компьютерной базы данных «Языки мира», включающей в себя свернутые, формализованные и определенным образом структурированные описания языков мира и описание ее возможных применений в лингвистике и других областях знания.

В связи с этим главной задачей данной работы является краткое описание устройства этой базы данных и тех функций, которые она способна выполнять на данном этапе ее создания и в будущем.

Объект исследования

Языки мира - языки народов, населяющих сейчас (и населявших ранее) земной шар. Общее число от 2500 до 5000 (точную цифру установить невозможно, потому что различие между разными языками и диалектами одного языка условно). (Иванов Вяч.Вс. «Языки мира». // Лингвистический Энциклопедический Словарь. М., 1990).

Предмет исследования

Компьютерная база данных «Языки мира», состоящая из свернутых, формализованных и определенным образом структурированных описаний языков мира.

Исследуемый материал

Статьи энциклопедии «Языки мира», работы языковедов-специалистов по отдельным языковым семьям, устные консультации упомянутых специалистов, статьи Лингвистического энциклопедического словаря.

Положения, вныносимые на защиту

1) Компьютерная база данных «Языки мира» является электронным
аналогом создаваемой в Институте языкознания РАН энциклопедии.

2) Компьютерная база данных может предоставить широкие
возможности для лингвистических исследований (составление различных
указателей, автоматизированный перевод базы данных,
автоматизированный поиск информации в базе данных, получение
формальной типологии языков).

3) Итеративно пополняемая модель реферата является
одновременно и моделью всех языков, содержащихся в базе данных, а
значит, после введения в базу всех известных науке языков, может
рассматриваться как структурная модель грамматики человеческого
языка.

  1. Составленные программы сопоставления языков, основанные на разных критериях соответствия, позволяют создать так называемый формальный аналог типологии языков - материал для верификации традиционной типологии.

  2. Разработанный тезаурус грамматических категорий и явлений, составленный по оригинальной схеме словарной статьи, это словарь нового типа, т.к. он учитывает многие ранее не применявшиеся в словарных статьях зоны.

6) Географический и генетический указатели к базе данных
позволяют без обращения к энциклопедическому изданию определять
перечни языков, распространенных в пределах некой географической
единицы, и находить генетические единицы, подчиняющие данную.

  1. Созданная система автоматизированного перевода базы данных на английский (в принципе на любой другой) язык обеспечивает возможность широкого использования базы данных.

  2. База данных даст возможность выявлять лакуны в описании языков и определять импликации языковых категорий и явлений.

  3. Система составления поисковых предписаний по поисковым запросам потребителей даст возможность организовать многоаспектный поиск в базе данных.

10) Структура банка данных позволяет создать диалоговую
вопросно-ответную систему по материалам базы данных.

Научная новизна

Разработаны принципы и методы компьютерного представления информации о языке - создан компьютерный вариант энциклопедии «Языки мира».

Впервые создана компьютерная база данных, в которой представлены сведения о 330 языках Евразии.

По предложенной методике в будущем возможно введение в базу данных языков других семей, групп и подгрупп. Составление первичной формы описания какого-либо языка значительно упростится и станет более эффективным при использовании модели реферата, которая формируется в базе данных (см. раздел 1.3).

Разработаны схемы словарных статей тезауруса грамматических категорий и явлений, географического и генетического указателей по имеющейся базе данных. По этим схемам составлены упомянутые тезаурус и указатели.

Начата и продолжается работа по созданию формальной типологии языков на основе формальных критериев.

Теоретическая значимость

Разработан нестандартный способ представления множества языковых фактов, относящихся к некоторому конкретному языку, которым является формализованный реферат описания данного языка. Он может быть вычленен из общей структуры базы данных. Содержимое всех строк реферата, как перечень языковых явлений и категорий, составляет так называемую модель реферата (MP). В отличие от рефератов, которые создаются в процессе функционирования базы данных, модель реферата, вернее, ее базовый компонент, создается предварительно на одном из первых этапов построения базы данных.

Реферат имеет идентичную модели структуру, поскольку является результатом включения в него из модели тех языковых фактов (строк), которые присущи данному конкретному языку. Поэтому реферат обычно не состоит из чего-то отличного от содержащегося в модели. Однако предусмотрено так называемое итеративное пополнение модели, т.е. включение в нее после ряда проверок и консультаций со специалистами тех строк, которых до этого в модели не было. Можно считать, что если реферат является основной единицей ввода, хранения и обработки в базе данных, то модель реферата - это инструмент формирования реферата, обеспечения его стандартности, унифицированности и тем самым формализованности. Поэтому она может рассматриваться как язык внутреннего представления информации в базе данных.

Далее будут введены и объяснены этапы работы: написание статьи по типовой схеме в энциклопедию, составление по ней реферата, введение его в компьютер, составление программы по обработке данных и т.п.

Практическая ценность

Компьютерная база данных «Языки мира» может использоваться в разных областях знания, но в первую очередь в лингвистике. На ее основе уже созданы различные виды указателей к энциклопедии «Языки мира»: географический, генетический, предметный алфавитный и предметный систематический указатели.

Разрабатываются теоретические и методологические основы создания диалоговой вопросно-ответной системы. Указатели дают отсылки от каждой строки модели к статье энциклопедии «Языки мира», где читатель сможет найти более подробную информацию об интересующем его аспекте. Это сокращает затрачиваемое читателем время, и, кроме того, дает каждое явление в контексте (в иерархической структуре), указывает его синонимы и англоязычный эквивалент. В этом плане особый интерес представляет тезаурус грамматических категорий и явлений, составленный по базе данных.

Методы исследования

При создании базы данных применялись и опробовались различные языки программирования, первоначально комплекс программ для данной базы данных был разработан старшим научным сотрудником Ю.П.Скоканом. Они были написаны на языке Clipper и позволяли осуществлять ввод, хранение, инспекцию, редактирование и преобразование рефератов, а также ввод новых строк в модель реферата. Кроме того, этот программный продукт позволяет осуществлять автоматизированный перевод рефератов на английский язык. Программная реализация различных функций позволяет рассматривать процесс формирования базы данных как процесс ее постоянного расширения как по горизонтали (ввод новых языков), так и по вертикали (ввод новых строк в модель реферата).

В настоящее время первоначальное программное обеспечение было перепрограммировано на языке Delphi и адаптировано под Windows. В

этой второй версии программного обеспечения была полностью сохранена идеология первой версии. Дополнительно были реализованы функции БД, связанные с информационным поиском.

Также применялись методы и формулы математической статистики, логики и языка исчисления предикатов, лингвистические методы денотативного анализа текста, сравнительно-исторического языкознания, социолингвистики и психолингвистики, метод опроса и анализа потенциальных пользователей базы данных.

Перспективность исследования

Возможности применения базы данных поистине безграничны. Кроме введения в нее всех известных на настоящее время языков мира, формируемая и итеративно пополняемая модель языка даст представление о формализованной структуре человеческого языка вообще. Представляется также возможность исследования с ее помощью психолингвистических, лингво-палеонтологических и лингво-антропологических закономерностей, структурных особенностей разных грамматических категорий, и многое другое.

Лингвистическая типология может с помощью базы данных верифицировать свои гипотезы и положения.

Студенты могут использовать базу данных при написании курсовых и дипломных работ, а также при подготовке к экзаменам. Ученым база данных дает возможность рассматривать исследуемые языковые явления или категории в широком контексте, а программа (пока еще не до конца разработанная), дает перечень языков, в которых присутствует задаваемый элемент модели. Это позволяет сэкономить усилия при обращении к печатному изданию энциклопедии "Языки мира" (не нужно будет просматривать всю энциклопедию с целью найти интересующее Вас явление, достаточно будет обратиться к тому языку из числа описанных в ней, в котором это явление имеется).

Преподавателям важно понять самим и довести до сведения своих учеников различия в структуре родного и изучаемого языка. Простое сопоставление конкретно-языковых грамматиконов родного и изучаемого языков - это первый шаг к осознанию данного различия.

А переводчику следует обратить внимание на адекватность передачи в языке - переводном эквиваленте всех упомянутых способов и видов словообразования. Кроме того, существенны и структурные различия построения единиц текста. Имеется в виду как структура простого, так и сложного предложения, а также порядок следования компонентов при построении дискурса.

Апробация и внедрение

Результаты работы по созданию и ведению базы данных были опубликованы в монографии, ряде статей в отечественных и зарубежных журналах, докладывались на конференциях и семинарах. (Институт языкознания РАН, МГЛУ, Пермский политехнический институт, Уфимский университет).

Используемая терминология

Реферат - сокращенный вариант статьи энциклопедии «Языки мира», содержащий все основные сведения об описываемом языке и представленный в виде специальной формализованной записи, другими словами, это последовательность наименований языковых явлений, записанных в отдельных строках и связанных между собой определенными отношениями (в основном отношениями подчинения .и соподчинения). Каждая позиция (раздел) типовой схемы статьи о языке содержательно соответствует в модели классу языковых явлений.

Модель - средство стандартизации процесса реферирования. Рефераты статей о языках представляют собой свернутые, формализованные и определенным образом структурированные описания языков, отличающиеся стадартизованностью и унифицированностью и

составленные по определенному трафарету, в качестве которого выступает модель реферата. Поэтому референт должен составлять реферат путем включения в него строк модели реферата. Кроме того, референту предоставляется право дополнять список характеристик, задаваемый моделью. В этом случае предусмотрен режим добавления строки в модель. Модель сначала создавалась априорно, на основе знаний и опыта лингвистов в разных областях языкознания и при опоре на имеющиеся в энциклопедии описания языков.

Итеративное пополнение модели - добавление в модель тех строк, которых не было в ней на момент составления реферата о некотором языке, но которые необходимы для его описания.

Класс, аспект, подаспект и характеристика - это структурные единицы реферата разных уровней, соответствующие темам, подтемам, субподтемам и микротемам денотатной структуры, (см. А.И.Новиков. Семантика текста и ее формализация. М., 1983).

Тема, подтема, субподтема, микротема — единицы описания статьи о языке (тема - это конкретный язык), подтема, субподтема и микротема - дальнейшие градации описания этого языка.

Лакуна - отсутствие языкового явления или его описания, отмечается в рефератах языков специальными графическими знаками: - О - явление отсутствует, О - явление не описано.

Ведущие точки - способ отражения иерархии элементов, составляющих модель, специальная формализованная запись. Каждый следующий уровень иерархии имеет на одну "ведущую точку" больше, чем предшествующий.

Вес — или весовая категория - цифровое обозначение значимости некоторого элемента для решения конкретной задачи; чем больше вес, тем значимее элемент.

Грамматикой - универсальный, конкретно-языковой и частные — наборы грамматических категорий и явлений в модели языка, в рефератах конкретных языков и в отдельных классах модели.

Фонематикон, ономастикой, вербатикон, просодикой, нумерикон, птотикон, дейктикон, фонотактикон, фонотипикон, морфотипикон, партикон, парадигматикой, слово-форматикон, дериватикон, сентенсикон, комплексикон, графикон и т.п. - названия частных таксонов грамматикона.

Кластер - «пучок» характеристик языка, группы языков, класса, аспекта модели.

Классифицирующие элементы реферата - элементы, подчиняющие себе другие, классы, аспекты, подаспекты.

Фактографические элементы реферата - элементы, стоящие на самых нижних уровнях иерархии, характеристики, редко подаспекты.

Поисковый запрос - интересующий пользователя базы данных вопрос, касающийся ее содержимого.

Поисковое предписание - формальная запись запроса специальными символами.

Дисплей, панель экрана, реперные точки, мемо-поле, откатная копия - термины информатики и программирования.

Банк данных - система программных, языковых, организационных и технических средств, предназначенных для централизованного накопления и коллективного использования данных.

Лингво-дистантно-метрика и лингво-палео-генезис — предполагаемые условные названия возможных направлений исследований с применением базы данных «Языки мира».

ЧАСТЬ 1

КОМПЬЮТЕРНАЯ БАЗА ДАННЫХ «ЯЗЫКИ МИРА»

Издание «Языки мира». Типовая схема статьи

Была поставлена задача создания новой технологии, для которой необходимо иметь один массив формализованной информации, ориентированной на решение не одной, а нескольких задач. В связи с этим возникает проблема построения массива многоцелевого назначения, который можно считать базой лингвистических данных. При одноразовой содержательной обработке и вводе исходной информации база данных должна обеспечивать не только проведение различных видов информационного поиска, но также автоматическое построение различных указателей и решение других более частных задач. Для этого массив, создаваемый в виде базы данных, должен отвечать следующим требованиям:

1) В него должна входить информация, необходимая и достаточная для обеспечения всех задач, на которые ориентирована информационно-поисковая система.

2) Информация в нем должна быть представлена в виде системы разнопорядковых дискретных единиц, формально выделимых и содержательно значимых для решения поставленных задач.

3) В целях оптимизации поиска необходимой информации в базе данных эта информация должна быть определенным образом структурирована.

4) Структура базы данных должна обеспечивать обращение к ней по многим «входам», для чего она не должна быть слишком жесткой.

5) В процессе эксплуатации база данных должна допускать возможность локального переструктурирования и дополнения без нарушения ее общей схемы и без потерь информации.

Центральным из этих требований является требование, связанное с решением вопроса об основных единицах информации.

В рамках данной системы в общем виде под единицей информации следует понимать такие конструкции, которые могут быть вычленены как целостные образования на основе определенных формальных критериев. При этом такое вычленение должно производиться с учетом всех возможных задач, решаемых с помощью автоматизированной системы, т.е. эти единицы должны соответствовать поставленным задачам, быть необходимыми и достаточными для их решения.

Как уже отмечалось, основной дискретной единицей энциклопедии «Языки мира» является отдельная статья, в которой описывается некоторый конкретный язык. Каждая статья пишется по предварительно заданной типовой схеме, представляющей собой перечень наименований основных разделов или аспектов, которые должны быть обязательно раскрыты автором. В тексте статьи сохраняются цифровые индексы, соответствующие разделам (позициям) типовой схемы.

Индексы разделов выступают в качестве тех формальных признаков, которые позволяют выделять второй уровень дискретных единиц -фрагменты статьи. В каждом таком фрагменте содержатся сведения, факты об описываемом языке, которые могли бы выступать в качестве более элементарных единиц. Но они представлены на естественном языке, имеют самые разнообразные формы выражения, а потому не отвечают условию формальной выделимости. Между тем именно на уровне этих единиц осуществляется главным образом решение тех задач, на которые ориентирована база данных. Это обстоятельство не позволяет использовать статьи энциклопедии в качестве основной единицы ввода и хранения в памяти компьютера, несмотря на то, что она имеет частично стандартизованную структуру. Существенное, хотя и не принципиальное значение здесь имеет и большой объем статей.

Языкознание, как и любая другая область науки, характеризуется тем, что, преследуя цель полного и адекватного описания своего объекта языка, неизбежно распадается на ряд дисциплин, каждая из которых разрабатывает способы описания либо одной из сторон объекта, либо одного из аспектов его функционирования. Но в самом объекте все эти стороны и аспекты находятся в отношении взаимосвязи, взаимопересечения, взаимовлияния. Поэтому история и структура науки о языке демонстрируют постоянное стремление к интеграции достижений ее отдельных областей. Самое значительное проявление этого стремления - оформление в середине XIX века в отдельную дисциплину общего языкознания, определяющего и обосновывающего самые существенные свойства языка. Одной из реальных предпосылок создания общего языкознания была возникшая к тому времени лингвистическая типология как учение о языковых сходствах и различиях, независимых от родства языков. С тех пор общее языкознание и его часть - типология развиваются не столько параллельно, сколько в отношении интердепендентности.

Материалом для этих дисциплин должны служить описания языков, причем по возможности единообразные, и параметры этого единообразия должны задаваться лингвистической типологией на основании данных общего языкознания. Тем самым конкретно-описательное языкознание наряду с общим языкознанием и его частью - типологией - является необходимым третьим компонентом развития науки о языке.

Необходимо оговорить, что кадый из этих трех компонентов обладает развитой внутренней структурой. Назовем единообразное описание языков на основе сознательно определяемых типологических (общеязыковедческих) параметров энциклопедическим.

Инструкция к программе автоматического реферирования

Возможно, составленная Ю.П. Скоканом и мной инструкция, поможет понять все возможности и специфику составленной программы WELTSPR1 по введению рефератов языков мира в базу данных.

Инструкция для пользователя программы WELTSPR, специализированного редактора, предназначенного для создания компьютерного варианта энциклопедии «Языки мира».

В компьютерном варианте энциклопедии "Языки мира" каждый язык представляется наименованием языка и упорядоченной последовательностью параметров, присущих этому языку. Параметры подразделяются на лингвистические и индивидуальные. Такое представление языка в виде упорядоченной последовательности параметров называется рефератом. Упорядоченное обобщение параметров по некоторой группе языков образует модель этой группы языков. В свою очередь, обобщение моделей по всем группам языков образует глобальную модель языков мира.

Основными исходными данными для работы создаваемого комплекса программ являются рефераты, представленные в не строгой, почти свободной форме; результатами - компьютерное представление рефератов и моделей, формируемыми компьютером по исходным рефератам.

Предлагаемая концепция проектируемой программы является пробным вариантом составления подобной программы на языке CLIPPER. Предполагается, что программа будет совершенствоваться на основании результатов опытной эксплуатации.

Для ввода реферата нового языка необходимо после запуска программы (WELTSPR - Enter ; WELTSPR.exe - Enter ; заставка - Enter ), выбрать с вомощъю стрелки группу языков - Enter .

Затем нужно нажать клавишу Ins (добавление нового языка в базу данных) и НАБРАТЬ на клавиатуре название вводимого языка (более подробно смотри подсказку в нижней части экрана).

Если название языка набрано неверно, то его можно исправить, нажав клавишу Enter. Строка с названием языка тогда станет другого (голубого) цвета, и в ней можно будет исправлять название, применяя клавиши Delete, Ins и Backspace (как в любом текстовом редакторе). Завершить правку следует нажатием клавиши Enter.

Удалить название языка можно только в том случае, если с ним не проводилось работы по разметке строк модели (по формированию лингвистической (-общей) части реферата). В противном случае возможным выходом будет "исправление" названия (его замена) на совершенно новое название (еще не задействованное в списке языков) и внимательное исправление разметки строк модели (в общей части реферата) с убиранием предыдущих пометок и добавлением новых, соответствующих уже языку с теперешним названием. Аналогичным образом следует исправить и индивидуальную часть реферата.

Сразу после ввода названия языка нужно нажать комбинацию клавиш Ctrl+T. На экране появится меню, позволяющее выбрать одну из альтернатив - режимов работы программы.

Следует выбрать режим "Редактирование модели и реферата". Затем перейти на первую строку модели (при нажатых клавишах Alt Fn нажать также стрелку, указывающую наверх). В результате Вы будете находиться на первой строке модели.

Строка, на которой Вы находитесь в данный момент (оперативная строка), помечается черным квадратиком слева от строки.

Зеленый квадрат справа на вертикальной ограничивающей полосе показывает, в каком месте модели Вы находитесь при обработке данной оперативной строки, т.е. можно оценить количество уже проделанной и оставшейся работы.

Далее следует помечать нажатием правой стрелки все те строки модели, которые соответствуют описанию вводимого языка. При этом фон помеченной строки становится зеленым. Если строка модели была помечена неверно (ошибочно), то «помеченость» строки можно отменить нажатием левой стрелки, зеленый фон при этом исчезает. Все необходимые подсказки находятся в нижней части экрана.

Если в модели отсутствует строка, необходимая для описания данного языка, то следует добавить ее в модель, для чего необходимо сначала нажать клавишу Ins, находясь на строке, следующей в модели за тем местом, на которое Вы хотите вставить недостающую строку (на экране появится голубое поле, предназначенное для побуквенного ввода новой строки).

Автоматизированный перевод базы данных

В этом подразделе используются данные из следующих публикаций: Словарь польского языка XVI в. (с 1966); «Словарь русского языка» А.А.Шахматова, т.2, 1907, т.4, 1916; Беляева Л.Н. Применение ЭВМ в лингвистических исследованиях и лингводидактике. Л., 1986; Виноградов В.А., Новиков А.И., Ярославцева Е.И. База данных «Языки мира» как инструмент лингвистического исследования. // Вопросы языкознания, 2003, №3; Жданова Г.С., Колобродова Е.С., Полушкин В.А., Журинская М.А., Новиков А.И., Ярославцева Е.И. Энциклопедическое описание языков. М., "Наука", 1986; Леонтьева Н.Н. Информационная модель автоматического перевода // НТИ, сер. 2, 1985, № 10; Марчук Ю.Н. Некоторые проблемы развития государственной системы научно-технической информации. - НТИ, сер. 2, 1980, № 11; Нестерова Н.М. Реферативный перевод как смысловое преобразование текста. Дисс. ...канд. филол.наук. М., 1984; Новиков А.И., Ярославцева Е.И. База лингвотипологических данных и принципы ее функционирования // Вести АН СССР. 1985, № 3; Рябцева Н.К. Моделирование информационных процессов в прикладных лингвистических целях- // Вопросы моделирования перевода. М., 1987 (Деп.); Фролов А.С. Сочетаемость и совместная встречаемость полнозначных словесных знаков // Структурные аспекты слова и словосочетания. Калинин, 1988; Черный А.И. Введение в теорию информационного поиска. М., 1975; Якушин Б.В., Ярославцева Е.И. Критерий близости текстов по содержанию (умственный критерий). - Изв. АН СССР, ОЛЯ, 1980, т.20, т.6; Ярославцева Е.И. Исследование смысловой близости текстов. Дисс. ... канд. филол. наук. М., 1981; Ярославцева Е.И. Методы определения семантической близости текстов. // Семантика языковых единиц и текста. М., 1978; Greenberg Joseph Н. A Quantitative Approach to the Morphological Typology of Language (Method and Perspective in Anthropology, ed. by Robert E. Spencer, University of Minnesota Press, 1954; Novikov A., Yaroslavtseva E. Linguotypological Data Bank II Social Sciences. USSR Academy of Sciences. Vol. XVII, No. 3,1986.

Автоматизированный перевод базы данных с русского языка на английский (в принципе на любой другой язык), а в соответствии с этим выпуск рефератов и указателей на английском (или других) языках является одной из задач, которые могут быть решены при помощи того способа представления информации, который был применен в разрабатываемой системе.

В основе предлагаемого процесса автоматизированного перевода лежит представление о том, что "если модель реферата является некоторой универсальной схемой, отражающей знание о языках мира, то она содержит в себе большую часть элементов, которые могут встретиться в реальных рефератах" (Журинская М.А., Новиков А.И., Ярославцева Е.И. Энциклопедическое описание языков, М., "Наука", 1986, с.26).

Следовательно, можно предварительно перевести модель (ее первоначальный, исходный) вариант, а впоследствии вручную переводить те элементы, которые были добавлены в этот исходный вариант модели при обработке статей конкретных языков. Как показывает практика, количество вновь вводимых элементов на каждый реферат незначительно (приблизительно 10 % от количества уже имеющихся в исходном варианте модели элементов).

Информационный поиск - это такой процесс, выполнение которого в определенной степени формализовано. Такая формализация может быть осуществлена только в том случае, если имеется какой-либо специальный аппарат для этой цели. Релевантность означает не что иное, как «соответствие», свойство смысловой близости между текстами и/или их фрагментами (Жданова и др., 1971,с.152). Критерием поиска должен служить признак качества сопоставления, т.е. признак, по которому можно отделить релевантные фрагменты базы данных от нерелевантных.

Применительно к энциклопедии таким аппаратом является алфавитное расположение описаний языков (статей), позволяющее найти соответствующий том, оглавление внутри тома, обеспечивающее нахождение необходимой статьи, и индексы типовой схемы, служащие указанием, в каком фрагменте статьи может находиться интересующее потребителя языковое явление. Такой поисковый аппарат как бы "встроен" в саму энциклопедию, а потому является ее внутренним справочным аппаратом. Он обеспечивает ответы на те запросы, где объектом поиска является конкретный язык. По такому "входу", как уже отмечалось, можно найти и языковые явления, характеризующие данный язык. Методом последовательного перебора языков можно найти и другие характеристики, некоторые из которых могут оказаться общими для данного множества языков. Но существуют запросы, где абонента интересует не конкретный язык, а некоторые языковые явления, и при этом неизвестно, в каких языках они встречаются. Ответ на такой запрос можно получить путем сплошного просмотра всех статей, что крайне трудоемко, а потому практически невыполнимо. Ограничению такого перебора помогает некоторая гипотеза о том, в каких языках может содержаться искомое языковое явление.

Тогда будет довольно просто найти искомый параметр, просматривая не все, а только некоторые статьи. Но всякая гипотеза требует проверки, определенного доказательства. Ответы, получаемые при таком варианте поиска, не могут служить проверкой этой гипотезы, так как всегда будет существовать сомнение в полноте используемой выборки статей. Следовательно, внутренний справочный аппарат энциклопедии в этом случае является неэффективным.

Веса в зависимости от степени универсальности категории

Другим не менее важным свойством базы данных является то, что она рассчитана на коллективное использование содержащейся в ней информации. В этой связи база данных должна быть максимально риближена к потребителю, который должен иметь возможность непосредственного доступа к ней. Такая возможность наиболее полно реализуется в так называемом диалоговом режиме, что и определяет ее особенности как поискового массива.

Существенным является также и то, что банки данных ориентированы, как правило, на те задачи, которые связаны с принятием решений. Это предполагает, что в них в какой-то степени должны моделироваться процессы, для чего необходимо иметь специальные дополнительные средства. В этой связи о таких банках данных говорят как об интеллектуальных. (Кузин Л.Т. Интеллектуальные банки данных. //Вопросы кибернетики. М., 1979).

Для реализации этого свойства в качестве одного из основных компонентов они должны содержать так называемую базу знаний, которая может быть включена в базу данных или выделяется в самостоятельный информационный массив. В этом случае под базой данных понимают совокупность фактографических, количественных и др. сведений, связанных определенной структурой, информация о которой хранится в базе знаний. База знаний содержит в себе следующие основные компоненты: 1) сведения, которые отражают закономерности, существующие в предметной области, и позволяют не только выводить новые факты, имеющие место в данном состоянии проблемной среды, но не зафиксированные в базе данных, так и прогнозировать потенциально возможные состояния; 2) сведения о структуре и содержании базы данных; 3) сведения, обеспечивающие понимание входного языка, т.е. перевод исходных вопросов и утверждений на внутренний язык. Основной функцией базы знаний является обеспечение эффективного управления базой данных.

Наряду с базой данных, она является одним из наиболее важных компонентов базы данных. Другим не менее важным ее компонентом является так называемое лингвистическое обеспечение, предназначенное для перевода запросов с входного естественного языка на язык внутреннего представления информации в банке данных. Лингвистическое обеспечение может как входить в состав базы знаний, так и быть самостоятельным массивом. Необходимым компонентом банка данных является комплекс программ, обеспечивающих внутримашинное формирование и ведение базы данных, а также обращение к ней. Совокупность указанных компонентов в их связи и взаимодействии составляет общую структуру банка данных.

Для того, чтобы определить структуру банка лингвотипологических данных, являющегося объектом нашей разработки, необходимо рассмотреть конкретные особенности составляющих его компонентов.

В первой главе при решении общесистемных вопросов база данных была определена как совокупность двух массивов информации: модели реферата и множества реальных рефератов. Такая база данных хотя в принципе и позволяет осуществлять автоматизированный поиск информации, необходимой для ответа на запросы, тем не менее, ориентирована главным образом на составление указателей. Поэтому для работы системы в режиме автоматизированного поиска требуется определенная внутренняя перестройка базы данных, ее приспособление, своего рода "настройка" на решение данной задачи. Это диктуется требованиями обеспечения необходимой эффективности системы, которая в значительной мере определяется соответствием вида автоматизированного поиска необходимой для ответа на запрос информации и способом его осуществления.

Существует необходимость в проведении анализа запросов, требующих автоматизированного поиска с точки зрения определения того, какие требуются преобразования и дополнения базы данных для адаптации ее к задаче автоматизированного многоаспектного поиска информации.

С этой целью специалистам, представляющим различные разделы языкознания, после кратких пояснений о составе энциклопедии и форме представления в ней информации было предложено сформулировать запросы, являющиеся актуальными для них с точки зрения решаемых ими проблем. В результате было собрано 200 запросов, характеризующихся большим многообразием, в частности, с точки зрения поиска необходимой информации. В этом плане наиболее простыми являются запросы, в которых необходимо установить наличие или отсутствие какого-либо определенного явления в описании конкретного языка. Наиболее сложными являются запросы, требующие выявления каких-либо закономерностей, являющихся общими для достаточно большой группы языков.

Похожие диссертации на Компьютерная база данных "Языки мира" и ее возможные применения