Содержание к диссертации
Введение
ГЛАВА I Информационная база электронных словарей и тенденции развития современной копьютерной лексикографии 13
1.1 Электронные словари: новое распространение, новые цели 13
1.2 История использования информационных методов лексикографии до Всемирной Паутины WWW 24
1.3 Актуальные тенденции лексикографии и электронной лексикологии 42
1.4 Перспективы информационной лексикографии 57
1.5 Связь традиционной лексикографии и машинных словарей 61
Выводы по первой главе 64
ГЛАВА II Сравнительная характеристика электронных и бумажных словарей в функциональном аспекте 66
2.1 Методика анализа электронных словарей в функциональном аспекте 66
2.1.1. Анализ электронных словарей татарского языка 77
2.1.2 Анализ электронных словарей татарского и других языков 81
2.2 Стратегии поиска и консультирования пользователями электронного и бумажного словаря 89
Выводы по второй главе 108
Глава III Модель лексикографического анализа текстовой базы данных и интегрированного электронного словаря татарского языка 111
3.1 Цель и основы создания модели лексикографического анализа текстовой базы данных и интегрированного электронного словаря татарского языка 111
3.2 Протокол исследования 121
3.3 Экпериментальная проверка эффективности лексикографических навыков с помощью разработанной модели анализа текстовой базы данных и интегрированного электронного словаря татарского языка 129
Выводы по третьей главе 133
Заключение 135
Библиография 139
- История использования информационных методов лексикографии до Всемирной Паутины WWW
- Связь традиционной лексикографии и машинных словарей
- Анализ электронных словарей татарского и других языков
- Экпериментальная проверка эффективности лексикографических навыков с помощью разработанной модели анализа текстовой базы данных и интегрированного электронного словаря татарского языка
Введение к работе
Актуальность данной диссертационной работы обусловлена тем, что в настоящее время в языкознании отсутствует детальное и комплексное исследование электронных словарей татарского языка. Это ставит на повестку дня проблему систематизации существующего мирового опыта в области теории и практики электронной лингвографии, а также анализа состояния татарской электронной лексикографии с целью формирования важнейших принципов и разработки конкретных перспективных направлений развития.
Одним из актуальных направлений развития прикладной науки представляется разработка лексикографического анализа текстовой базы данных и интегрированного электронного словаря, осуществляемая на материале татарского языка.
Достижения научно-технического прогресса направлены на расширение человеческих возможностей в различных сферах деятельности. Резервом повышения эффективности общественного производства является автоматизация интеллектуальных процессов деятельности, заключающихся главным образом в создании, распространении и использовании разнообразной информации. Это, несомненно, относится и к гуманитарной науке. Изучение опыта автоматизации процедур обработки информации показывает, что в настоящее время необходимо создание специальных технологий, позволяющих оптимальным образом использовать предоставляемые компьютером возможности в области татарской лексикографии и лексикологии. Современный уровень информатизации предоставляет важное преимущество – гипертекстуальный доступ. Словарь может быть связан с другими информатизированными словарями, с базами данных, которые послужили основой для его составления. Структура электронного словаря должна удовлетворять многим условиям, так как этот тип словаря предназначен только для пользователя компьютера. Лексическая база данных, которую он включает в себя, должна быть абсолютно формализованной. Поэтому эффективное решение проблемы осуществимо на стыке двух научных дисциплин: лексикографии, имеющей большие традиции, и информативной лингвистики, которая является относительно молодой областью науки.
Объектом диссертационного исследования являются электронные и бумажные словари татарского языка как лексикографическая система и справочный материал для пользователя.
Предмет исследования – особенности разработки электронных и печатных словарей, в частности словарей татарского языка.
Цель исследования – комплексное изучение существующего опыта составления электронных словарей в свете развития татарской электронной лексикографии и разработка модели лексикографического анализа текстовой базы данных и интегрированного в него электронного словаря татарского языка.
Для достижения поставленной цели необходимо решить следующие задачи теоретического и практического характера:
- провести сравнительно-сопоставительный анализ словарей и выявить преимущества и недостатки использования бумажных и электронных словарей, перспективы их существования;
- рассмотреть историю создания словарей и основные характеристики традиционных печатных и электронных словарей;
- исследовать современное состояние татарской электронной лексикографии, определить ее особенности;
- сформулировать принципы создания татарских электронных словарей, их специфику;
- собрать данные стратегии поиска и консультирования электронными и бумажными словарями;
- выработать принципы построения лексикографического анализа текстовой базы данных и функциональной модели интегрированного словаря татарского языка и системно-структурного подхода при описании модели анализа текстовой базы данных и интегрированного татарского словаря;
- разработать структуру модели электронного интегрированного татарского словаря и принципы организации данных в моделируемом словаре;
- создать электронную оболочку лексикографического анализа текстовой базы данных с применением интегрированного электронного татарского словаря.
Цель и задачи потребовали использования следующих лингвистических методов исследования: типологического, функционального и параметрического анализа, структурного анализа. Для характеристики изучаемых объектов применены описательный метод, метод сопоставительного анализа существующих электронных и бумажных словарей и метод лингвистического конструирования интегрированной модели словаря.
Материалом диссертационного исследования послужили электронные и бумажные словари различных типов татарского, русского, а так же ряда иностранных языков. Основным источником набора словарной базы послужили «Татарско-русский словарь», 1966, (Татарча-русча сзлек) объемом 38000 слов, «Татарско-русский словарь», 1995, (Татарча-русча сзлек) объемом 25000 слов, «Толковый словарь татарского языка» в трех томах (1977-1981) (Татар телене алатмалы сзлеге) объемом 46890 слов и следующие электронные словари: Татарско-русский словарь новых слов и новых значений, Татарско-русский он-лайн словарь, Он-лайн словарь татарского языка tatsoft, Толковый словарь татарского языка Алатмалы, Толковый словарь турецкого языка Trke szlk ve Yazm Klavuzu и Словарь мари, мордовского и удмуртского языков, Lingvo Татарско-русский, Русско-татарский словарь, erene on-line tatar-rus-tatar szlege, Татарско-русский большой словарь п/р Сабиров Р.А, Комплексный Автоматический Универсальный Мультилексемный Словарь КАМУС, Казахско-русский, Русско-казахский словарь.
Научная новизна диссертационного исследования заключается в том, что впервые электронные словари татарского языка подвергаются анализу и рассмотрению в функциональном аспекте. Создана лингвистическая модель татарской текстовой базы данных с выполнением лексикографического анализа на основе интегрированного электронного татарского словаря в текстовую базу данных с возможностью его пополнения; создана электронная оболочка для лексикографического анализа текстовой базы данных и интегрированного электронного словаря, применимая для создания подобных словарей в других языках.
Теоретическая значимость проведенного исследования состоит в разработке концепции лексикографического анализа электронной текстовой базы данных на основе электронного интегрированного татарского словаря, что является определенным вкладом в развитие прикладной татарской лексикографии. Исследование позволяет расширить арсенал известных средств моделирования электронных словарей в татарской лингвистике. В работе представлена целостная картина современного состояния мировой и татарской электронной лексикографии и намечены перспективные направления ее развития. Основные положения и выводы комплексного анализа способствуют дальнейшему углублению и расширению исследовательской базы в области татарской лексикологии и лексикографии.
Практическая значимость диссертационного исследования заключается в том, что реализованная модель анализа татарской текстовой базы данных и функциональная модель интегрированного татарского электронного словаря является основой для создания татарских электронных интегрированных словарей, и предназначена, в первую очередь, для лексикографов-практиков. Словарь может быть использован студентами, школьниками и широким кругом пользователей и как учебный материал. Теоретические положения могут быть использованы в преподавании курса лексикографии, а также при обучении татарскому языку.
Методологической основой проведенного исследования является теория общей и двуязычной лексикографии. Наиболее значимым в предпринятом исследовании представляется анализ, отраженный в работах В.М.Андрющенко, А.Н.Баранова, Л.Н.Беляевой, В.П.Беркова, В.Г.Гака, А.С.Герда, П.Н.Денисова, В.В.Дубчинского, Ю.Н.Караулова, Н.Н.Леонтьевой, Ю.Н.Марчука, В.В.Морковкина, С.В.Никитиной, А.А.Поликарпова, В.Д.Табанаковой, З.М.Шаляпиной, Л.В.Щербы, и др. Среди исследований, посвященных вопросам татарской лингвистики и лексикографии, можно отметить работы: М.М.Аюпова, Р.Г.Бухараева, К.Р.Галиуллина, Г.В.Галиуллиной, А.И.Еникеева, И.И.Сабитовой, Ф.С.Сафиуллиной, Д.Ш.Сулейманова и др. В ходе работы были использованы материалы различных исследований на английском и французском языках, относящихся к проблематике данной работы. В зарубежной лексикографии широко представлены труды, посвященные проблемам электронной лексикографии, словарям на электронных носителях, а также теории и практике создания различного рода автоматизированных справочных, словарных, переводческих систем. Среди этих работ можно выделить: R.Blain, B.Bougaraev, P.Bouillon, E.J.Briscoe, R.J.Byrd, N.Calzolari, M.Chodorow, K.W.Church, A.Clas, L.Clause, J.Clear, J.Dancette, Ch.Dupriez, D.Dutoit, J-L.Ferre, W.N.Francis, F.Gruhier, R.K.K.Hartmann, G.Hatherall, P.Hanks, T.Heth, M.Kay, P.Longuet, W.Meijs, J-F.Mostert, E.Picchi, J.A.H.Potet, J.Pruvost, B.Quemada, Th.Selva, D.Walker, H.E.Wiegand, R.Wooldridge, A.Zampolli, L.Zgusta и др.
На защиту выносятся следующие положения:
1. Результаты анализа электронных словарей татарского языка свидетельствуют о функциональной ограниченности большинства из них по сравнению с электронными словарями европейских языков. Научная концепция развития электронных словарей татарского языка находится на стадии формирования.
2. Изучение и обобщение опыта существующей мировой и отечественной лексикографии и анализ бумажных и электронных словарей позволяют создать эффективную модель лексикографического анализа базы данных и интегрированного электронного словаря татарского языка.
3. Концепция интегрированного словаря татарского языка основывается на принципе свободы лексикографических параметров и функциональной вариативности словаря, возможности его корректировки, дополнения, выбора и совмещения разных словарных параметров и функций. Словарь является универсальным, полифункциональным, реализующим систематизирующую, нормативную, справочную, учебную функции.
4. Отражение точной семантики леммы в электронном словаре татарского языка требует контекстуального описания средствами именно татарского языка. Для этих целей словарь должен быть интегрирован в модель лексикографического анализа текстовой базы данных на татарском языке и представлять собой универсальный инструмент, обеспечивающий возможность работы с большим корпусом текстов.
Апробация работы. Основные положения диссертации были представлены на следующих конференциях: Всероссийская тюркологическая конференция «Урал-Алтай: через века в будущее» (Уфа, 2008, 2010), Научно-практическая конференция молодых ученых и аспирантов Института языка, литературы и искусств им. Г.Ибрагимова (Казань, 2008). Результаты исследования обсуждались на заседаниях отдела лексикографии Института языка, литературы и искусств им. Г. Ибрагимова. Основные положения и выводы исследования отражены в 6 публикациях, в том числе в издании из списка рекомендованных ВАК.
Структура и объем работы определяются ее исследовательскими задачами и целью, отражают основные этапы и логику исследования. Диссертация состоит из введения, трех глав, заключения, библиографического списка и приложений. Работа объемом в 199 страниц включает 4 приложения и список литературы из 222 наименований.
История использования информационных методов лексикографии до Всемирной Паутины WWW
Словари с давних пор являются частью ресурсов, которые используют педагоги, ученики, переводчики; в общем смысле можно даже утверждать, что этот тип произведения приходит на помощь любому, кому он встречается в то или иное время при трудностях в создании или понимании текста. Словарь - это собрание единиц естественного или искусственного языка, обычно снабженных той или иной семантической информацией и расположенных в определенном порядке (чаще в алфавитном или идеографическом) [Герд, 1997: 191]. В основе построения словаря лежит принцип системности, иерархии, который В.В.Дубчинский относит к «лексикографическим универсалиям» [Дубчинский, 1998: 32]. В тот момент, когда совершенствование в языке становится стрежневым, тогда актуальность и необходимость в словарях становится капитальной. На современном этапе развития языкознания, стремление представить лингвистические материалы различного характера в виде языкового словаря становится важным, и словари приобретают «все большую роль в накоплении и передаче информации» [Гак, 1990: 462]. Появляется необходимость в лексикографирование синтаксических свойств слова [Апресян, 1997; VIII-XII], так как слова каждого языка образуют систему [Щерба, 1974]. Бумажный словарь, по своей материальной природе трудно иметь в наличии постоянно для многих пользователей. С другой стороны, в то время когда Интернет выгодно представляет зафиксированность языка на данный период времени, печатные словари становятся дорогостоящими как для издателей, так и для читателей. Электронные словари представляют проблемы в других аспектах, освобождаясь от материальных противоречий производства словарей. Электронный словарь преодолевает одну из трудностей создания бумажных словарей: чем больше объем лексических единиц, тем сложнее и дольше его издавать [Мандрикова, 1995: 16-17; Сивакова, 2004: 29-31].
На нашем опыте с электронными словарями, продемонстрируем как инструменты поиска трансформировались в ресурс ссылок; в частности, постараемся отследить эволюцию, накладываемую эмфатическим принятием поведения пользователей по отношению к ресурсам в сети. Эта эволюция отразилась на эргономии или доступности словаря, а также на его содержании, что сделало его инструментом помощи в письме и правописании.
В настоящее время проблема лексикографической презентации метаязыковых единиц признается «одной из важнейших как в теоретическом, так и в практическом плане» [Гак, 1990: 462]. Электронный словарь рассматривается специалистами как «важный шаг на пути нормализации и унификации языка..., как основное средство систематизации» [Герд, 1996: 288]. Задачи внедрения национальных языков в информационные технологии актуальны практически для всех языков народов Российской Федерации, в том числе для тех языков, которые представлены в Республике Татарстан [Аюпов, 2006: 36-39].
Достигнув определенного уровня развития, научное знание стремится к более компрессированным формам, к переходу на более удобный тип научной информации [Blain, 1997: 35-38].
Структура электронного словаря должна удовлетворять многим условиям. Так как этот тип словаря предназначен только для пользователя компьютеров, лексическая база данных, которую он включает в себя, должна быть абсолютно формальной. Лексические свойства, которые определяют каждый из входов, должны быть максимально ясными и доступными для автоматического распознавания любого письменного текста. Это приводит к тому, что сходство базы данных должно быть максимально исчерпывающим для идентификации не только слов, которые уже занесены в список, но также для слов, не включенных в словарные работы или для новых слов, о значении которых можно догадаться по конструкции. По мнению В.В.Дубнинского, основной задачей при формировании словарной статьи является устранение неопределенности относительно значения слова [Дубнинский, 1998: 35]. Проблема семантизации лексем в словарях вообще, и в татарских словарях, в частности, до сих пор не решена. В.Д.Табанакова отмечает, что существует два варианта понимания семантизации. В более широком смысле, речь идет об осмыслении обнаружении смысла. В более узком смысле - понимается совокупность способов раскрытия значения [Табанакова, 1997: 177].
Встает вопрос об отношениях, которые можно установить между составом лексической единицы и электронными словарями. Очевидно, что, с одной стороны, даже если разберем все словари, энциклопедии, глоссарии, тезаурусы и бесчисленные технические словари, будь то бумажные или электронные, этого было бы не достаточно. Состав лексической единицы языка, с другой стороны, является важным рычагом для ее узнавания и распространения, а представление лексического богатства данного языка как можно полнее не может ограничиться анализом процесса образования лексической единицы с целью ее интеграции в систему.
Нужно напомнить, что общие словари и энциклопедии имеют неизбежные, объективные по характеру пробелы и упущения. Компиляция лексических входов этих работ, по данным прикладной статистики в лексикометрии или квантитативной лексикологии, более всего отвечает критериям частоты, чем наличию и возможности использования, и нескольких тысяч слов, которые они содержат, вполне достаточно, чтобы обеспечить потребности пользователей. Также известно, что возможности разработки словарей в настоящее время очень сильно зависят от социально-экономических противоречий, накладываемых на бумажную работу, документальные, редакционные и издательские проблемы, которые появляются в издательствах. Уважая концепции нормы, отклоняются слова, которые считаются оскорбительными, а также устаревшие слова, специфические технические термины и т.д. С момента появления словарей наш менталитет изменился, и считаем сейчас словари или энциклопедии единственным авторитетным источником слов, которые действительно относятся к литературному языку, вследствии чего «словарь устраняет расхождение между индивидуальным знанием и знанием всего коллектива» [Гак 1977: 12].
Связь традиционной лексикографии и машинных словарей
Если проанализировать контексты, станет ясно, что каждая структура под-категоризации может быть часто связана с одним или несколькими значениями слова, и считаем необходимым использовать эти структуры как помощь в исключении случаев двусмысленности. Проанализировав соотношения, можно получить данные относительно: - синтаксических структур; - их порядка и частоты, и следовательно, их респективной обоснованности для пользователя; связи с другими словами и классами слов (на синтаксическом и семантическом уровне); основных значений слова; корреляции между значениями слова и синтаксическими структурами. Нужно отметить, что важно обратить внимание на разные типы текстов, и хорошее равновесие в рассматриваемом корпусе необходимо, так как данные частоты (на любом уровне - лексическом, синтаксическом, семантическом, коллакации и т.д) - могут быть очень разными, согласно типам текстов.
Исследуем слово китап (книга) на этот раз в связи с другим типом информации предоставляемым текстами. Если рассмотреть глаголы, связанные со словом китап в татарском словаре, заметим, что ни укырга (читать), ни язарга (писать) не находятся среди этих глаголов. Подобная аналогия была уже проведена в отношении английских словарей [Bogaraev, 1989], так как это не вопрос случая, мы видим очевидную схожесть между словарями разных языков. Среди определений этих глаголов, мы находим обычно слова более общие, связанные с печатными изданиями, такие как хэрефлэр, язу, текст, эсэр, эдэбият (буквы, написание, текст, произведение). Слово китап (книга ) фигурирует в некоторых примерах, но связь не может быть установлена напрямую, имея ввиду, что слово китап (книга) определяется с таких слов как том, эсэр (произведение), то есть те же слова, которые появляются в определениях этих глаголов.
Анализируя обширный корпус с миллионами слов в их контексте, необходимо, в определенном смысле, узнать и описать: оттенки значений, которые не описаны в коммерческих словарях; отнсительную частоту разных смыслов слов и разных синтаксических моделей/форм; и особенно, грамматические/синтаксические указатели, благодаря которым, в частности, может быть достигнута семантическая недвусмысленность; имея ввиду, что в присутствии разных синтаксических составляющих, обычно, смысл слова меняется, но и наоборот, у нас нет необходимости только в одном смысле для одной синтаксической структуры.
Когда собираем этот тип данных для определенного числа слов, очень часто замечаем, что соотносим его с эффективным использованием языка, эти данные должны быть реорганизованы способом отличным от расположения адаптированного стандартными словарями. Также, для того, чтобы автоматизировать поиск типа информации напрямую с корпуса, нужно сначала отметить корпус по разным грамматическим категориям [Calzolari 1989: 516]. Процедуры поиска по образцу должны быть эксплицитно активированы для получения типа данных, которых ищем (то есть препозиционные фразы, комплетивные, инфинитивные предложения и т.д). Стратегия поиска синтаксических указателей для семантической недвусмысленности (которая используется для разных переводов одного слова) сейчас разрабатывается во многих зарубежных институтах, например, в проектном пилоте многоязыкового контекста в Институте компьютерной лингвистики г. Пиза, Италия.
Важность сотрудничества между исследователями, которые работают в области языка, очевидна, если иметь в виду, что необходимо работать с большими корпусами текстов для получения лучшей базы языковых знаний. Проект этих больших интегрированных баз лингвистических знаний, разрабатываемый в Институте компьютерной лингвистики г. Пиза, Италия, может стать целью проекта по сотрудничеству, в котором типичные данные, инструменты, процедуры, знания, возможности, результаты и т.д. двух секторов - языкового и технического - должны работать параллельно, сотрудничать и взаимодействовать между собой.
Модель интеграции, проиллюстрированная рабочей станцией лексикографов, представлена в Пизе (Calzolari, Picchi, Zampolli). Подразумевается, что это будет модулируемая система, где проинтегрированы разные типы данных и процедур. На уровне данных лексикографическая рабочая станция включит в себя базу текстуальных данных, одну или несколько одноязычных лексических баз данных, антологично таксономической информации, двуязычные лексические базы данных, корпус ссылок, в то время как на уровне процедур она будет нести в себе морфологический инструмент, анализаторы словаря, оператор гипонимии, систему поиска информации, программу лемматизации, процедура поиска по образцам для определений словаря, инструмент проверки и т.д.
Эта серия составляющих, сложных и разнообразных, отражает видение требований интеграции и взаимодействия между данными и традиционными устоявшимися средствами. Важно реализовать эффективное сотрудничество между многими группами ученых с целью связать области, которые до настоящего времени не были в тесных отношениях.
Связь традиционной лексикографии и машинных словарей
Все участники видят пользу в аннотациях. Действительно, эта функция может служить помощью для записи контекста перевода, новых смыслов, специализированных терминов, собственного перевода для клиента, комментариев по использованию и коннотации.
Участники считают, что вызов словаря во время работы над текстом может быть полезным, особенно тем, кто пользуется такой программой во время перевода. По их словам, эта функция может ускорить и облегчить доступ к словарю, а также увеличить частоту консультирования по словарю.
По словам участников, эта функция может быть очень практичной, если пользователи работают со многими словарями на CD одновременно, и, если у них нет второго дисковода, или, если ни не в сети. Установка словаря на жесткий диск может также ускорить время доступа к словарям.
Участники опроса хотели бы видеть в электронных версиях больше входов, составных слов, примеров и выражений. Они хотели бы также, чтобы создатели словарей на электронных носителях предложили пользователям возможность доступа к текстам словаря.
Часть участников считают, что мультимедийный аспект на CD (иллюстрации, звуковые части, короткометражные видео) являются более или менее полезными для перевода. По их мнению, эта технология адресована скорее к другим группам пользователей, например, к начинающим.
Несколько участников заметили, что их частота консультирования увеличилась с тех пор, как они стали пользоваться электронными словарями. По словам одного участника, облегченность доступа могла бы навредить процессу перевода, так как у некоторых переводчиков могла бы развиться зависимость к их словарям, вместо того, чтобы доверять контексту или своим собственным знаниям.
Пять человек от общего числа ответили, что электронные словари не могут заменить им бумажные, и это по причине доступности: только некоторые люди имеют доступ к компьютеру или к словарям на электронных носителях. Более того, экраны компьютеров ведут к зрительной утомляемости. Шестой человек думает, что бумажные словари будут исчезать из обращения, так как электронные словари ускоряют процесс консультирования, они более удобные для людей, которые работают за компьютером, и они не заполоняют рабочий стол.
Участники назвали некоторые недостатки, которые представляют электронные словари: пользователи могут испытать технические проблемы; они теряют аспект ощутимости бумажных словарей; у них меньше шансов встретить случайно интересную информацию или сведения, потому что со словарями на электронных носителях не происходит пролистывания.
Тест, о котором говорилось выше, имел целью пронаблюдать за поведением 12 человек во время пользования тремя электронными словарями и бумажными словарями. Этот тест позволил сделать следующие выводы: обычно более удобно и быстрее смотреть вход в его ансамбле, а также его разделения смыслов и работать с отдельным блоком на бумаге, чем на экране; обычно быстрее искать отдельное слово во входе или находить выражение, состоящее из многих слов, несущих смысл в электронном словаре, чем в бумажном; среднее время консультирования показывает, что участники, более комфортно работают с бумажными словарями, чем с электронными словарями, потому что они насчитывают многие годы опыта работы с бумажной версией и они много пользуются именно ей; участники сделали меньше ошибок с электронными словарями, чем с бумажными словарями, возможно, потому что возможности поиска на CDROM позволяют обработать большое количество сведений быстро и эффективно.
Данные экспериментальной проверки подтверждают эффективность формирования лингвистических и лексикографических навыков с помощью компьютерного словаря, однако скорость работы немного выше с бумажными словарями. Полученные результаты имеют естественное объяснение. Работа с лексикой и текстами обычно воспринимается как утомительное занятие, отнимающее много времени из-за необходимости постоянного обращения к словарю. Электронный словарь позволяет существенно облегчить и ускорить этот процесс.
До недавнего времени лексикография считалась одной из наиболее консервативных областей лингвистики. Это объяснялось тем, что традиционный бумажный словарь требовал многолетнего труда по сбору языкового материала путем эксцерпирования письменных источников, использования картотек. Современная лексикография становиться более прогрессивной и перспективной в плане создания активных электронных словарей на базе информационных технологий, что позволяет гарантировано в сжатом объеме собирать, хранить, накапливать и перерабатывать лексикографическую информацию.
Различные методы анкетирования, которые применены для определения преимуществ и недостатков бумажных и электронных словарей, явились объективными параметрами для анализа словарей.
Традиционные словари значительно отстают от языковой реальности. Электронные словари, в свою очередь, можно пополнять практически ежедневно. Электронный словарь принципиально может обойти ключевое противоречие книжной лексикографии: чем больше информации предлагает словарь, тем объемнее и прогрессивнее научный аппарат. Современные электронные словари не только существенно превосходят по объему книжные, но и находят искомое слово или словосочетание за несколько секунд. Для пользователей преимуществами компьютерного словаря являются возможность входа через любую характеристику, возможность манипулирования большими объемами информации, возможность организовать информацию в виде гипертекста. Преимуществами бумажного словаря пользователи называют привычность использования, значительную точность работы над лексемами, хотя и ущерб скорости.
Идея создания татарских компьютерных словарей послужила предметом многочисленных дискуссий, результатом которых стало создание таких электронных словарей on-line как perenche on-line tatarcha-ruscha su zlek (http://www,suzlek.ru/\ Татарско-русский он по лайн словарь (www.tatar.com.ru/tat-ms.php\ Он-лайн словарь татарского языка tatsoft (http://tatsoft.biz/vocabulary/translate) Татарско-русский словарь новых слов и новых значений (www.chelny.su/down/file_75/); словари на электронных носителях: Комплексный Автоматический Универсальный Мультилексемный Словарь КАМУС, Татар теленец ацлатмалы сузлеге.- Jahat Lab., KAI, 2004, ABBYY Lingvo 12. Многоязычная версия. Электронный словарь, 2009 - татарский язык. Из представленных электронных словарей только Lingvo и КАМУС отвечает современным требованиям, которые предъявляются к электронным словарям, остальные являются упрощенной версией бумажных словарей, часто представляющих из себя список слов с переводом.
Экпериментальная проверка эффективности лексикографических навыков с помощью разработанной модели анализа текстовой базы данных и интегрированного электронного словаря татарского языка
Разработка и использование компьютерных словарей, даже локальных по содержанию, внедренных в электронный анализ тексов, позволяет исследовать лексику как системно-структурное образование. На данном этапе реализации этого лексикографического проекта, его можно отнести к жанру экспериментального словаря, в том его осмыслении, которое предложено С.Е.Никитиной и Н.В.Васильевой: «Экспериментальный... значит новый, опробованный на ограниченном материале, ориентированный на продолжение, проверку. [Никитина СВ., Васильева Н.В., 1996: 3].
Наша концепция разрабатывается на основе авторской установки с учетом анализа имеющихся словарей, типологические параметры, которых должны присутствовать в татарском электронном словаре.
По мнению H.E.Wiegand, следующие шаги должны быть предприняты для создания словаря: а) планирование словаря (the dictionary plan); б) разработка основы (the lexicographic file) , в) написание текста словаря (dictionary), [Wiegand Н.Е., 1983: 17]. Авторская установка предполагает для чего и для кого создается словарь. В связи с этим определяются языки словаря, адресная ориентация, тематическая и функциональная направленность, типологическая принадлежность словаря, а также источники словаря, принципы отбора лексем в словник и метаязык словаря.
Задача данного проекта заключается в автоматизации процесса работы с текстовой базой данных и интегрированным татарским словарем, упрощении поиска необходимых слов. Информационная система типа "гипертекст" предназначена для систематизации текстовой информации. Информация, отображенная при поиске, представляется в удобном для ее дальнейшей обработки виде. Пользователь, работая с данной моделью словаря, повышает свои познания, и часто в ходе самого процесса ознакомления перестраивая направление своего мышления.
С точки зрения адресной ориентации, моделируемый словарь предназначен широкому кругу пользователей.
Интегрированный словарь татарского языка предлагает новые способы авторской работы. Авторская работа во многом есть структуризация мыслей, их упорядочение для представления, концептуальное исследование. По тематической направленности словарь является общеупотребительным татарско-русским словарем. По функциональной направленности, словарь является полифункиональным, так как предназначен для широкого круга пользователей. Создание полифункциональных словарей является одной из характерных особенностей современной лексикографии [Dupriez, 1996:64]. Полифункциональность словаря, заключается в том, что в нем должно быть реализовано несколько словарных функций: справочная, нормативная, учебная и систематизирующая.
С функциональной направленностью тесно связана типологическая принадлежность словаря. Она характеризуется включением в словарь определенного набора лексикографических параметров, относящих словарь к тому или иному типу [Шеллов, 2004: 20-42]. Моделируемый словарь принадлежит к смешанному типу, так как сочетает в себе типологические признаки словаря-тезауруса, толкового и переводного словаря.
В понятие матаязык словаря входит естественный национальный язык, на котором осуществляется описание входных единиц, а также различные лексикографические символы, пометы, сокращения. В качестве естественного языка описания (в дефинициях) используется русский язык.
Новизна словаря, обуславливающая его экспериментальное - это презентация результатов по анализу текстовой базы данных с помощью интегрированного в систему электронного словаря татарского языка. Цели и задачи, стоящие перед автором при описании принципиально нового для татарской лексикографической практики материала, обусловили необходимость разработки модели лексикографических параметров, отличающихся от классических татарских словарей.
Практическая и теоретическая значимость проекта заключается в том, что составленный словарь может быть использован как пользователями, изучающими татарский язык, так и профессиональными лексикографами для работы над большими корпусными текстами, их анализа и электронного редактирования словарных статей. Типичная словарная статья экспериментального словаря может включать в себя несколько словарных зон. Прежде всего, это заголовочный термин, его грамматические характеристики, переводной эквивалент, лексикографическая дефиниция, пометы и может быть иллюстрация. Электронный словарь практически снимает проблему, которую поднимает В.В.Дубнинский в своей, работе «Теоретическая и практическая лексикография», «в теоретической лексикографии закономерно возникает противоречие словаря: систематизированный подход к описанию различных языковых единиц и их группировок существует наряду с традиционной подачей языкового материала в алфавитном порядке» [Дубчинский, 1998: 37]. В основе электронного словаря лежит не алфавитный список слов, а их определенные систематизированные характеристики [Heth, 1992: 44]. Представление лексем по алфавиту является лишь конечным этапом их лексикографического отражения, так как она расчитана на практическое удобство пользования словарем.