Введение к работе
Актуальность работы. Динамичное развитие рынка программного обеспечения в области Desktop Publishing (настольное издательство) внесло существенные коррективы в традиционные методы подготовки текстов, обусловив тем самым появление и развитие компьютерных словарей (КС) как неотъемлемой части любой издательской или информационно-справочной системы.
КС могут использоваться как в составе прикладных систем программного обеспечения (орфографические модули, словари для систем машинного перевода), так и самостоятельно, в виде отдельной программы. В последнем случае под КС понимается система, ориентированная на диалоговый режим работы с пользователем, являющаяся результатом переноса традиционного печатного словаря (ПС) на компьютерную основу и представляющая собой сочетание текстовой базы данных с управляющей программой.
Привлекательность КС для пользователя определяют следующие характеристики, недоступные в ПС: высокая скорость поиска информации; существенно расширенные возможности поиска, распространяющиеся на весь текст словаря и включающие поиск слов с неизвестными буквами, тематический и другие формы поиска; возможность управления представлением текста, отсутствие большинства ограничений и сокращений, компактность словаря.
Чтобы построить КС, обладающий перечисленными возможностями, необходимо разработать структуру представления данных словаря, обеспечивающую эффективную реализацию функций поиска, с одной стороны, и методы преобразования текста печатного словаря в рамки этой структуры, с другой.
Таким образом, актуальность работы обусловлена необходимостью разработки универсального комплексного подхода к решению перечисленных задач.
Объектом исследования в работе является КС как диалоговая информационно-поисковая система, представляющая собой совокупность базы данных, построенной на основе ПС и содержащей упорядоченную информацию справочного характера, и системы управляющих функций, реализующих возможность быстрого и эффективного доступа к этим данным.
Целью работы является разработка основ построения КС, имеющих оптимальную структуру и набор управляющих функций, которые позволяют получить быстрый и эффективный доступ к искомой информации.
Для достижения поставленной цели в работе были поставлены и решены следующие задачи исследования:
1) анализ и выделение основных функций компьютерного словаря;
-
анализ эффективности реализации функций поиска на структурах данных компьютерного словаря;
-
разработка принципов построения компьютерного словаря на основе печатного прототипа;
-
разработка алгоритмов преобразования текста и структуры исходного печатного словаря при формировании базы данных компьютерного словаря.
Методы исследования. При проведении исследований в работе использовались элементы теории баз данных, теории множеств, теории вероятностей, теории анализа алгоритмов и теории построения трансляторов.
Научная новизна.
В диссертационной работе были получены следующие научные результаты:
-
Разработан способ представления базы данных компьютерного словаря в в'иде совокупности дерева префиксов всех слов с одновременным кодированием текста статическим частотным кодом, обеспечивающий оптимальное соотношение между сжатием информации и скоростью поиска без дешифрации текста.
-
Разработана формализованная процедура динамического задания структуры базы данных на основе синтеза синтаксических диаграмм, обобщающих авторское описание структуры словаря и адаптированных на основании экспериментальных данных.
-
Разработана концепция методов групповой коррекции как сочетания автоматического распознавания ошибок, их классификации на базе сортировки в более крупные группы, обеспечивающие оптимальные условия и высокую эффективность работы оператора-корректора.
Практические результаты заключаются в том, что:
-
Разработаны основные принципы и алгоритмы построения компьютерных словарей на основе исходного печатного прототипа.
-
Разработан комплекс программных средств, использующий разработанные алгоритмы и структуры для автоматизации процесса создания компьютерного словаря.
Внедрение результатов работы. Работа выполнялась в рамках договора о сотрудничестве между СПбГЭТУ и фирмой POLNET (г.Варшава, республика Польша). Разработанные методы и алгоритмы легли в основу разработки следующих компьютерных словарей:
1996г. - большой толковый словарь польского языка (издательство PWN);
1998г. - словари синонимов польского языка (автор W. Cienkowski);
1999г. - большой польско-русский словарь (издательство Wiedza Powszechna).
Апробация результатов работы. Основные положения и результаты диссертационной работы докладывались и обсуждались на научно-технической конференции СПГЭТУ в 1999 гг., а также на международной конференции „Ksia.zki multimedialne і elektroniczne w edukacji і biznesie" -Instytut Maszyn Matematycznych, Warszawa, 29.X.1998.
Публикации. По теме диссертации опубликовано 3 печатные работы (статьи).
Структура и объем диссертации. Работа состоит из введения , четырех глав с выводами, заключения, списка литературы, включающего 48 наименований, и одного приложения. Основная часть работы изложена на 105 страницах машинописного текста. Работа содержит 2 6 рисунков и 5 таблиц.