Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Методы и алгоритмы извлечения данных из словарных текстов : на примере Словаря русского языка XI - XVII вв. Дубашов, Алексей Евгеньевич

Методы и алгоритмы извлечения данных из словарных текстов : на примере Словаря русского языка XI - XVII вв.
<
Методы и алгоритмы извлечения данных из словарных текстов : на примере Словаря русского языка XI - XVII вв. Методы и алгоритмы извлечения данных из словарных текстов : на примере Словаря русского языка XI - XVII вв. Методы и алгоритмы извлечения данных из словарных текстов : на примере Словаря русского языка XI - XVII вв. Методы и алгоритмы извлечения данных из словарных текстов : на примере Словаря русского языка XI - XVII вв. Методы и алгоритмы извлечения данных из словарных текстов : на примере Словаря русского языка XI - XVII вв. Методы и алгоритмы извлечения данных из словарных текстов : на примере Словаря русского языка XI - XVII вв. Методы и алгоритмы извлечения данных из словарных текстов : на примере Словаря русского языка XI - XVII вв. Методы и алгоритмы извлечения данных из словарных текстов : на примере Словаря русского языка XI - XVII вв. Методы и алгоритмы извлечения данных из словарных текстов : на примере Словаря русского языка XI - XVII вв.
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Дубашов, Алексей Евгеньевич Методы и алгоритмы извлечения данных из словарных текстов : на примере Словаря русского языка XI - XVII вв. : диссертация ... кандидата технических наук : 05.13.06 Москва, 2006

Содержание к диссертации

Введение

Глава 1. Анализ методов и систем лексикографической обработки текста 9

1.1 Создание словаря 9

1.2 Анализ методов лексикографической обработки текстов 17

1.3 Анализ существующих систем лексикографической обработки текста 31

1.4 Постановка задачи 38

Выводы по первой главе 42

Глава 2. Исследование частотных и динамических характеристик словарных текстов

2.1. Анализ использования источников 43

2.2 Частотный анализ текста Словаря РЯ XI-XVII вв 46

2.3 Получение статистического закона распределения слов в законе Ципфа и предсказание объема словаря 50

2.4 Исследование динамики появления новых слов в тексте Словаря русского языка XI-XVI1 вв 60

Выводы по второй главе 19

Глава 3. Технология получения словарных материалов недостающих томов словаря

3.1 Магазинный автомат, распознающий структуру словарной статьи класса исторических словарей 81

3.2 Разметка словарных текстов 95

3.3 Формирование словарных статей 107

Выводы по третьей главе 115

Глава 4. Использование разработанного средства для получения электронной версии недостающих томов словаря

4.1 Система разметки словарных текстов и занесения их в структуры БД 116

4.2 Система создания и ведения лексикографических картотек WinDialex 122

4.3 Формирование словарных статей. Флотация 135

4.4 Лексикографическая библиотека 142

Выводы по четвертой главе 147

Выводы и заключение 148

Литература 150

Введение к работе

Повсеместное использование информационных технологий привело к возникновению задач, при решении которых необходима обработка больших массивов информации, приведение ее к единой структуре, извлечение необходимых данных, автоматизация процессов формирования каталогов и архивов. Этот класс задач в целом называют извлечением данных [40] (в иностранной литературе[40] data mining). Лексикография не является исключением, поскольку занимается обработкой больших массивов текстов, их структуризацией, а также извлечением из них информации.

Институт русского языка им. В.В. Виноградова РАН с 1975 года издает Словарь русского языка (СлРЯ) XI - XVII вв., который на сегодняшний момент состоит из 27 томов. По своему типу это исторический словарь, цель которого состоит в том, чтобы наиболее полно представить лексику соответствующего временного периода.

В настоящее время это наиболее полный исторический словарь русского языка. Он используется в первую очередь учеными - филологами, изучающими историю русского языка по древним памятникам письменности, этимологами, специалистами по истории культуры, нуждающимися в профессиональном справочнике, и многими, кто интересуется историей употребления слов. Материалы СлРЯ легли в основу многих научных исследований [107,39].

Основную ценность, и сложность создания СлРЯ представляет цитатный материал, поскольку берется из древних источников, рукописей. Для получения цитатных материалов словаря лексикографу необходимо провести отбор источников, анализ текстов и отдельных словоупотреблений, составление словников и словоуказателей и т. д., что требует значительных затрат времени и труда; «Каждый памятник, изучаемый по рукописи, требует всестороннего исследования. Даже на этапе словоделения необходимо учитывать особенности графической системы рукописи, фонетические и морфологические

5 явления, современные памятнику и более древние, которые могли сохраниться от протографа. Поскольку переписывание рукописей было многократным, графико-орфографическая система древнерусских рукописей не бывает простой и однозначной» [13, стр. 141]. Более детально о проблемах исследования текстов допечатной эпохи см. [2].

Работа над СлРЯ началась с создания "Картотеки древнерусского словаря" (Картотеки ДРС) [23] - огромного архива, где на рукописных карточках находятся выписки из памятников письменности русского языка XI-XVII вв. Временем зарождения Картотеки и СлРЯ считается 1925 год. А первый выпуск СлРЯ (буквы "А" и "Б") появился лишь через 50 лет в 1975 году. В 2005 году передан в печать 27-й выпуск (буква "С").

Таким образом, тома СлРЯ, к настоящему времени включают слова, начинающиеся с букв «А» - «С». Тома, включающие слова, начинающиеся с буквы «Т», отсутствуют. Основная проблема состоит в том, что цитатный материал на недостающие буквы словаря, имеющийся в картотеке, не обработан из-за недостаточности необходимых для этого ресурсов (материальных средств, кадров и др.). Работы по созданию томов, начинающихся с буквы «У», не производятся классическим путем уже с середины 80-х годов из-за недостатка ресурсов, идут поиски альтернативных путей получения словарных материалов этих томов. Поэтому создание новой технологии для получения материалов недостающих томов СлРЯ, является актуальной - это позволит продолжить издание неоценимого по своей значимости источника знаний о слове.

В настоящей диссертационной работе в качестве источника словарных материалов используются цитатные материалы изданных томов СлРЯ. Так как качество получаемого результата является первоочередным критерием, то словарный материал необходимо преобразовать в структурированный формат на машинном носителе, потому что работа напрямую с неструктурированным текстом СлРЯ увеличивает количество ошибок.

Существующие разработки, направленные на автоматизацию лексикографической деятельности (Dialex[47], Interlex[115], LemmaLex, MultiCon-cord, Фиеста (FIESTA - Fast Interactive Editor of Scripture and Text Analysis) Летнего института лингвистики, WordCruncher фирмы ETC ~ Electronic Text Corporation) предназначены, для автоматизации создания словарей из текстов цитатных источников (в качестве источника данных они используют текст). Другие системы, такие, как «УНИЛЕКС» [61], тоже предназначены для-создания словарей из источников, хотя имеют возможность импорта готового словаря. Однако эта задача является не основной, таким образом, качество выполнения разметки словарных статей и занесения в базу данных (далее БД) не устраивает.

Целью настоящей диссертационной работы является разработка методов и алгоритмов получения машинной версии будущих томов Словаря русского языка XI-XV1I вв. на основе словарных материалов существующих печатных изданий его томов.

Для достижения поставленной цели в диссертации решаются следующие задачи:

  1. Анализ существующих методов и систем лексикографической обработки текста в части извлечения информации из текста (Глава 1).

  2. Анализ текста существующих томов словаря РЯ XI-XVII вв. с целью получения его количественных и частотных характеристик (Глава 2).

  3. Исследование динамики появления новых слов в тексте словаря и прогноз получаемого словарного объема машинной версии словаря (Глава 2).

  4. Разработка методики разметки словарных текстов для занесения полей словарных статей в структуры БД с целью ее последующей обработки (Глава 3).

  1. Разработка метода получения машинной версии недостающих томов словаря (Глава 3).

  2. Реализация распознавателя словаря в виде программного комплекса (Глава 4).

  3. Реализация программного средства получения машинной версии словаря (Глава 4).

  4. Реализация программного средства для проведения анализа текста словаря (Глава 4).

  5. Разработка критериев оценки качества словаря и оценка получаемого словаря (Глава 3).

В работе был разработан программный комплекс, производящий разметку словарных статей и занесение их в базу данных, осуществляющий пополнение цитатного материала методом «флотации», а также реализующий наиболее общие лексикографические функции. Данный программный комплекс используется в Институте русского языка им. В.В. Виноградова РАН, а также в учебных целях в МГТУ им. Н.Э. Баумана на кафедре ИУ5.

В главе 1 «Анализ методов и систем лексикографической обработки текста» анализируются существующие методы извлечения информации из текста, рассматриваются известные методы обработки естественно языковых текстов, проводится анализ структуры словарной статьи, предлагается технология обработки СлРЯ для получения словарных материалов недостающих томов, проводится анализ существующих систем лексикографической обработки текстов применительно к задаче разметки текста словарной статьи, ставится задача для разработки технологии получения словарных материалов недостающих томов.

В главе 2 «Исследование частотных и динамических характеристик словарных текстов» представлены результаты частотного анализа текста СлРЯ XI-XVII вв. Проведен анализ динамики появления новых слов в тексте СлРЯ. Была предложена формула для расчета параметров закона Ципфа и оценена ее точность на эксперименте. Также были предложены формулы для прогно-

8 за словарного запаса текста и оценена их точность и произведено сравнение характеристик предложенных методов друг с другом и с методом, предложенным Ю.К. Орловым [86]. Произведен расчет количества заголовочных слов на букву «У», которое можно получить из 24 томов.

В главе 3 «Технология получения словарных материалов недостающих томов словаря» представлен результат разработки магазинного автомата для распознавания структуры словарной статьи класса исторических словарей. Описан метод распознавания последовательностей для распознавания полей словарной статьи, которые можно представить в виде словаря возможных вариантов. Представлена методика разметки словарных статей СлРЯ XI-XVII вв. Введено и обосновано понятие «флотации». Предложен метод формирования словарных статей для получения словарного материала недостающих томов словаря, предложен метод осуществления лемматизации (т.е. приведение к начальной форме) древнерусских слов, предложены критерии оценки качества словаря и проведена оценка качества получаемого словаря.

В главе 4 «Использование разработанного средства для получения словарных материалов недостающих томов словаря» дано описание разработанного программного обеспечения, рассмотрен процесс формирования словарных статей методом «флотации». Приводится описание реализации компонент программного комплекса.

В приложении приводится отрывок результата построения словарных материалов для тома СлРЯ на букву «У».

Алгоритмы извлечения данных из лексикографических текстов используют методы дискретной математики [26] (теорию формальных языков и грамматик), теорию реляционной алгебры, теорию вероятностей и математической статистики.

Анализ методов лексикографической обработки текстов

Для того чтобы понять, какие методы могут быть применены для разбора словарной статьи, следует определить ее как объект. Словарная статья «предстает перед нами как основная единица метаречевого общения, как сложный предмет метаречи, как то, что сказывается (сообщается) в словаре о заглавном слове - основном объекте словарного описания» [31, стр. 25]. Т.е. словарная статья - это прежде всего связный текст, в котором, как и в других видах текста (акты, деловая перепись и т.д.) имеются свои правила. Словарная статья представлена метаязыком, под которым в широком смысле понимается совокупность лексикографических параметров, отражающая все сведения, передаваемые словарями о структуре данного языка, его истории, распространении и функционировании. Метаязыком в узком смысле этого термина можно назвать язык описания значений в толковом или переводном словаре, язык дефиниций [4]. Математическая модель словарной статьи современного словаря русского языка описана в [62], где предлагается структуру словарной статьи считать иерархической.

Приведем известные методы, применяемые для извлечения данных из текстов. Классификация методов распознавания словарных текстов с точки зрения используемой математического аппарата может быть представлена следующим образом: 1. Методы с жестким алгоритмом; метод разбора текста по жестко заданному алгоритму; эмпирический метод поиска известных атрибутов [65]. 2. Методы дискретной математики: регулярные грамматики (конечные автоматы); контекстно-свободные грамматики. 3. Стохастические методы: скрытые марковские модели; нейронные сети. 4. Комбинированные методы. Рассмотрим подробнее эти методы применительно к задаче разметки структуры текста словаря. Метод, производящий разбор текста по э/сестко заданному алгоритму Преимуществом этого метода является его простота и скорость реализации. При достаточно простой структуре словарной статьи он может оказаться очень удобным. Однако если требуется разобрать сложную словарную статью (например, статью СлРЯ XI-XVII вв. с несколькими уровнями вложенности семантик), алгоритм распознавания усложнится, и простота данного метода станет не очевидной. При простом же алгоритме эффективность распознавания статьи СлРЯ XI-XVII вв. может оказаться неприемлемо низкой. Самым простым способом различения одного поля словарной статьи от другого являются знаки препинания, которые их разделяют (напр. толкование заканчивается точкой). Некоторые поля (шифр источника, дата и др.) не распознаются с помощью знаков препинания, т.к. они сами содержат знаки препинания; кроме того, в тексте возможны появления сокращений, которые могут быть ошибочно приняты за конец предложений. Требуется выбор потенциально возможной структуры из альтернативных вариантов. Это является причиной «загромождения» алгоритма. Из-за вложенности структур словарных статей, а также потенциально сложного алгоритма распознавания полей следует, что простой и эффективный распознаватель на основе данного подхода для разработки распознавателя СлРЯ XI-XVII вв. создать невозможно: распознаватель будет либо громоздким, либо неэффективным. Применительно к разбору словарной статьи в СлРЯ X1-XVII вв., структура которой меняется от тома к тому, требуется возможность настройки распознавателя под структуру словарной статьи. Рассматриваемый метод этого не предполагает. Недостатком этого подхода является также и то, что он не специфицирован, поэтому просчитать его характеристики заранее невозможно. Эмпирический метод поиска известных атрибутов Эмпирический метод [65] подразумевает поиск каких-либо известных атрибутов и ориентирование на них. Лучше всего его использовать там, где эти атрибуты сильно примечательны (выделяются среди остального текста), например HTML-теги в размеченном HTML-файле. Информация о формате в документах также может являться примечательным атрибутом [64, 59]. В тексте СлРЯ XI-XVI1 вв. (см. рис. 1.4.) сильно примечательные атрибуты отсутствуют. В нем ориентиром может быть заголовочное слово (пишется строчными буквами), толкование (пишется курсивом) и еще некоторые специфичные поля (например варианты заголовочного слова). Все остальные поля распознать таким способом будет невозможно, что делает этот метод неприменимым к данному материалу. Данный метод мог бы быть вполне корректным, если бы требовалось выбирать не все поля, а только те, которые находятся рядом с сильно примечательными атрибутами. Методы дискретной математика В область дискретной математики входят алгоритмы и методы теории формальных языков и грамматик. Более подробно про разбор текста с помощью грамматик см. [25], по самой теории формальных языков и трансляции см. [76, 29, 70, 9, 10, 11,21, 20, 24,109,119,7,8,121,16]. Наибольший интерес представляют класс регулярных и контекстно-свободных грамматик - это наиболее применимые классы с точки зрения объема покрываемых задач. Грамматика, описывающая структуру СлРЯ XI-XV1I вв., представлена на рис. 1.6. Это грамматика класса контекстно-свободных языков. В описании символов грамматики используются сокращения следующих слов и словосочетаний: вокабула, другая вокабула, часть речи, смотрите, в значении, семантика 0-го уровня, семантика 1-го уровня, семантика 2-го уровня, толкование, эксцерпция, уточнение к источнику, указатель источника, пагинация, дата в скобках, уточненная дата, сравните, выход (конец статьи).

Частотный анализ текста Словаря РЯ XI-XVII вв

Параметры карточки в картотеке. В тексте статьи могут встречаться сокращения слов, следовательно, нельзя опираться только на знаки препинания при разборе словарной статьи. В некоторых случаях эту проблему можно решить, введя отдельные критерии или применяя алгоритмы для определения конкретных полей. К примеру, больше всего сокращений употребляется в указателях источников, но шифров источников ограниченное количество (около 3000), поэтому для распознавания поля «Шифр источника» целесообразно вести список шифров источников, а также алгоритм, который бы смог с определенной вероятностью узнавать это поле. Для этого распознающий алгоритм должен уметь использовать сторонние алгоритмы для определения полей.

Важно отметить, что СлРЯ XI-XVII вв. «формировался на протяжении нескольких десятилетий, и в его составлении и подготовке к изданию принимало участие большое число людей»[71], поэтому структура СлРЯ от тома к тому претерпевает определенные изменения, что требует наличия возможности настройки алгоритма разбора текста словаря для занесения его в структуры БД. «Составители по возможности учитывали замечания, содержащиеся в многочисленных рецензиях на словарь, появившиеся в отечественной и зарубежной печати»[46, стр. 4].

Первый том словаря вышел в 1975 году, большинство томов в оригинале сохранилось только в бумажном виде. Для перевода их в электронный вид применяется сканирование, которое добавляет свои опечатки в текст словаря. Это накладывает на систему разбора текста дополнительные требования по выявлению ошибок.

Ниже представлен список требований к методам разбора словарных текстов: TR 1. Поддержка распознавания вложенности структур. TR 2. Возможность настройки структуры словарной статьи. TR 3. Возможность автоматизированного или автоматического выбора из альтернативных вариантов разметки структуры словарной статьи или возможность использования алгоритмов подавления неоднозначностей разметки. Здесь могут быть использованы параметры веса для определенных атрибутов, что позволит рассчитать вероятность того или иного альтернативного варианта разбора. Сторонние алгоритмы определения полей, позволяющие определять их с высокой точностью, также уменьшат вероятность возникновения неоднозначных ситуаций. TR 4. Устойчивость к ошибкам в тексте, под которой понимается реакция на потенциальные ошибки: либо исправление, либо, при отсутствии таковой возможности, переход из автоматического в автоматизированный режим (извещение пользователя о потенциально возможной ошибке или фиксация проблемных статей и обработка их потом отдельно в диалоговом режиме). Например, если из двух признаков, сигнализирующих о какой-либо компоненте статьи (например, знак препинания и шрифтовая разметка), присутствует только один, целесообразно дать знать об этом пользователю, при этом обозначив предполагаемый результат. Для осуществления третьего этапа требуется разработка программного комплекса получения словарного материала. Здесь необходимо разработать методику получения словарных материалов недостающих томов СлРЯ и реализовать ее в виде программного комплекса. На этом этапе из цитатного материала изданных томов словаря формируется словарный материал недостающих томов. На входе у такого программного комплекса имеется таблица базы данных тома словаря, на выходе - таблица базы данных с цитатным материалом будущих томов СлРЯ. Четвертый этап осуществляется лексикографом, который отбирает наиболее подходящий цитатный материал и верифицирует его. Для этого требуется разработка программного средства отбора и формирования словарных статей. Чтобы ответить на вопрос о целесообразности предложенной выше технологии, необходимо произвести оценочный прогноз, отвечающий на вопрос, какой объем из недостающих томов можно получить с ее помощью. Для этого необходимо произвести исследование текста и рассчитать ожидаемый объем получаемых словарных материалов. Задачи: 1. Провести анализ текста существующих томов словаря РЯ XI-XVTI вв. на предмет его количественных и частотных характеристик. 2. Провести исследование динамики появления новых слов в тексте словаря и сделать прогноз получаемого словарного объема машинной версии словаря. 3. Разработать методику извлечения словарной информации из предназначенных для человека словарных текстов, для занесения этой информации в структуры БД с целью последующей ее обработки. 4. Разработать метод получения машинной версии словаря. 5. Реализовать распознаватель в виде программного комплекса. 6. Реализовать программное средство получения машинной версии словаря. 7. Разработать критерии оценки качества словаря. 8. Оценить качество получаемого словаря.

Магазинный автомат, распознающий структуру словарной статьи класса исторических словарей

Из таблицы, представленной выше, видно, что отсутствуют поля, распознаваемость которых очень слабая. У каждого из полей есть минимум по два признака, один из них, как правило, сильный (высока вероятность определения поля по этому признаку).

Из таблицы видно, что имеются признаки перехода, которые могут давать сбой (напр. вокабула не выделена жирным шрифтом), поэтому необходимо принимать взвешенные решения, а именно решения по совокупности признаков. Например, можно задавать вес признакам, затем перемножив вероятности признаков дающих одинаковый результат посчитать наиболее вероятное решение.

Еще одним направлением совершенствования может быть возможность отката назад при ошибке и прохода этого маршрута по другому пути, например, точка при обработке эксцерпции может говорить о конце эксцерпции, а также внутри эксцерпции может попасться сокращенное слово, приводящее к неоднозначному толкованию. В таком случае у нас будет недетерминированный автомат, который требует прохода по разным маршрутам. Опишем магазинный распознаватель с возвратами. Наиболее вероятным местом ошибки является переход от толкования к цитате. Чтобы грамматика учитывала возможность ошибки в самой структуре, сделаем ее недетерминированной. Изменим 23-е правило вышеописанной грамматики, чтобы признак эксцерпции мог появиться внутри толкования. Правило примет следующий вид: ошибочный признак появления поля «Эксцерпция» (цитата), Указатель семантики тоже может встретиться в толковании: Рсем.ош. - ошибочный признак появления поля «Семантика», Состояние магазинного распознавателя будет состоять из четверки (s, і, a, b), где: состояние алгоритма (нормальная деятельность, состояние возврата, заключительное состояние); - позиция входного указателя - магазин, содержащий левовыводимую цепочку на данный момент; магазин, содержащий историю вывода (в нашем случае также и позиции считывающей головки, чтобы возвращаться на нужное число символов назад). Распознаватель осуществляет вывод цепочки, но как только происходит ошибка, переходит в состояние возврата и возвращается, используя историю, хранящуюся в магазине Ь, до того момента, когда можно выбрать другую альтернативу. После чего распознаватель опять переходит в состояние нормальной деятельности и продолжает вывод. И так до того пока не будет разобрана вся статья или не будут перебраны все варианты, что будет обозначать ошибку. Ведя статистику ошибок, можно определить слабые места распознавателя, благодаря чему его можно будет в дальнейшем совершенствовать. Команда магазинного распознавателя выглядит следующим образом: «Состояние автомата , Наблюдаем. симв. , Наблюдаем. элемент в магазине левовыводимой цепочки , Наблюдаем. элемент в магазине истории вывода ) = ( Следующее состояние , Записываемая в магазин левовыводимой цепочки, последовательность Записываемая в магазин истории вывода, последовательность . f (...) - означает команду без движения считывающей головки. So - состояние автомата обозначающее нормальную деятельность, состояние автомата обозначающее обратный ход. Более детально о магазинном распознавателе с возвратами см. [10, стр. 317-338].

Система разметки словарных текстов и занесения их в структуры БД

Система WinDialex позволяет успшавливат ь размеры контекстов в строках, предложениях иди абзацах. Можно указать размер сразу Б нескольких единицах, например в абзацах и строках. В этом случае будет генерироваться контекст в той единице, которая обеспечивает его максимальный размер. Так, если указан рашер; абзацы - К предложения - 5, то текущий контекст будет составлять один абзац, если он больше 5 предложений, иначе - 5 предложений.

Код произведений - любая последовательность руеских и латинских букв от 1 до 7 символов. Например, код «а может обозначать том иа букву «А в СлРЯ ХЬХУН вв. ЕСЛИ код произведения не задаетея в данном окне, то он выбирается из разделителя страниц в исходном текстовом файле.

В конце каждого найденного контекста добавляется его адрес вида ( Код произведения [ Номер страницы ].[ Номер абзаца ].[ Номер предложения ]). Обязательным элементом здесь является только Код произведения любой из номеров (страницы, абзаца, строки) может быть опущен. Если опущен Номер страницы , то Номер абзаца отсчитьтвается с начала исходного текста, иначе - с начала страницы. Если опущен Номер абзаца , то Номер предложения отсчитывается с начала страницы, иначе - с начала абзаца.

Для установки режима адресации контекстов в блоке «Адресация» среди предложенных режимов следует установить "Страницы", "Абзацы", "Предложения". Контексты будут адресоваться в указанных единицах, если перед ними стоит символ "X". Формат Система WinDialex позволяет осуществлять генерацию файлов в одном из следующих форматов: СР 1251 (Windows) - это обычный текстовый файл, который может быть в дальнейшем обработан практически любым текстовым редактором. Rich Text Format - форматированный текст. База данных типа Paradox. По умолчанию устанавливается формат " Rich Text Format". Режим сравнения (с основой или полным словом). Система WinDialex способна выполнять поиск контекстов в исходном текстовом файле как по основам, задаваемым в файле поискового запроса, так и по полным словам. Режим поиска по основам удобно использовать для генерации контекстов по изменяемым (склоняемым и спрягаемым) словам. Это позволяет избежать необходимости задавать все возможные словоизменения данного слова, но может привести к появлению т. наз. "мусора". Для неизменяемых слов (предлогов, наречий, частиц и т.п.) лучше использовать режим поиска по полным словам. Режим поиска по основам установлен по умолчанию. Для смены режима поиска в строке меню нужно выбрать пункт "Сравнение" и требуемый пункт. Способы выделения абзацев в тексте. Система WinDialex допускает два способа выделения абзацев в исходном текстовом файле: пустой строкой; отступом (не менее 3 пробелов); новой строкой (используется в Rich Text Format). По умолчанию абзацы выделяются новой строкой. Чтобы переключиться на выделение абзацев отступами, в выпадающем списке "Абзац" следует выбрать пункт "Отступ" в появившемся списке. Создание словоуказателей Словоуказатель представляет собой совокупность слов и словосочетаний, соответствующих поисковому запросу, после каждого из которых следует список адресов вхождений этого слова (словосочетания) в исходный текстовый файл. После списка адресов в квадратных скобках указывается число вхождений в текст данной словоформы/словосочетания. Для создания словоуказателей необходимо выполнить следующие действия: 1) Связать (если это еще не сделано) картотеку "ИСХОДНЫЕ ТЕКСТОВЫЕ ФАЙЛЫ" с файлом, для которого необходимо построить сло воуказатель (например, с EXAMP.TXT). 2) Связать (если это еще не сделано) картотеку "ПОИСКОВЫЕ ЗАПРОСЫ" с ранее созданным файлом, содержащий поисковый запрос для анализируемого исходного текстового файла (например, с Q1.PWL). 3) Нажать кнопку [Создать] картотеки "СЛОВОУКАЗАТЕЛИ". Появится окно создания словоуказателей. 4) Установить код произведения, если не требуется, чтобы он считывал-ся из разделителей страниц исходного текста. Во время инсталляции системы WinDialex создается каталог "WINDIALEX", ш-іутри которого Б числе прочих создаются подкаталоги "Text", TW \ «PWL\ "SET", "LSI". В эти каталоги по умолчанию будут по-метаться вновь создаваемые картотеки, в которых будет осу шест нятпьея поиск ранее созданных. Соответствие каталогов а картотек показано в таблице 12. При необходимости можно менять названия используемых каталогов. Для этого необходимо написать требуемое название каталога на соответствующей панели.

Похожие диссертации на Методы и алгоритмы извлечения данных из словарных текстов : на примере Словаря русского языка XI - XVII вв.