Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Теоретико-графовые модели структуры фольклорных текстов, алгоритмы поиска закономерностей и их программная реализация Москин Николай Дмитриевич

Теоретико-графовые модели структуры фольклорных текстов, алгоритмы поиска закономерностей и их программная реализация
<
Теоретико-графовые модели структуры фольклорных текстов, алгоритмы поиска закономерностей и их программная реализация Теоретико-графовые модели структуры фольклорных текстов, алгоритмы поиска закономерностей и их программная реализация Теоретико-графовые модели структуры фольклорных текстов, алгоритмы поиска закономерностей и их программная реализация Теоретико-графовые модели структуры фольклорных текстов, алгоритмы поиска закономерностей и их программная реализация Теоретико-графовые модели структуры фольклорных текстов, алгоритмы поиска закономерностей и их программная реализация Теоретико-графовые модели структуры фольклорных текстов, алгоритмы поиска закономерностей и их программная реализация Теоретико-графовые модели структуры фольклорных текстов, алгоритмы поиска закономерностей и их программная реализация Теоретико-графовые модели структуры фольклорных текстов, алгоритмы поиска закономерностей и их программная реализация Теоретико-графовые модели структуры фольклорных текстов, алгоритмы поиска закономерностей и их программная реализация Теоретико-графовые модели структуры фольклорных текстов, алгоритмы поиска закономерностей и их программная реализация Теоретико-графовые модели структуры фольклорных текстов, алгоритмы поиска закономерностей и их программная реализация Теоретико-графовые модели структуры фольклорных текстов, алгоритмы поиска закономерностей и их программная реализация
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Москин Николай Дмитриевич. Теоретико-графовые модели структуры фольклорных текстов, алгоритмы поиска закономерностей и их программная реализация : диссертация ... кандидата технических наук : 05.13.18.- Петрозаводск, 2006.- 121 с.: ил. РГБ ОД, 61 06-5/3779

Содержание к диссертации

Введение

Глава 1. Теоретико-графовые модели текстов 9

1 Моделирование языковой структуры текста при помощи графов 9

2 Язык теоретико-графовой разметки текстов TextGML 13

3 Примеры описания теоретико-графовых моделей текстов на языке TextGML 16

4 Теоретико-графовая модель семантической структуры фольклорных песен 20

Заключение к первой главе 27

Глава 2. Методы анализа графовых структур 29

1 Основные методы анализа графов 29

1.1 Визуализация графов 30

1.2 Аппроксимация графов 33

1.3 Методы сравнения и классификации графов 37

2 Модификация методов для графов с упорядоченными вершинами и ребрами 44

2.1 Визуализация теоретико-графовых моделей фольклорных песен 44

2.2 Модификация методов аппроксимации для графов с упорядоченными вершинами 48

2.3 Модификация метрик для графов с упорядоченными ребрами 50

Заключение ко второй главе 55

Глава 3. Информационная система по фольклорным коллекциям с теоретико-графовой формализацией текстов 56

1 Цели и задачи разработки информационной системы «Фольклор» 56

2 Описание информационной системы «Фольклор» 57

2.1 Структура и основные модули информационной системы «Фольклор» 57

2.2 Модуль анализа текстов 60

2.3 Модуль построения теоретико-графовых моделей текстов 64

2.4 Модуль анализа графов 66

3 Проект специализированного Интернет-ресурса для представления и анализа фольклорных текстов 71

Заключение к третьей главе 76

Глава 4. Результаты анализа фольклорных коллекций 77

1 Коллекция бесёдных песен Заонежья XIX - начала XX века 77

2 Выбор параметров классификации 78

3 Результаты классификации бесёдных песен 87

Заключение к четвертой главе 93

Заключение 95

Библиографический список 96

Приложение 1. Свидетельство об официальной регистрации программы 106

Приложение 2. Примеры теоретико-графовых моделей бесёдных песен 107

Приложение 3. Примеры формализации текста на языке TextGML 112

Приложение 4. Некоторые алгоритмы, реализованные в информационной системе «Фольклор» 117

Введение к работе

Актуальность темы

Данная работа посвящена применению математических методов и компьютерных технологий при исследовании фольклорных текстов. Уже достаточно давно в лингвистических, исторических и социальных науках для формализации текстов используется контент-анализ, который сводится к подсчету частот встречаемости в тексте определенных словосочетаний (индикаторов) [13]. Другой метод, часто применяемый в подобных ситуациях, - это представление объекта исследования в виде типологической формулы, похожей на формулу библиотечной классификации УДК. Ее использовал, например, И. Г. Левин при создании типологии таджикских сказок [55, стр. 76]. Однако такие методы, заменяющие текст набором из нескольких чисел или символов (вектором), вряд ли достаточны для отражения его содержания. Поэтому на сегодняшний день актуальным является разработка новых методов и технологий анализа текстов.

На наш взгляд, адекватной моделью для представления текста является граф, который определяется как конечное множество объектов (вершин) и множество пар различных вершин (ребер) [69, стр. 22]. Такая структура хорошо изучена с точки зрения математики и часто служит удобным средством представления структурированной информации для дальнейшего анализа. Графы используются в гуманитарных областях знаний для автоматической обработки текстов [3, 53], информационного поиска [63], реферирования и индексирования текстов [57, 59], автоматического перевода [26], стилистической диагностики [32, 56], в задачах атрибуции анонимных текстов [33, 45] и т. д. В фольклористике графы применялись крайне мало, такие работы единичны [30, 31].

Другим важным направлением является разработка специализированного программного обеспечения для гуманитарных исследований с применением современных компьютерных технологий. Об этом, в частности, свидетельствуют проходящие в последнее время конференции по данной тематике: «ДИАЛОГ:

5 Компьютерная лингвистика и интеллектуальные технологии», «АДИТ: Информационные технологии: доступ к культурному наследию», «Проблемы компьютерной лингвистики и фольклористики», конференции Ассоциации «История и компьютер» и т. д.

Объект исследования

Объектом исследования являются теоретико-графовые модели фольклорных текстов и методы их анализа.

Цель и задачи диссертации

Целью работы является разработка новых моделей и методов анализа фольклорных текстов, реализованных в виде информационной системы для исследования фольклорных коллекций с теоретико-графовой формализацией текстов.

Для этого необходимо решить следующие задачи:

  1. Разработать теоретико-графовые модели структуры фольклорных текстов.

  2. Разработать новые и модифицировать существующие методы анализа построенных моделей.

  3. Создать информационную систему для хранения и исследования фольклорных коллекций с теоретико-графовой формализацией текстов.

  4. Описать результаты применения данных методов на примере конкретных коллекций фольклорных текстов.

Структура и объем диссертации

Работа состоит из введения, четырех глав, заключения, списка литературы и приложения. Первая глава посвящена применению графов для анализа языковой структуры текста. Здесь приводится описание языка теоретико-графовой разметки TextGML, разработанного на основе XML, который предназначен для

описания теоретико-графовых моделей текстов. В конце главы рассмотрена теоретико-графовая модель семантической структуры фольклорных песен. Во второй главе представлены методы и алгоритмы анализа теоретико-графовых моделей и их модификации с учетом упорядоченности вершин и ребер. В третьей главе описывается информационная система по исследованию фольклорных коллекций с теоретико-графовой формализацией текстов, реализованная в среде визуального программирования Delphi 7.0. В четвертой главе приводятся результаты применения разработанных методов для исследования бе-сёдных песен Заонежья XIX - начала XX века.

Общий объем диссертации составляет 121 страница, включая 16 страниц приложения, 44 иллюстрации и 5 таблиц. Список литературы содержит 97 наименований источников.

Научная новизна

В диссертации впервые отражены следующие научные результаты:

  1. Разработана теоретико-графовая модель семантической структуры фольклорных песен, рассмотренная на примере коллекции бесёдных песен Заонежья XIX - начала XX века.

  2. Предложены и апробированы следующие методы анализа графов:

  1. Метод визуализации теоретико-графовых моделей фольклорных песен.

  2. Модификация метода аппроксимации для графов с упорядоченными вершинами.

  3. Метод сравнения текстов, основанный на модификации метрики для графов с упорядоченными ребрами.

3. Разработан язык теоретико-графовой разметки текстов TextGML на ос
нове XML, предназначенный для описания теоретико-графовых моделей тек
стов.

%

7 4. Создана информационная система по исследованию фольклорных коллекций с теоретико-графовой формализацией текстов в среде визуального программирования Delphi 7.0.

Методы исследования

В работе применяются следующие методы:

  1. Методы визуализации, аппроксимации и сравнения графов.

  2. Методы многомерного статистического анализа данных.

  3. Современные возможности среды и языка программирования Delphi 7.0.

Практическая значимость работы

Практически результаты диссертации могут быть использованы для решения вопросов жанровой дифференциации и атрибуции текстов, составления тематических указателей, указателей фольклорных мотивов и формул.

Основные результаты, выносимые на защиту

  1. Разработана теоретико-графовая модель семантической структуры фольклорных песен.

  2. Предложен метод визуализации теоретико-графовых моделей фольклорных песен.

  3. Предложена модификация метода аппроксимации для графов с упорядоченными вершинами.

  4. Предложена модификация метрик на множестве графов с упорядоченными ребрами.

  5. Разработан язык теоретико-графовой разметки TextGML на основе XML, предназначенный для описания теоретико-графовых моделей текстов.

  6. Разработана информационная система по исследованию фольклорных коллекций с теоретико-графовой формализацией текстов.

#

Апробация работы и публикации

Основные результаты диссертации были представлены в виде докладов на III, IV и V Всероссийских конференциях RCDL «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (2001 г. - Петрозаводск, 2002 г. - Дубна, 2003 г. - Санкт-Петербург), на Седьмой конференции АДИТ «Информационные технологии: доступ к культурному наследию» (2003 г. - Пушкинские Горы), на XII Научных чтениях Даугавпилсского университета (2003 г. - Даугавпилс, Латвия), на IV Международной конференции «Рябининские чтения: Локальные традиции в народной культуре Русского Севера» (2003 г. - Петрозаводск), Международной школе молодых фольклористов (2003 г. - Пушкин), Летней школе «Формальные методы анализа и дескрипции фольклорного текста» (2004 г. - Псков), Всероссийской конференции «Проблемы компьютерной лингвистики и фольклористики» (2004 г. - Воронеж), Международной конференции «Русская и сопоставительная филология: состояние и перспективы» (2004 г. - Казань), на X Международной конференции Ассоциации «История и компьютер» (2006 г. - Москва), на научных семинарах кафедры информатики и математического обеспечения Петрозаводского государственного университета (2000-2006 гг. - Петрозаводск). По теме диссертации опубликованы 4 статьи и 5 тезисов докладов, а также получено свидетельство об официальной регистрации информационной системы в Федеральной службе по интеллектуальной собственности, патентам и товарным знакам (Роспатенте).

Язык теоретико-графовой разметки текстов TextGML

Для формализации структуры текста в виде графов и его последующего изучения необходимо разработать особый стандарт описания и хранения текста и его моделей. В настоящее время все большую популярность в этом направлении завоевывает технология моделирования документов XML. Однако существующие на сегодняшний момент разметки позволяют описывать только абстрактные графы, не привязанные к тексту (например, GXL [61], XGMML [62], GraphXML [89] и т. д.). Предлагаемый нами язык теоретико-графовой разметки текстов TextGML (Textual Graph Modelling Language) предназначен для описания произвольных теоретико-графовых моделей, которые могут быть построены по разным принципам.

В первой части textjparameter задаются характеристики текста. Во второй части graph находится сам текст, разбитый на множество единиц и отношений между этими единицами. Элемент text имеет два атрибута: пате - название текста и type - тип текста (например, «стихотворение», «басня», «статья», «эссе» и т. д.).

Другие характеристики текста (например, автор, год и место издания) определяются в части textjparameter в виде элементов parameter. Каждому параметру соответствует два атрибута: id - идентификатор параметра, который должен начинаться с буквы «р», и пате - название параметра: !ELEMENT text_parameter (parameter) !ELEMENT parameter (#PCDATA) !ATTLIST parameter idlD#REQUIRED nameCDATA#IMPLIED

Внутри элемента содержится символьное значение параметра. Например: parameter id="p1" name="place_zap" 1842 r. /parameter . Во второй части graph хранятся графы, соответствующие тексту. Каждый граф задается набором вершин {node) и ребер {link), соединяющих эти вершины. У элемента graph три атрибута: id - уникальный идентификатор графа, ко 15 торый должен начинаться с буквы «g», пате - название графа (например, «дерево зависимостей первого предложения»), type - тип графа и directed - индикатор, указывающий является ли граф ориентированным. !ELEMENT graph (#PCDATA node link) !ATTLIST graph.

Структурные единицы текста задаются при помощи элемента node. У этого элемента пять атрибутов: id - идентификатор вершины графа, который начинается с буквы «и», пате - название вершины (например, «основная форма слова»), type - тип узла, order - порядок вершины в графе и id_graph - ссылка на идентификатор графа-потомка. Последний параметр позволяет организовать в тексте иерархию уровней графа, где граф низшего уровня является вершиной графа более высокого уровня.

В графе могут присутствовать и фиктивные вершины, которые не отражены в тексте. В этом случае содержимое тега будет пустым. Ребра графа задаются с помощью элемента link. У данного элемента семь параметров: id - идентификатор ребра, который начинается с буквы «/», пате -название ребра, source и target - ссылки на идентификаторы вершины 16 источника и вершины-приемника, type - тип ребра (например, «однородность слов»), cost - сила связи и order - порядок ребра в графе.

Сначала рассмотрим, как можно применить данную спецификацию для описания деревьев зависимостей, отражающих синтаксическую структуру предложения [56, стр. 29]. В качестве примера возьмем один из духовных стихов - стих о Голубиной книге [23, стр. 337]. Первое предложение выглядит следующим образом: Да с начала века животленнова Сотворил Бог небо со землею, Сотворил Бог Адама со Еввою, Наделил питаньем во светлом раю, Во светлом раю жити во свою волю. В дереве зависимостей вершины графа соответствуют словам предложения, а дуги устанавливают подчинительные связи между этими словами. Вершины делятся на шесть групп: полнозначные слова (W), предлоги (Р), сочини 17 тельные союзы (SC), подчинительные союзы (PC), остальные союзы (ОС) и нулевой знак (N). Ребра делятся соответственно на пять групп: подчинение слов (PW), подчинение предложений (PS), однородность слов (Н), сочинительная связь (S) и связь, присоединяющая вводные слова (V).

Модификация методов для графов с упорядоченными вершинами и ребрами

Рассмотренные выше методы визуализации предназначены для рисования абстрактных графов, не привязанных к какому-либо тексту. Поэтому при визуализации теоретико-графовых моделей, отражающих семантическую структуру фольклорных песен, необходимо модифицировать исходные алгоритмы. Для этого введем дополнительные критерии качества получаемого изображения: - Упорядочение элементов графа по мере их появления в сюжете песни. - Группировка вершин и ребер графа согласно структуре мотивов песни и их функциональному весу.

Кроме того, данные графы должны показывать принадлежность вершин и ребер к той или иной группе. Здесь можно поступить следующим образом: группы вершин изобразить в виде соответствующих иконок, а вид связей (локальные и глобальные) сплошной линией и пунктиром соответственно. Направление связей естественно изображать стрелкой. При выборе координат вершин и ребер графа в двумерном и трехмерном пространстве модифицируем существующий алгоритм, основанный на физических аналогиях [78]. При этом будем использовать следующие закономерности:

Вероятность того, что два объекта принадлежат одному мотиву, больше, если они находятся в тексте ближе друг к другу. Тогда модифицируем форму лу, по которой вычисляется сила притяжения /е. Пусть р(и) и p(v) - номера слов в тексте песни, соответствующих объектам и и v. Если один объект опре деляется несколькими словами, то вычисляется среднее арифметическое значе ние их номеров. Определим естественную длину пружины 1е между вершинами и и v при помощи следующей формулы: fe=/min+V!;?(«)-p(v), где /min - минимальная длина пружины, а Л, 0 - коэффициент, характеризующий значимость данного критерия. Чем меньше Я], тем сильнее сила fe будет притягивать объекты, расположенные близко в тексте.

Чтобы учитывать порядок появления связей в сюжете песни, для каждого ребра e = (u,v) введем дополнительную силу he. Эта сила будет стремиться расположить ребра графа как можно ближе к установленным заранее упорядоченным точкам q{Iiv). Точки q, , следует расположить последовательно на одинаковом расстоянии друг от друга по окружности (или полуокружности, как показано на рис. 11) с центром в середине экрана. Радиус окружности подбирается таким образом, чтобы полученный граф не заходил за границы окраиной области.

Визуализация і рафа фольклорной песни «Уж ты Ванюша, Иван». Методы визуализации могут использоваться не только при изучении теоретико-графовых моделей фольклорных песен, но и в процессе их построения и редактирования.

При аппроксимации графов, моделирующих структуру текста, также следует учитывать порядок вершин и ребер, который отражает развитие сюжета во времени. Например, на рисунке 13 изображен граф G со следующим порядком вершин {v,,v2,v3}. Очевидно, что его будет лучше аппроксимировать граф Гх, чем Г2.

Поскольку функционал /, для «простых» графов Г, и Г2 (см. рис, 13), которые отличаются лишь порядком вершин, будет принимать одинаковые значения, равные единице, введем вспомогательную матрицу Р размерности пхп, элементы которой определим следующим образом: ptj = 1, если порядок вершины q{vi) q{yj) (в противном случае р.. = 0).

В работах по аппроксимации графов (см. параграф 1.2) предлагается выделять подмножества вершин по заданному «простому» графу. Однако при исследовании графов, описывающих языковую структуру текста, возникает альтернативная задача разбиения множества ребер графа. Например, при аппроксимации некоторых видов семантических сетей такие подмножества ребер можно интерпретировать как объединение функционально близких связей в тексте.

Одним из способов подобной аппроксимации является построение нового графа, который отражает структуру связей между ребрами. Например, по исходному графу G, заданному бинарной матрицей M(G), можно построить вспомогательный граф G , вершины которого будут соответствовать ребрам G. При этом v] И V J, соответствующие ребрам е; и е. графа G, будут смежными тогда и только тогда, когда существует вершина v eG, инцидентная ei и е.. При помощи такого преобразования задача реберной аппроксимации графа G сводится к задаче аппроксимации вершин графа С.

Описание информационной системы «Фольклор»

Ссылки на тексты коллекции хранятся в файле с расширением « .Ist». Структура этого файла включает в себя название коллекции, количество текстов и ссылки на файлы коллекции. Работа с коллекцией осуществляется с по 60 мощью команд «Открыть коллекцию», «Закрыть коллекцию», «Добавить текст в список», «Удалить текст из списка». В настоящее время в системе хранятся следующие тексты: Бесёдные песни Заонежья XIX - начала XX века (118 текстов) [24]. Лужские песни из сборника «Песни городенского хора» (32 текста) [46]. Духовные стихи о Голубиной книге из сборника Кирши Данилова [23, стр. 337-342] и «Собрания народных песен П. В. Киреевского» [60, стр. 10-13] (88 предложений). Былина «Илья Муромец», запись П. Н. Рыбникова (44 предложений) [47, стр. 95-100]. Описания «народных святых» Нижегородского края Института рукописной и старопечатной книги (280 текстов) [9]. Команды меню «Исследование» служат для перехода в исследовательские модули системы: «Построить граф» - переход к модулю построения теоретико-графовых моделей текстов (см. параграф 2.3). «Исследовать тексты» - переход к модулю анализа текстов (см. параграф 2.2). «Исследовать графы» - переход к модулю анализа теоретико-графовых моделей (см. параграф 2.4). «Параметры вывода» - настройка параметров вывода графа. Меню «Помощь» содержит справочные сведения по работе с программой.

Рассмотрим подробнее первый модуль программы, предназначенный для обработки текстов. Графематический анализ текстов. Прежде всего, пользователю предлагается выбрать те тексты коллекции, которые необходимы для дальнейшего анализа. Далее осуществляется графематический анализ текстов, т. е. програм ма выделяет отдельные слова, абзацы и предложения. При этом можно воспользоваться специальными процедурами, которые позволяют удалить (добавить) лишние пробелы в тексте, а также выделить справочные сведения и ссылки.

Морфологический анализ текстов. Выделив в тексте отдельные слова, программа просматривает их в морфологическом словаре на предмет наличия в нем. Если слово отсутствует в словаре, то пользователю предлагается несколько схожих по написанию слов, к которым данное может быть отнесено в качестве словоформы. Схожесть слов определяется при помощи алгоритма сравнения строк Вагнера-Фишера [96]. После этого в программе можно вывести диаграмму распределения слов текста на части речи. При помощи этой процедуры было, например, построено частеречное распределение частотной лексики для двадцати бесёдных песен из сборников В. Дашкова и Ф. Студитского [42, 44]. Интересно, что полученные данные сильно коррелируют с результатами Н. Э. Шишковой [75], которая в своей работе проанализировала совокупность свадебных обрядовых песен, собранных П. В. Киреевским, и курских лирических песен, записанных М. Г. Халанским (см. таблицу 4).

Также на основе полученных словоформ текста происходит составление частотного словаря, который выводится в левой части экрана. Здесь же можно построить график распределения частоты встречаемости слов в выбранных текстах. Это распределение подчинено закону Ципфа, который описывает статистическую связь между частотой и рангом слова [66, стр. 82]. Контент-анализ текстов. Основа контент-анализа - это подсчет встречаемости некоторых компонентов в анализируемом информационном массиве, дополняемый выявлением статистических взаимосвязей и анализом структурных связей между ними, а также снабжением их теми или иными количественными или качественными характеристиками [13]. Модуль контент-анализа представляет собой автоматизированную процедуру, осуществляющую поиск ключевых слов по сочетанию входящих в текст корневых и префиксальных морфем (см. рис. 20). РІК. 21). Кшмент-анализ текстов.

Признаки хранятся в отдельном файле, каждый из которых представлен набором ключевых слов. Результаты анализа, а именно и-мерные вектора из 0 и 1, соответствующие вхождению ключевых слов в тот или иной текст, и матрица попарных расстояний между этими векторами, помещаются в специальный файл, который можно исследовать с использованием какого-нибудь статистического пакета {например, Statistica) [38]. Если пользователь сомневается, присутствует ли данное ключевое слово в тексте, он можно щелкнуть на соответствующем изображении единицы два раза и получить обоснование такого выбора (в этом случае в окне выводится текст с выделенными красным цветом ключевыми словами).

Морфологический словарь. Под словарем понимается совокупность различных слов, представляемых обычно в виде списка. Единицы словаря объединены в разные формы под общим знаменателем, обычно под так называемой основной формой (у существительных - форма именительного падежа, у глаголов - инфинитив) [66, стр. 36]. Все слова разбиты на двенадцать частей речи, причем некоторые из них могут относиться к нескольким частям речи.

В словаре предусмотрены следующие возможности: Отображение списка слов из морфологического словаря (это могут быть либо все слова, либо какой-то определенной части речи). При выделении конкретного слова справа высвечивается набор его словоформ и часть речи. Добавление нового слова, удаление имеющегося и изменение списка словоформ (см. рис. 21). Поиск в текстах определенного слова или его словоформ (как целое слово или как часть предложения). Построение диаграммы частеречного распределения лексики в словаре.

Второй модуль программы предназначен для автоматизированного построения теоретико-графовых моделей фольклорных текстов. В системе реализована следующая пошаговая процедура: Шаг 1: Выбор параметров построения графа. Пользователю предлагается выбрать текст из списка и установить группы объектов и связей.

Визуализация графов. Изучая фольклорные тексты, мы имеем возможность просматривать соответствующие им графы в двумерном и трехмерном пространстве. В системе реализованы следующие методы:

Выбор параметров классификации

Одной из центральных задач классификации совокупности объектов является выбор исходного набора параметров [33, стр. 66]. При анализе теоретико-графовых моделей были выделены следующие группы параметров: Группа 1: К этой группе относятся первичные параметры: - Число вершин в графе. - Число ребер в графе. - Число мотивов в песне. Эти параметры, как правило, характеризуют размер текста. Однако часто встречаются случаи, когда достаточно длинной песне, состоящей из большого количества эпитетов и повторов, соответствует граф с небольшим числом вершин и ребер.

В данном случае можно провести аналогию с законом Ципфа, который получен опытным путем при исследовании частоты встречаемости слов в тексте. Ю. Тулдава пишет, что этот закон совпадает по форме с неким «универсальным законом», охватывающим широкий круг явлений материального мира. «Явле 82 ния, подчиняющиеся закону Ципфа, можно рассматривать как системы, находящиеся в равновесном, т. е. наиболее благоприятном (оптимальном) для системы состоянии» [66, стр. 82].

Распределение объектов на группы. Согласно А. Т. Хроленко [71, стр. 41-42], в фольклорных песнях можно выделить следующие группы объектов: «люди», «части человеческого тела», «проявление качеств человека», «одежда и украшения», «жилище», «пища, питье», «животный мир», «расти тельный мир», «земля и воды», «явления природы» и «разные предметы». На наш взгляд, к этому разбиению необходимо добавить еще две группы: о Конструкции: печь, сани, карета и т. д. о Обычаи, традиции: праздник, хоровод, подарки и т. д. Тогда каждой песне можно поставить в соответствие вектор частот встречаемости объектов по группам.

Операции переименования вершин и ребер соответствуют замене слов в тексте на другие, близкие по смыслу (например, парень — ясный сокол). Операции вставки вершин и ребер соответствуют добавлению в текст некоторого фрагмента или повторению какого-либо слова для усиления его значения. Операции удаления вершин и ребер соответствуют пропуску некоторого слова или фрагмента в тексте.

При определении меры сходства двух песен будем использовать агрегирующие графы основных потоков связей с небольшим числом вершин и ребер. Это позволит сравнить структуры основных отношений в текстах, отбросив несущественные вершины и связи. Поскольку в общем виде задача аппроксимации трудно решаема, данные графы были построены при помощи метода, предложенного в работе [27]. В нем накладывается следующее ограничение: разбиение объектов осуществляется на непересекающиеся группы, объединение которых дает исходное множество объектов. При этом число групп, как правило, определялось по числу мотивов песни. Пороговое значение было экспериментально установлено равным 0,2 (при таком значении большинство связей попадает в основные потоки).

На основе коллекции бесёдных песен была составлена выборка из 50 текстов, собранных из разных источников [24, стр. 7]. В ней представлены как небольшие «утушные» песни в 7-8 строк (например, «Вьюнчик» [28, стр. 72]), так и песни в 38-40 строк (например, хороводная песня «Ты, отеческая дочь» [44, стр. 185]). Ряд песен данной выборки представлены в нескольких вариантах, записанных разными собирателями: о «Позябло, позябло лицо» (в записи Ф. Студитского [42, стр. 63] и В. Лысанова [28, стр. 73]), о «Вьюнчик» (в записи Ф. Студитского [42, стр. 62] и В. Лысанова [28, стр. 72]), о «Все мужья до жен добры» (в записи В. Дашкова [44, стр. 179] и Ф. Студитского [42, стр. 67]), о «Уж ты Ванюша, Иван» (в записи В. Дашкова [44, стр. 181] и Ф. Студитского [42, стр. 104]).

Заметим, что при построении выборки предпочтение отдавалось наиболее распространенным в Заонежье песням, которые рассматриваются в монографии Р. Б. Калашниковой [24].

Похожие диссертации на Теоретико-графовые модели структуры фольклорных текстов, алгоритмы поиска закономерностей и их программная реализация