Введение к работе
Актуальность темы. Исследования, которые проводятся на стыке различных отраслей знания, давно нашли широкое распространение в науке. Сегодня практически невозможно представить проведение глубоких научных изысканий без привлечения современных математических и статистических методов, без привлечения вычислительной техники. Однако использование этих методов еще далеко не везде заняло достойное им место. До сих нор весьма распространенным является мнение, что математические методы и компьютерная техника в первую очередь ориентированы на решение проблем природоведческих дисциплин, экономики, психологии, а такие гуманитарные дисциплины, как филология, текстология, археология, история и др., находятся как бы в стороне. Если в них и применяются математические методы, то это в основном методы классической статистики, что на фоне общего развития вычислительной техники и математики выглядит более чем скромным. Представляется уместным отметить тот факт, что гуманитарные дисциплины потенциально являются не только пассивными "потребителями" математических методов, но могут выступать и в роли катализаторов для появления и развития новых. Классическим в этом смысле является история факторного анализа, появление которого непосредственно связано с исследованиями, проводимыми известными психологами Спирменом, Терстоуном, Кэтеллом и Хотсллингом при участии специалистов в области математической статистики Бартлета, Кеи-далла, Лоули и др.
В текстологии одной из центральных является проблема атрибуции. Основная задача классических атрибуционных исследований заключается в установлении истинного авторства литературного произведения (текста), когда оно анонимное или подписано псевдонимом, а также в случае литературных мистификаций. В последнее время атрибуцию принято понимать в более широком смысле. Наряду с авторской выделяют и неавторскую атрибуцию, целью которой является отнесение исследуемого текста к определенному стилю, периоду времени, литературной школе и т.д.
Для проведения атрибуционных исследований могут применяться подходы, которые базируются либо на анализе имеющегося документально-фактологического материала, либо на основе идейного сопоставления, либо на основе анализа языка и стиля. В предлагаемой работе внимание будет уделяться такой атрибуции, которая проводится на основе статистического сопоставления стилистических параметров исследуемого текста с аналогичными параметрами текстов предполагаемых авторов.
Традиционно технология проведения атрибуции предусматривала, что сначала па основе гипотез и предположений исследователей формировался априорный словарь признаков (АСП). Затем все тексты описывались на основе этих признаков, и далее проводился компаративный анализ исследуемого анонимного текста путем сопоставления его с имеющимися текстами предполагаемых авторов. На результатах этого анализа и строилось общее заключение о возможном авторстве. Следует отметить, что наиболее слабым звеном в данной технологической цепочке является проблема формирования исходного априорного словаря признаков, поскольку практически очень сложно сформировать такоіі АСП, который не содержал бы неинформативных или малоинформативиых признаков с точки зрения разделения авторов, а значит, это неизбежно отразиться на качестве и достоверности исследований.
В Республике Беларусь атрибуционные исследования, основанные на построении специализированной системы распознавания ранее не проводились. В белорусском литературоведении и текстологии в настоящее время накоплен огромный массив анонимных и псевдоанонимных текстов, которые ждут своих исследователей в связи с подготовкой к изданию энциклопедий и энциклопедических справочников, академических Полных Собраний сочинений. Исторически сложилось так, что документально-фактологического материала осталось немного, и поэтому весьма актуальной представляется проблема разработки принципиально новых технологий на основе методов прикладной статистики и компьютерного анализа данных.
При проведении атрибуционных изысканий исследователям приходится постоянно работать с большими объемами разнообразных данных и показателей, которые характеризуют различные аспекты текстов. Накопленный опыт показывает, что атрибуция представляет собой длительный процесс, и поэтому актуальным является разработка новых методов и средств автоматизации исследований на основе совместного использования методов прикладной статистики и методов моделирования на базе применения технологий компьютерного анализа данных.
Связь работы с крупными научными программами, темами. Результаты предлагаемой диссертационной работы были получены и использовались при выполнении трех научно-исследовательских тем, которые выполнялись в Гродненском государственном университете им. Я.Купалы на протяжении 1992-1999гг. В 1992-93 годах работа осуществлялась в рамках темы "Исследование лннгво-математическими методами авторства текстов белорусских литературных произведений", которая финансировалась Фондом фундаментальных исследований Республики Беларусь. В 1995-96 го-
дах работа проводилась при проведении исследований по теме "Исследоваїніе характеристик авторского стиля в белорусской литературе на основе методов лингво-статистики" (номер госрегистрации №ДР 1995677), которая была утверждена и финансировалась министерством образования РБ. Дальнейшее развитие работа получила в 1997-99г. в рамках выполнения темы "Стилемстрпческое исследование микроструктур текстов белорусской прозы на основе методов многомерного статистического анализа и математической теории распознавания образов" (номер госрегистрации №ДР 19973320), которая также была утверждена и финансировалась министерством образования Республики Беларусь.
Цель и задачи исследования. Целью работы является автоматизация процесса проведения атрибуционных исследований авторских текстов на эсновс применения современных методов прикладной статистики и компьютерного анализа данных. Для реализации этого решается ряд задач, :вязанных с разработкой принципов и способов составления содержательного описания объектов атрибуции с переходом к формальному описанию, : проектированием и построением специализированной системы распозна-нания по атрибуции, с разработкой и реализацией алгоритмов и программ іля проведения атрибуционных исследований, с апробацией методов и программного обеспечения для атрибуции.
Объект и предмет исследования. Объектом исследования является проблема проведения атрибуции анонимных или псевдоанонимных текстов, для решения которой предлагается разработать и использовать специализированную систему по автоматизации распознавания. Предметом исследования являются модели, методы, алгоритмы и программы, нсобхо-тимые для реализации такой системы распознавания.
Методология и методы проведенного исследования. Авторский текст можно рассматривать как объект сложной природы, который может харак-геризоваться большим числом разнообразных признаков, часть из которых ножет отражать индивидуальные стилистические особенности автора. Ат-эибуция фактически означает распознавание настоящего автора анонимного или псевдоанонимного текста.
Распознавание сложных объектов требует создания специальных сис-гем распознавания, которые состоят из коллектива подготовленных спе-хиалистов, совокупности технических средств накопления и обработки информации и специально разработанных методов, алгоритмов и программ.
В диссертационной работе для проведения атрибуционных исследова-шй предложено использовать новую методологию, которая базируется на юстроении специализированной системы распознавания на основе методов трикладной статистики и математической теории распознавания образов.
Для реализации такой системы разработана оригинальная схема, в которой в качестве отдельных предусмотрены этап сепарирования признаков из исходного набора и этап тестирования уточненного словаря признаков. Для проведения этапа сепарирования разработан специальный метод классификации признаков по степени их информативности.
Научная новизна и значимость полученных результатов заключается в следующем:
сформулированы подходы к построению специализированной системы по автоматизации распознавания при решении проблемы атрибуции анонимных и псевдоаноннмных текстов;
предложена структурная схема специализированной системы по автоматизации распознавания авторства текста, которая предусматривает поэтапную реализацию исследований;
разработан оригинальный метод сепарировании по степени информативности признаков из исходного априорного словаря и построения уточненного рабочего словаря признаков для атрибуции, и па основе этого метода реализован соответствующий алгоритм;
предложены универсальные процедуры моделирования при проведении аттестационного этапа с целью качественной оценки набора признаков, включенных в уточненный рабочий словарь;
разработай программно-технологический комплекс, автоматизирующий процессы моделирования атрибуционных исследований;
в белорусской текстологической науке на основе белорусского текстового материала впервые проведены исследования, связанные с решением проблемы атрибуции на основе применении математического моделирования, методов прикладной статистики и средств вычислительной техники.
Практическая значимость полученных результатов заключается в следующем:
разработана технология автоматизации атрибуции анонимных и псевдоанонимных текстов, использующая методы математического моделирования, которая может быть основой методологической базы при проведении исследований по установлению истинного авторства текстов;
технология моделирования может применяться при проведении стиле-метрическнх исследований, связанных с выявлением и изучением наиболее индивидуальных признаков авторского стиля;
повышается оперативность, достоверность и объективность проводимых на моделях атрибуционных исследований за счет реализации этапа проверки информативности исходных показателей;
- ориентированность разработанной системы на специалистов из разных
предметных областей позволяет проводить комплексные атрибуцпопиые
исследования на основе анализа языка и стили авторов;
разработана система по автоматизации проведения атрибуционных исследований на ПЭВМ;
предложенный в работе подход к построению системы распознавания, методы и алгоритмы построения математических моделей процесса распознавания могут быть использованы при построении оболочки методо-орнентированной экспертной системы, которая может быть в дальнейшем использована для проведения исследований в других областях, например, в искусствоведении для установления истинного авторства музыкальных и иных художественных произведений.
Основные положециялчесертации, выносимые на защиту:
-
Метод автоматизации атрибуционных исследований, основанный на построении специализированной системы по распознаванию объектов сложной природы.
-
Средства реализации нового метода автоматизации исследований по атрибуции анонимных и псевдоанонимных текстов.
-
Технология автоматизации псследованпй по установлению истинного авторства текста, использующая математическое моделирование.
-
Результаты апробации нового метода автоматизации атрибуционных исследований на реальных текстах белорусских писателей.
Личный вклад соискателя. Все основные положения диссертации выполнены автором лично. В совместных научных докладах и публикациях автору принадлежат вопросы, касающиеся:
разработки нового метода автоматизации атрибуционных исследований анонимных и псевдоанонимных текстов, основанного на построении специализированной системы по распознаванию объектов;
алгоритмов поэтапного выполнения атрибуционных исследований;
технологии автоматизации исследований;
реализации алгоритмов атрибуции на ПЭВМ;
апробации нового метода автоматизации атрибуционных исследований и средств его реализации.
Апробация результатов диссертации. Результаты по теме диссертационной работы были доложены и обсуждены на следующих 6 научных конференциях:
- международная конференция "Компьютерный анализ данных и модели
рование" (Минск, БГУ, 1992 г.);
V межгосударственная научная конференция "Актуальные проблемы информатики: математическое, программное и информационное обеспечение" (Минск, БГУ, 1996 г.);
VII Белорусская математическая конференция (Минск, БГУ, 1996 г.);
Ш международные Купаловские чтения (Минск, 1997 г.);
V международная научная конференция "Компьютерный анализ данных и моделирование" (Минск, БГУ, 1998 г.);
международная научная конференция "Взаимодействие литератур в мировом литературном процессе" (Гродно, ГрГУ, 1998 г.).
Опублнкованность результатов. Результаты диссертации опубликованы в виде 10 статей и 2 тезисов докладов, в том числе:
3 статьи в журнале "Весці HAH РБ. Серыя гуманітарньїх навук";
1 статья в журнале "Весці HAH РБ. Серыя фізіка-тзхнічньїх навук";
1 статьи в журнале "Вестник Гродненского университета";
3 статьи в сборниках статей;
2 статьи в материалах конференций;
2 тезисов доклада.
Общее количество страниц опубликованных материалов составляет 54 стр.
Структура и объём диссертации. Диссертация состоит из общей характеристики, четырех глав, заключения, списка использованных источников и трех приложений; изложена на 90 страницах печатного текста, содержит 6 рисунков, 7 таблиц, 62 наименования использованных источников; приложения изложены на 16 страницах печатного текста.