Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Автоматизация научных исследований при решении задач атрибуции текстов Родченко, Вадим Григорьевич

Данная диссертационная работа должна поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Родченко, Вадим Григорьевич. Автоматизация научных исследований при решении задач атрибуции текстов : автореферат дис. ... кандидата технических наук : 05.13.16.- Гомель, 1999.- 21 с.: ил.

Введение к работе

Актуальность темы. Исследования, которые проводятся на стыке различных отраслей знания, давно нашли широкое распространение в науке. Сегодня практически невозможно представить проведение глубоких научных изысканий без привлечения современных математических и статистических методов, без привлечения вычислительной техники. Однако использование этих методов еще далеко не везде заняло достойное им место. До сих нор весьма распространенным является мнение, что математические методы и компьютерная техника в первую очередь ориентированы на решение проблем природоведческих дисциплин, экономики, психологии, а такие гуманитарные дисциплины, как филология, текстология, археология, история и др., находятся как бы в стороне. Если в них и применяются математические методы, то это в основном методы классической статистики, что на фоне общего развития вычислительной техники и математики выглядит более чем скромным. Представляется уместным отметить тот факт, что гуманитарные дисциплины потенциально являются не только пассивными "потребителями" математических методов, но могут выступать и в роли катализаторов для появления и развития новых. Классическим в этом смысле является история факторного анализа, появление которого непосредственно связано с исследованиями, проводимыми известными психологами Спирменом, Терстоуном, Кэтеллом и Хотсллингом при участии специалистов в области математической статистики Бартлета, Кеи-далла, Лоули и др.

В текстологии одной из центральных является проблема атрибуции. Основная задача классических атрибуционных исследований заключается в установлении истинного авторства литературного произведения (текста), когда оно анонимное или подписано псевдонимом, а также в случае литературных мистификаций. В последнее время атрибуцию принято понимать в более широком смысле. Наряду с авторской выделяют и неавторскую атрибуцию, целью которой является отнесение исследуемого текста к определенному стилю, периоду времени, литературной школе и т.д.

Для проведения атрибуционных исследований могут применяться подходы, которые базируются либо на анализе имеющегося документально-фактологического материала, либо на основе идейного сопоставления, либо на основе анализа языка и стиля. В предлагаемой работе внимание будет уделяться такой атрибуции, которая проводится на основе статистического сопоставления стилистических параметров исследуемого текста с аналогичными параметрами текстов предполагаемых авторов.

Традиционно технология проведения атрибуции предусматривала, что сначала па основе гипотез и предположений исследователей формировался априорный словарь признаков (АСП). Затем все тексты описывались на основе этих признаков, и далее проводился компаративный анализ исследуемого анонимного текста путем сопоставления его с имеющимися текстами предполагаемых авторов. На результатах этого анализа и строилось общее заключение о возможном авторстве. Следует отметить, что наиболее слабым звеном в данной технологической цепочке является проблема формирования исходного априорного словаря признаков, поскольку практически очень сложно сформировать такоіі АСП, который не содержал бы неинформативных или малоинформативиых признаков с точки зрения разделения авторов, а значит, это неизбежно отразиться на качестве и достоверности исследований.

В Республике Беларусь атрибуционные исследования, основанные на построении специализированной системы распознавания ранее не проводились. В белорусском литературоведении и текстологии в настоящее время накоплен огромный массив анонимных и псевдоанонимных текстов, которые ждут своих исследователей в связи с подготовкой к изданию энциклопедий и энциклопедических справочников, академических Полных Собраний сочинений. Исторически сложилось так, что документально-фактологического материала осталось немного, и поэтому весьма актуальной представляется проблема разработки принципиально новых технологий на основе методов прикладной статистики и компьютерного анализа данных.

При проведении атрибуционных изысканий исследователям приходится постоянно работать с большими объемами разнообразных данных и показателей, которые характеризуют различные аспекты текстов. Накопленный опыт показывает, что атрибуция представляет собой длительный процесс, и поэтому актуальным является разработка новых методов и средств автоматизации исследований на основе совместного использования методов прикладной статистики и методов моделирования на базе применения технологий компьютерного анализа данных.

Связь работы с крупными научными программами, темами. Результаты предлагаемой диссертационной работы были получены и использовались при выполнении трех научно-исследовательских тем, которые выполнялись в Гродненском государственном университете им. Я.Купалы на протяжении 1992-1999гг. В 1992-93 годах работа осуществлялась в рамках темы "Исследование лннгво-математическими методами авторства текстов белорусских литературных произведений", которая финансировалась Фондом фундаментальных исследований Республики Беларусь. В 1995-96 го-

дах работа проводилась при проведении исследований по теме "Исследоваїніе характеристик авторского стиля в белорусской литературе на основе методов лингво-статистики" (номер госрегистрации №ДР 1995677), которая была утверждена и финансировалась министерством образования РБ. Дальнейшее развитие работа получила в 1997-99г. в рамках выполнения темы "Стилемстрпческое исследование микроструктур текстов белорусской прозы на основе методов многомерного статистического анализа и математической теории распознавания образов" (номер госрегистрации №ДР 19973320), которая также была утверждена и финансировалась министерством образования Республики Беларусь.

Цель и задачи исследования. Целью работы является автоматизация процесса проведения атрибуционных исследований авторских текстов на эсновс применения современных методов прикладной статистики и компьютерного анализа данных. Для реализации этого решается ряд задач, :вязанных с разработкой принципов и способов составления содержательного описания объектов атрибуции с переходом к формальному описанию, : проектированием и построением специализированной системы распозна-нания по атрибуции, с разработкой и реализацией алгоритмов и программ іля проведения атрибуционных исследований, с апробацией методов и программного обеспечения для атрибуции.

Объект и предмет исследования. Объектом исследования является проблема проведения атрибуции анонимных или псевдоанонимных текстов, для решения которой предлагается разработать и использовать специализированную систему по автоматизации распознавания. Предметом исследования являются модели, методы, алгоритмы и программы, нсобхо-тимые для реализации такой системы распознавания.

Методология и методы проведенного исследования. Авторский текст можно рассматривать как объект сложной природы, который может харак-геризоваться большим числом разнообразных признаков, часть из которых ножет отражать индивидуальные стилистические особенности автора. Ат-эибуция фактически означает распознавание настоящего автора анонимного или псевдоанонимного текста.

Распознавание сложных объектов требует создания специальных сис-гем распознавания, которые состоят из коллектива подготовленных спе-хиалистов, совокупности технических средств накопления и обработки информации и специально разработанных методов, алгоритмов и программ.

В диссертационной работе для проведения атрибуционных исследова-шй предложено использовать новую методологию, которая базируется на юстроении специализированной системы распознавания на основе методов трикладной статистики и математической теории распознавания образов.

Для реализации такой системы разработана оригинальная схема, в которой в качестве отдельных предусмотрены этап сепарирования признаков из исходного набора и этап тестирования уточненного словаря признаков. Для проведения этапа сепарирования разработан специальный метод классификации признаков по степени их информативности.

Научная новизна и значимость полученных результатов заключается в следующем:

сформулированы подходы к построению специализированной системы по автоматизации распознавания при решении проблемы атрибуции анонимных и псевдоаноннмных текстов;

предложена структурная схема специализированной системы по автоматизации распознавания авторства текста, которая предусматривает поэтапную реализацию исследований;

разработан оригинальный метод сепарировании по степени информативности признаков из исходного априорного словаря и построения уточненного рабочего словаря признаков для атрибуции, и па основе этого метода реализован соответствующий алгоритм;

предложены универсальные процедуры моделирования при проведении аттестационного этапа с целью качественной оценки набора признаков, включенных в уточненный рабочий словарь;

разработай программно-технологический комплекс, автоматизирующий процессы моделирования атрибуционных исследований;

в белорусской текстологической науке на основе белорусского текстового материала впервые проведены исследования, связанные с решением проблемы атрибуции на основе применении математического моделирования, методов прикладной статистики и средств вычислительной техники.

Практическая значимость полученных результатов заключается в следующем:

разработана технология автоматизации атрибуции анонимных и псевдоанонимных текстов, использующая методы математического моделирования, которая может быть основой методологической базы при проведении исследований по установлению истинного авторства текстов;

технология моделирования может применяться при проведении стиле-метрическнх исследований, связанных с выявлением и изучением наиболее индивидуальных признаков авторского стиля;

повышается оперативность, достоверность и объективность проводимых на моделях атрибуционных исследований за счет реализации этапа проверки информативности исходных показателей;

- ориентированность разработанной системы на специалистов из разных
предметных областей позволяет проводить комплексные атрибуцпопиые
исследования на основе анализа языка и стили авторов;

разработана система по автоматизации проведения атрибуционных исследований на ПЭВМ;

предложенный в работе подход к построению системы распознавания, методы и алгоритмы построения математических моделей процесса распознавания могут быть использованы при построении оболочки методо-орнентированной экспертной системы, которая может быть в дальнейшем использована для проведения исследований в других областях, например, в искусствоведении для установления истинного авторства музыкальных и иных художественных произведений.

Основные положециялчесертации, выносимые на защиту:

  1. Метод автоматизации атрибуционных исследований, основанный на построении специализированной системы по распознаванию объектов сложной природы.

  2. Средства реализации нового метода автоматизации исследований по атрибуции анонимных и псевдоанонимных текстов.

  3. Технология автоматизации псследованпй по установлению истинного авторства текста, использующая математическое моделирование.

  4. Результаты апробации нового метода автоматизации атрибуционных исследований на реальных текстах белорусских писателей.

Личный вклад соискателя. Все основные положения диссертации выполнены автором лично. В совместных научных докладах и публикациях автору принадлежат вопросы, касающиеся:

разработки нового метода автоматизации атрибуционных исследований анонимных и псевдоанонимных текстов, основанного на построении специализированной системы по распознаванию объектов;

алгоритмов поэтапного выполнения атрибуционных исследований;

технологии автоматизации исследований;

реализации алгоритмов атрибуции на ПЭВМ;

апробации нового метода автоматизации атрибуционных исследований и средств его реализации.

Апробация результатов диссертации. Результаты по теме диссертационной работы были доложены и обсуждены на следующих 6 научных конференциях:

- международная конференция "Компьютерный анализ данных и модели
рование" (Минск, БГУ, 1992 г.);

V межгосударственная научная конференция "Актуальные проблемы информатики: математическое, программное и информационное обеспечение" (Минск, БГУ, 1996 г.);

VII Белорусская математическая конференция (Минск, БГУ, 1996 г.);

Ш международные Купаловские чтения (Минск, 1997 г.);

V международная научная конференция "Компьютерный анализ данных и моделирование" (Минск, БГУ, 1998 г.);

международная научная конференция "Взаимодействие литератур в мировом литературном процессе" (Гродно, ГрГУ, 1998 г.).

Опублнкованность результатов. Результаты диссертации опубликованы в виде 10 статей и 2 тезисов докладов, в том числе:

3 статьи в журнале "Весці HAH РБ. Серыя гуманітарньїх навук";

1 статья в журнале "Весці HAH РБ. Серыя фізіка-тзхнічньїх навук";

1 статьи в журнале "Вестник Гродненского университета";

3 статьи в сборниках статей;

2 статьи в материалах конференций;

2 тезисов доклада.

Общее количество страниц опубликованных материалов составляет 54 стр.

Структура и объём диссертации. Диссертация состоит из общей характеристики, четырех глав, заключения, списка использованных источников и трех приложений; изложена на 90 страницах печатного текста, содержит 6 рисунков, 7 таблиц, 62 наименования использованных источников; приложения изложены на 16 страницах печатного текста.

Похожие диссертации на Автоматизация научных исследований при решении задач атрибуции текстов