Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Автоматизированная система поиска заимствований в электронных изданиях, опубликованных в сети Интернет Крутояров Дмитрий Владимирович

Автоматизированная система поиска заимствований в электронных изданиях, опубликованных в сети Интернет
<
Автоматизированная система поиска заимствований в электронных изданиях, опубликованных в сети Интернет Автоматизированная система поиска заимствований в электронных изданиях, опубликованных в сети Интернет Автоматизированная система поиска заимствований в электронных изданиях, опубликованных в сети Интернет Автоматизированная система поиска заимствований в электронных изданиях, опубликованных в сети Интернет Автоматизированная система поиска заимствований в электронных изданиях, опубликованных в сети Интернет Автоматизированная система поиска заимствований в электронных изданиях, опубликованных в сети Интернет Автоматизированная система поиска заимствований в электронных изданиях, опубликованных в сети Интернет Автоматизированная система поиска заимствований в электронных изданиях, опубликованных в сети Интернет Автоматизированная система поиска заимствований в электронных изданиях, опубликованных в сети Интернет
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Крутояров Дмитрий Владимирович. Автоматизированная система поиска заимствований в электронных изданиях, опубликованных в сети Интернет : дис. ... канд. техн. наук : 05.13.06 Москва, 2006 191 с. РГБ ОД, 61:07-5/1548

Содержание к диссертации

Введение

1. Анализ предметной области и постановка задачи 12

1.1. Истоки авторского права и ответственности за его нарушение 12

1.2. Виды нарушения авторских прав 13

1.3. Проблема нарушения авторских прав 15

1.4. Обзор систем и сервисов поиска плагиата 20

1.5. Способы защиты электронных изданий от плагиата в Интернете 27

1.6. Автоматизация обработки текстовой информации 30

1.7. Постановка задачи 33

1.8. Выводы 35

2. Методы и алгоритмы анализа, представления и сравнения текстовой информации 37

2.1. Методы анализа текстовой информации 37

2.2. Методы защиты от копирования текстовой информации в Интернете 41

2.3. Обзор уровней лингвистической обработки текстовой информации 42

2.4. Определение возможности использования кластерного анализа 45

2.5. Оценка целесообразности использования графовой модели 46

2.6. Исследование возможности использования авторского инварианта 48

2.7. Возможность применения стеганографии 50

2.8. Теория нечётких множеств 53

2.9. Алгоритмы поиска точного совпадения 59

2.10. Алгоритмы поиска общих подпоследовательностей 61

2.11. Методы поиска максимальной повторяющиеся подстроки 64

2.12. Алгоритмы вычисления расстояния между строками 66

2.13. Алгоритмы нечёткого поиска 68

2.14. Обоснование выбора метода анализа текстовой информации 69

2.15. Выводы 71

3. Разработка метода поиска текстовых документов с заимствованиями в глобальной сети Интернет 73

3.1. Метод получения потенциально похожих документов 73

3.2. Метод сравнения текстовых документов 77

3.3. Метод уменьшения размерности сравниваемых текстов 86

3.4. Алгоритм формирования результатов сравнения документов 97

3.5. Выводы 106

4. Программная реализация автоматизированной системы поиска заимствований в электронных изданиях, опубликованных в сети Интернет «WebCompare» 107

4.1. Обоснование выбора используемой поисковой системы 107

4.2. Обоснование выбора поддерживаемых AC WebCompare форматов документов ПО

4.3. Обоснование выбора используемой СУБД 111

4.4. Обоснование выбора инструментального средства разработки АС 112

4.5. Создание базы данных 114

4.6. Архитектура программного комплекса 115

4.7. Краткое описание программной реализации 119

4.8. Краткое описание основных модулей АС 121

4.9. Функциональные возможности программного комплекса "... 126

4.10. Механизм взаимодействия модулей. Алгоритм работы АС 129

4.11. Планирование эксперимента 131

4.12. Описание тестовых наборов 134

4.13. Результаты экспериментальных исследований 134

4.14. Выводы 148

Заключение 150

Библиографический список

Введение к работе

Актуальность темы исследования. Проблемой исследования текстовых произведений занимаются многие века, но лишь в 1851 году английский логик Август де Морган впервые предложил использовать математический аппарат для решения задачи установления авторства. Тем самым Морган породил непрерывающуюся дискуссию о применимости математических методов для задач анализа текстовой информации [104].

Актуальность автоматизации поиска заимствований в электронных изданиях обусловлена проблемой нарушения авторских прав. В настоящее время нелегальное распространение произведений, являющихся объектом авторского права - явление обыденное. Однако Интернет позволил максимально упростить саму процедуру нарушения до буквально двух-трех нажатий клавиш. Одни и те же материалы многократно копируются на разных сайтах, что невозможно без нарушения норм авторского права. Кроме того, проблема незаконного заимствования текстовых материалов затрагивает и систему высшего образования. Благодаря тому, что в глобальной сети Интернет опубликованы, в некоторых случаях незаконно, многие электронные издания, а также в силу незнания действующего законодательства в области авторского права, многие считают возможным копировать фрагменты опубликованных в сети Интернет электронных изданий, с последующим присвоением авторства. По данным, опубликованным Education Week (http://www.plagiarism.org/plagiarism_stats.html), основанным на национальном исследовании (USA) следует, что 54% студентов незаконно используют в своих работах материалы, опубликованные в сети Интернет. Стоит также отметить, что 47% студентов считают, что их преподаватели часто игнорируют случаи плагиата в студенческих работах. Центр Академической Честности (The Center for Academic Integrity) обнаружил, что 80% студентов признаются в плагиате, совершённом хотя бы однажды.

С каждым годом все больше изданий переводится в электронную форму [87]. Одни из них публикуются на компакт дисках, другие - в глобальной сети Интернет. При этом практически любое электронное издание, в том числе и опубликованное в сети Интернет, является объектом авторского права.

В настоящее время, многие ошибочно считают, что материалы, опубликованные в глобальной сети Интернет можно копировать, не заботясь об исключительных правах автора. Статья 9 закона об «Авторском праве и смежных правах» гласит: «Для возникновения и осуществления авторского права не требуется регистрации произведения, иного специального оформления произведения или соблюдения каких-либо формальностей».

В настоящее время в мире существует значительное количество систем, позволяющих осуществлять поиск заимствований (обзор систем представлен в четвёртом разделе первой главы диссертационной работы), однако в России разработки в данном направлении ведутся не так давно. Система анализа текстов на наличие заимствований Antiplagiat.ru весной 2005 года впервые в России предложила набор услуг, в совокупности реализующих технологию проверки документов на наличие заимствований из общедоступных сетевых источников1. Основным недостатком существующей системы является ограниченность области поиска документов с заимствованиями, которая включает в себя лишь документы, ранее загруженные из сети Интернет, прошедшие процедуру фильтрации и занесённые в системную базу данных2.

Актуальность исследования заключается в необходимости создания методов и автоматизированного инструментария, позволяющих осуществлять эффективный и адекватный поиск ЭИ, опубликованных в сети Интернет, содержащих заимствования.

Предмет и объект исследования. Объектом исследования являются системы, позволяющие производить поиск заимствований в текстовом материале, опубликованном в глобальной сети Интернет. Предметом исследования и разработки является множество методов и алгоритмов, позволяющих осуществлять поиск заимствований в текстовом материале, а также алгоритмическое обеспечение систем поиска заимствований в текстовой информации, опубликованной в глобальной сети Интернет.

Цель и задачи исследования. Целью диссертационной работы является создание автоматизированной системы, а также разработка методов и алгоритмов, позволяющих производить поиск заимствований в текстовой информации, опубликованной в глобальной сети Интернет. Для достижения цели были решены следующие задачи:

1 http://www.antiplagiat.ru/ 2http://www.antiplagiat.ru/show.php?doc=technology

• обзор программных систем, позволяющих производить поиск заимствований в сети Интернет;

• анализ методов и способов, позволяющих защищать электронные документы от несанкционированного копирования;

• разработка методов и алгоритмов, позволяющих осуществлять поиск заимствований в ЭИ, опубликованных в сети Интернет;

• разработка метода поиска электронных документов, опубликованных в сети Интернет, потенциально похожих на исходный документ;

• исследование частоты использования словосочетаний и устойчивых выражений в электронных документах, связанных с полиграфией и издательским делом;

• программная реализация разработанных и предложенных методов и алгоритмов поиска заимствований в ЭИ, опубликованных в сети Интернет;

• исследование скорости и эффективности разработанных методов поиска заимствований.

Методы исследования. В представленной работе были использованы: теория множеств, теория фильтров, теоретико-вероятностные методы и методы концептуального анализа [3], а также внелингвистический контент-анализ в сочетании с элементами нечёткого сравнения, лексического и синтаксического анализа.

При создании программного комплекса, а также при исследовании алгоритмов сравнения текстовой информации применялись методы объектно-ориентированного программирования (ООП), объектно-компонентного программирования (ОКП), динамического программирования, структурного и модульного программирования, теория баз данных.

Оценка теоретической значимости результатов работы. Полученные методы и алгоритмы являются теоретической основой для создания автоматизированной системы поиска заимствований в электронных изданиях, опубликованных в глобальной сети Интернет. Предложенные методы позволяют производить сравнение текстового материала, опираясь сразу на два ортогональных метода (внелингвистический и лингвистический). Комбинация внелингвистического контент-анализа в сочетании с элементами лексическо го и синтаксического анализа позволяет по-новому подойти к проблеме сравнения текстовых фрагментов для выявления заимствований.

Практическая значимость работы. Практическая ценность диссертационной работы заключается в разработанных методах, которые прошли, в ходе тестовых испытаний, исследование на скорость и эффективность. Разработанные методы решения задачи поиска заимствований позволяют значительно сократить время, затрачиваемое на ручной анализ документов в сети Интернет, для определения текстовых документов с заимствованиями. Программный комплекс «WebCompare», разработанный с использованием результатов представленной диссертационной работы, позволяет производить поиск электронных изданий, опубликованных в сети Интернет, содержащих заимствования. Тестирование АС показало высокую эффективность разработанного в рамках диссертационного проектирования метода поиска заимствований, о чём свидетельствуют данные, представленные в четвёртой главе и приложениях. Также определён размер документов (от 3-5 до 30 Кб), для которых использование разработанного программного комплекса является наиболее эффективным. В среднем, для документов с оговоренным ранее размером при использовании разработанного двухуровневого метода время сравнения снижается на 30-70% по сравнению с обычным одноуровневым сравнением.

Разработанный программный комплекс «WebCompare» зарегистрирован в Международном Центре сертификации результатов интеллектуальной деятельности (получен сертификат регистрации объекта интеллектуальной собственности SRI № RU02R1RU20060049 от 25.09.2006).

Достоверность полученных результатов и выводов. Достоверность полученных результатов подтверждается использованием проверенных математических методов. Реализованная в рамках диссертационной работы программная система показала на практике эффективность предложенных методов и алгоритмов для поиска заимствований в ЭИ, опубликованных в сети Интернет. Достоверность и эффективность подтверждена представленными актами о внедрении.

Научная новизна и значимость работы. В диссертационной работе решена научно-практическая задача автоматизации поиска заимствований в ЭИ, опубликованных в сети Интернет. Разработаны и программно реализо ваны методы и алгоритмы, позволяющие производить поиск заимствований в текстовом материале, опубликованном в глобальной сети Интернет. Получены новые научные результаты:

• разработан двухуровневый метод поиска заимствований в электронных изданиях, опубликованных в сети Интернет, позволяющий сократить время сравнения документов, содержащих от 5 до 30 Кб текстовой информации, в среднем на 50%;

• разработан метод поиска электронных документов, опубликованных в сети Интернет, потенциально похожих на исходный документ;

• разработан алгоритм поиска в верхней треугольной матрице последовательностей, параллельных главной диагонали, максимально покрывающих ось абсцисс, не перекрывающимися проекциями, позволяющий формировать последовательности слов для двухуровневого метода поиска заимствований;

• разработана архитектура и программно реализована автоматизированная система поиска заимствований в электронных изданиях, позволяющая осуществлять поиск плагиата в электронных документах, опубликованных в сети Интернет, а также расположенных на локальных носителях информации.

Основные положения, выносимые на защиту:

• метод поиска заимствований в ЭИ, опубликованных в сети Интернет;

• метод поиска электронных документов, опубликованных в сети Интернет, потенциально похожих на исходный;

• автоматизированная система поиска заимствований в ЭИ, опубликованных в сети Интернет «WebCompare»;

• оценка скорости работы и эффективности программно реализованной автоматизированной системы поиска заимствований.

Апробация результатов работы. Основные положения диссертационной работы и результаты исследований были представлены на конференциях и заседаниях:

• 58-я и 59-я научно-техническая конференция Московского государственного университета печати;

• конференция студентов и аспирантов МГУП;

• заседания кафедры «Информационные технологии» МГУП.

Внедрение автоматизированной системы. Разработанный программный комплекс был внедрён в одном из крупнейших издательств на территории РФ, специализирующемся на выпуске электронных изданий: Директме-диа Паблишинг. Автоматизированная система также прошла внедрение на кафедре «Информационные технологии», в Московском государственном университете печати.

Публикации. Основные результаты диссертационной работы были представлены в 7 работах, опубликованных в журналах, сборниках и вузовских изданиях Российской Федерации. Получен сертификат регистрации объекта интеллектуальной собственности в Международном Центре сертификации результатов интеллектуальной деятельности.

Структура и объём диссертации. Диссертационная работа состоит из введения, 4 глав, заключения, библиографического списка, 9 приложений.

В первой главе диссертационной работы проведено исследование истоков авторского права, а также ответственности за незаконное присвоение авторства. Представлена классификация видов нарушения авторских прав. Проведён обзор программных систем и сервисов поиска заимствований и плагиата. Представлено описание наиболее часто используемых способов защиты электронных изданий, опубликованных в глобальной сети Интернет. Представлена информация об автоматизации обработки текстовой информации, а также о задачах, решаемых системами АОТ. Проведена постановка задачи, решаемой в ходе диссертационного исследования.

Во второй главе исследованы методы анализа, представления и сравнения текстовой информации, применимые для решения задачи диссертационной работы. Также рассмотрена эффективность и адекватность применения рассмотренных методов для решения поставленных задач. Проведён обзор уровней лингвистической обработки текстовой информации, в частности морфологический, синтаксический и семантический. Исследована возможность применения кластерного анализа, графовой модели, авторского инварианта, стеганографии, теории нечётких множеств. Рассмотрены существующие алгоритмы поиска точного совпадения, в контексте решения поставленной задачи. Рассмотрены алгоритмы и методы поиска максимальной повторяющейся подстроки и поиска общих подпоследовательностей. Проведено обоснование выбора метода анализа текстовой информации.

В третьей главе диссертации проведена разработка и описание метода получения потенциально похожих документов на исходный сравниваемый текстовый документ. Проведена разработка и описание метода сравнения текстовых документов для выявления фрагментов заимствования. Рассмотрена возможность введения в алгоритм сравнения весовых функций, позволяющих повысить эффективность разработанного метода. Предложен алгоритм поиска в верхней треугольной матрице последовательностей, параллельных главной диагонали, максимально покрывающих ось абсцисс не перекрывающимися проекциями. Разработан метод уменьшения размерности текстового документа, являющийся основой в методе сравнения текстовой информации. Разработан алгоритм формирования объединённых результатов сравнения текстовых документов, позволяющий определять итоговую оценку объёма заимствования при разбиении исходного текстового материала на незначительные фрагменты в разных текстовых документах, опубликованных в сети Интернет.

В четвёртой главе проведена разработка и программная реализация автоматизированной системы поиска заимствований в электронных изданиях, опубликованных в сети Интернет. При проектировании АС были использованы разработанные в представленной работе методы и алгоритмы, позволяющие проводить анализ и сравнение текстовой информации. Проведено обоснование выбора используемой поисковой системой в разработанной АС, а также обоснование выбора поддерживаемых программным комплексом WebCompare форматов документов. Представлено описание архитектуры, а также основных компонент и модулей разработанного программного комплекса WebCompare. Проведены экспериментальные исследования, результаты которых представлены в данной работе, а также в приложениях. Данные, полученные в ходе экспериментальных исследований, позволяют оценить эффективность и адекватность разработанных методов, направленных на выявление заимствований в электронных изданиях, опубликованных в сети Интернет. Основываясь на проведённых исследованиях, определен размер текстовых документов, при котором наиболее эффективно и целесообразно использовать разработанный метод поиска заимствований. Проведена апробация работы и внедрение программной системы, показавшие эффективность методов поиска и обнаружения заимствований, разработанной в рамках диссертационной работы, автоматизированной системой WebCompare.

В заключении формулируются основные выводы, полученные в ходе исследований, проведённых в рамках диссертационной работы.

Представленная работа содержит 187 страниц, 26 рисунков, 5 таблиц, библиографический список содержит 131 наименование, также в работе представлены 9 приложений, которые содержат блок-схемы алгоритмов, графический материал, иллюстрирующий результаты тестовых испытаний разработанной программной АС, экранные копии форм программного комплекса WebCompare, а также материалы, не вошедшие в основную часть диссертационной работы.

Истоки авторского права и ответственности за его нарушение

Авторское право в современном смысле было установлено лишь во времена эпохи Просвещения. Родиной первого авторского и патентного законодательства считается Великобритания, где в 1710 году появился первый авторский закон, известный как «Статус королевы Анны» и содержавший один из важнейших принципов авторского права - «копирайт». Запрет тиражирования опубликованного произведения без согласия автора. Основной целью такого правового регулирования была защита интересов издателя, но осуществлялась она с помощью законодательной конструкции, опиравшейся на волеизъявление автора, которому предоставлялось монопольное право на публикацию произведения в течение 14 лет с момента его создания, а также возможность продления этого срока ещё на 14 лет при жизни автора. Характерно, что на автора возлагалась «встречная обязанность» - предоставлять в публично доступные библиотеки несколько экземпляров своих произведений. [43, с. 22]

Профессор Shifra Baruchson-Arbib и Eti Yaari в своей статье «Printed Versus Internet Plagiarism: A Study of Students Perception» отмечают, что термин «плагиат» происходит от латинского корня «Plagiarius», что означает «похититель». Впервые данный термин использовал римский поэт Martial, в первом веке нашей эры [116, с. 141-148]. Начиная с 18 века термин «плагиат» применяется исключительно к литературному воровству [107 с. 5-9].

Традиционно литературное воровство было сравнимо с воровством детей или рабов, подчёркивая тем самым сильную связь между артистическими и биологическими созданиями [109, с. 507-539]. Авторское право рассматривалось не с имущественной стороны, а как продолжение и отражение личности самого автора, в связи с чем последний приобретал в силу «естественной справедливости» права на охрану своего произведения в качестве части своей личности.

Однако и в Англии и во Франции авторские права рассматривались, по существу, как права собственности, обеспечивающие авторам, их наследникам или иным правопреемникам возможность получения имущественной выгоды от использования охраняемого произведения. Такой подход оказал большой влияние на развитие авторского права в континентальной Европе и способствовал развитию driot moral («моральных» или личных неимущественных прав автора). В результате в континентальной правовой системе авторские права оказались не только наделены чертами, свойственными праву собственности, но и наряду с имущественным содержанием включали дополнительные правомочия, защищающие нематериальные интересы автора. [43, с. 26]

В настоящее время Уголовный кодекс РФ трактует термин «плагиат», как присвоение авторства. Следовательно, присвоение авторства - это противозаконное действие, в результате совершения которого субъект, не принимающий творческого участия в создании произведения, выдаёт себя за автора. Отдельно следует отметить, что законом об авторском праве и смежных правах защищаются образы и язык произведения. При этом такие элементы произведения как: тема, сюжет, идейное содержание - юридически безразличны. Юридическая тонкость заключается в том, что если человек будет выдавать себя за автора чужого произведения, но при этом он не будет предпринимать никаких действий, то этот человек не будет считаться нарушителем закона. Только в случае воспроизведения, распространения чужого произведения под своим именем, человек становится нарушителем. [29 с. 74-78]

Статья 146 УК РФ предусматривает следующие виды наказания за незаконное использование объектов авторского права: штраф в размере от 200 до 400 минимальных размеров оплаты труда (МРОТ); обязательные работы на срок от ста восьмидесяти до двухсот сорока часов; арест на срок от трех до шести месяцев; лишение свободы на срок до двух лет. Кроме уголовной ответственности законодательство РФ предусматривает также административную и гражданско-правовую ответственность [73]. Так, в соответствии со статьёй 49 закона «Об авторском праве и смежных правах»: обладатели исключительных прав вправе требовать выплаты компенсации в размере от 10 до 50 000 МРОТ. [32]

Сразу после создания произведения автору принадлежат права двух видов: личные неимущественные права и имущественные права.

При этом следует отметить, что авторское право на произведение науки, литературы и искусства возникает в силу факта его создания. Для воз 14 никновения и осуществления авторского права не требуется регистрации произведения, иного специального оформления произведения или соблюдения каких-либо формальностей.[32, Статья 9]

Личные неимущественные права (право признаваться автором произведения; право обнародовать или разрешать обнародовать произведение; право на защиту произведения) принадлежат автору независимо от его имущественных прав и сохраняются за ним в случае уступки исключительных прав на использование произведения.

К имущественным правам, принадлежащим автору, относятся исключительные права на использование произведения в любой форме и любым способом.[32, Статья 16] При этом имущественные права могут быть переданы третьим лицам по авторскому договору.

Таким образом, нарушение авторских прав в глобальной сети Интернет можно разделить на две категории: Нарушение личных неимущественных прав - присвоение авторства на размещенные в Интернете произведения, то есть плагиат3. Нарушение имущественных прав - размещение произведений в сети и предоставление к ним доступа без разрешения правообладателя. В настоящее время в судебной практике принято различать следующие виды плагиата: [29 с. 75] выпуск в полном объёме или части чужого произведения под собственным именем; выпуск произведения под своим именем, созданного в соавторстве с другими лицами без указания их фамилий; использование в произведении фрагментов произведений других авторов без оформления цитат или указания ссылок на первоисточник; действия по принуждению к соавторству, а также к отказу от авторства.

Одной из основных и очевидных причин, по которой не стоит заниматься нарушением авторских прав является то, что плагиат это - нарушение закона. При этом в зависимости от обстоятельств и масштабов нарушения В УК РФ плагиат - присвоение авторства. может наступить как административное и гражданско-правовое, так и уголовное наказание [73]. Во многих университетах мира достаточно плотно занимаются проблемой плагиата в студенческих работах. Во многих университетах в уставе прописаны санкции, применяемые к учащимся, в случае выявления случаев плагиата в сдаваемых работах. В большинстве случаев, при неоднократном обнаружении значительного плагиата в работе учащегося, устав учебного заведения позволяет дисциплинарной комиссии осуществить процедуру отчисления без права восстановления. Следует отметить, что в России в последнее время наметилась тенденция повышения внимания общественности к описываемой проблеме. Об этом свидетельствует появление программных систем и сервисов (http://www.rg.ru/2005/09/27/antiplagiat.html, http://www.antiplagiat.ru), позволяющих производить поиск плагиата.

Методы анализа текстовой информации

Дескрипторный метод. Существует несколько методов построения дескрипторов текстового документа. Одним из простейших является метод, основанный на формировании блока слов и выражений из лексики предметной области документа. При этом дескрипторы могут строиться на основе, как содержания текста, так и заголовка. Однако данный метод не позволяет получить достоверную информацию о совпадении фрагментов либо подпоследовательностей в сравниваемых документах. Таким образом, использование дескрипторного метода может являться обоснованным и эффективным в системах поиска «по каталогу», либо в системах автоматической классификации документов.

Векторная модель. В настоящее время методы, основанные на векторном представлении текстовых документов, являются одними из самых распространённых. Основная идея векторной модели заключается в том, что каждый текстовый документ может быть представлен в виде п -мерного вектора V = (kx,k2,...,kn). При этом ki,i = \,2,-,n - вес каждого из п измерений. Согласно векторной модели схожесть двух документов хх и хг определяется как корреляция между векторами их описаний. Одним из способов определения корреляции является вычисление скалярного произведения двух векторов, соответствующих сравниваемым документам [24].

Следует отметить, что существует множество методов назначения весов каждому измерению вектора, а также методов оценки меры близости (схожести) векторов. Однако все методы, основанные на векторных моделях, имеют значительный недостаток для решения поставленной задачи. Они, впрочем, как и кластерные методы, позволяют лишь получить некоторый коэффициент похожести, не предоставляя при этом сведений о конкретных совпавших фрагментах сравниваемых документов.

Аналоги Дублинского ядра. Несмотря на то, что впервые Дублинское ядро (Dublin Core) было предложено в 1995 году на состоявшемся в Дублине симпозиуме, организованном Online Computer Library Center (OCLC) и National Center for Supercomputing Applications (NCSA) для описания информационных ресурсов библиотечных систем, оно стало широко использовать в различных поисковых системах. ДЯ - это набор элементов метаданных, смысл которых зафиксирован в спецификации определяющего его стандарта (http://dublincore.org/documents/dcmierms/). В терминах значений этих элементов можно описывать содержание различного рода текстовых документов [92 с. 19]. Таким образом, методы, основанные на использовании информации ДЯ могут использоваться для сравнения текстовых документов.

Модель представления текстового документа на основе ДЯ может быть представлена в следующем виде:

При этом множество пар D является представлением одного документа. Nn і = 1,2,...,max - имена элементов метаданных ДЯ, описывающих содержание документа. Vn і = 1,2,--,max - значение элемента метаданных. Максимальное количество элементов не является пределом, поэтому некоторые разработчики вносят собственные элементы метаданных. Так, например, на официальном сайте (http://dublincore.org/documents/dcmierms/) представлено описание 86 элементов метаданных. Однако, как и в случае с дескрипторным методом, использование методов основанных на ДЯ является наиболее целесообразным в системах каталогов.

Метод А. Т. Фоменко. Предложенный группой Фоменко метод мате-матико-статистического анализа исторических текстов заключается во введении меры похожести (расстояния) в формальном пространстве, описывающем возможные варианты фрагментов исторических хроник. То есть, в некотором математическом пространстве лежат образы текстовых документов. При этом каждый документ представляется не в виде одной точки пространства, а скорее как облако точек, сконцентрированное в определённом месте пространства. А некоторой функцией определяется мера близости (схожести) расположенных в пространстве облаков [62]. Несмотря на значительную ре-сурсоёмкость описанного метода, он является эффективным для решения задачи сравнения документов. Однако, как и большинство остальных, метод А.Т. Фоменко позволяет лишь получить некоторый коэффициент, характеризующий схожесть сравниваемых документов. В то время как для решаемой задачи одним из приоритетных направлений является визуализация совпа дающих фрагментов, которую невозможно организовать при использовании описанного метода.

Семантические сети. Одним из бурно развивающихся направлений в настоящее время является представление текстовой информации в виде семантической сети. Под семантической сетью при этом понимается граф с вершинами, которые соответствуют некоторым фактам, понятиям или атрибутам понятий. Рёбра графа соответствуют отношениям. В работе [35] рассмотрена следующая классификация семантических сетей: информационные сети, указывающие только на взаимосвязь некоторых объектов, заданных, например, их именами; языковые сети (например, грамматики, представленные графом языка - сетью); сети определения понятий, показывающие на связи объектов и некоторых свойств или характеристик этих объектов; сети фактов, которые имеют простейшие временные, логические или технические связи между собой; классифицирующие сети, устанавливающие подчиненность некоторого сорта для рассматриваемых объектов; функциональные сети, определяющие операнды и операции, воздействующие на операнды; сценарии как совокупности последовательностей работ. Использование семантической сети для представления текстов позво ляет практически полностью устранить влияние естественного языка, и тем самым акцентировать внимание на семантике. Следует отметить, что для по строения семантической сети необходимо провести кроме семантического, морфологический и синтаксический анализ текстовых данных. Таким обра зом, построение семантической сети является чрезвычайно ресурсоёмкой за дачей. Что, в свою очередь, делает неэффективным использование семанти ческой сети для решения задачи сравнения большого количества документов.

Метод получения потенциально похожих документов

В представленной работе под похожестью текстовых документов подразумевается наличие в текстах одинаковых фрагментов. При этом фрагментом может считаться подпоследовательность, состоящая из более чем одного слова или предложения, не обязательно идущих в том же порядке, что и в исходном документе. Текст и документ в настоящей работе считаются равнозначными терминами, обозначающими текстовый документ. При этом такая информация как цвет, шрифт, начертание, кегль, интерлиньяж, выравнивание и прочее не влияет на сравнение документов.

Для решения задачи поиска потенциально похожих документов в сети Интернет целесообразно воспользоваться ресурсами поисковой системы. Данное предположение основано на том факте, что мощные поисковые системы (Яндекс, Google, Yahoo, MSN, Rambler и прочие) содержат в модифицированном виде значительную часть данных, опубликованных в сети Интернет и доступных для большинства пользователей сети. При возможности использования ресурсов существующих поисковых систем разработка и создание специализированного программно-аппаратного комплекса, позволяющего выполнять поиск документов содержащих одинаковые фрагменты с исходным текстом, является нецелесообразной.

В общем случае, для электронного издания Н = Н,,Н2,...,Н7 на основе исходного текста її,, должны быть сформированы поисковые запросы. После выполнения запроса поисковая система возвращает список URL адресов на документы, потенциально похожие на исходный документ. Автоматизированная система загружает из глобальной сети документы, ссылки на которые были получены от поисковой системы. После чего производится сравнение загруженных документов Г = fj, Г2,.„, Гу с исходным текстом Н,..

Необходимо найти все последовательности из единиц, располагающиеся над главной диагональю матрицы при этом параллельные главной диагонали, учитывая тот факт, что /?+1 - определяет длину последовательности, а а - определяет сдвиг найденной последовательности относительно главной диагонали. При а О последовательность расположена над главной диагональю матрицы A = (aUj), а, так как анализируемая матрица симметрична относительно главной диагонали, то воспользуемся возможностью сократить объём вычислений, исключив из рассмотрения случай при а 0.

Следует отметить, что при таком поиске последовательностей, значение Р значительно превосходит реальное количество повторяющихся последовательностей. Так, если в тексте присутствует лишь одна последовательность повторяющаяся 4 раза, то по описанному алгоритму поиска будет получено 6 последовательностей. После анализа количественного несоответствия получаемого числа последовательностей реальному, был сделан вывод о том, что получаемые данные увеличиваются в соответствии с правилом треугольных чисел. Как известно, треугольные числа имеют вид: 1, 3, 6, 10, 15, 21... и вычисляются по формуле: t{n) = —-. Имея в качестве результата вычисления треугольное число, можно получить исходное, путём вычисления квадратных корней. В описанном случае положительный корень характеризует реальное количество повторяющихся последовательностей. Однако при включении в текст частично перекрывающихся последовательностей или входящих в состав других последовательностей, что свойственно текстам на естественном языке, возникает ситуация, при которой получаемые по описанному алгоритму результаты не соответствуют треугольным числам.

Для решения поставленной задачи был предложен алгоритм поиска в верхней треугольной матрице последовательностей, параллельных главной диагонали, максимально покрывающих ось абсцисс не перекрывающимися проекциями. Блок-схема предложенного алгоритма представлена в приложении 3.

Обозначим через Y = y],y2,...,yp список отсортированных по частоте вхождения в текст х найденных последовательностей. Как будет отмечено ниже, значимость выражений, часто употребляемых во всех текстах данного направления меньше, чем значимость выражений редко употребляемых в текстах данного направления, но часто употребляемых в анализируемом тексте. Таким образом, необходимо удалить из списка Y = yvy2,...,yp такие последовательности, которые являются часто употребляемыми и распространёнными. Для этого воспользуемся базой данных, сформированной ранее на основе корпуса текстов Ф = хх,хг,...,хф из одной тематической области.

О правилах формирования О., как и о коэффициенте Кх, также упоминается в разделе, посвященному предварительному анализу текстов хх и хг. Отметим лишь тот факт, что БД, будучи отсортированная по параметру Ns, используется для удаления часто встречающихся и общеупотребимых выражений из Y. Для этого используем коэффициент Кх. Обозначив для каждой последовательности yt, і = 1,2,...,Р количество вхождений в текст Л: через y\N),i={,2,...,P, получаем следующее условие удаления элементов из У: уі є БД для первых Кх -#Q элементов при сортировке по Ns.

Таким образом, мы получаем Y, список последовательностей слов из текста х. При этом список содержит последовательности, относительно редко употребляемые в текстах этой категории, но часто встречающиеся в тексте х. Далее используем полученные последовательности из Y для формирования запросов в поисковую систему. Учитывая тот факт, что сформированный запрос может лишь частично соответствовать исходному документу, а также то, что поисковая система возвращает ссылки на все документы, в которых встретилась последовательность, указанная в запросе, делается предположение, что в среднем объём совпадающих подпоследовательностей в исходном и сравниваемом документе будет незначительным, в первую очередь из-за большого количества ссылок возвращённых поисковой системой на документы, никак не связанные с исходным текстом.

Обоснование выбора используемой поисковой системы

В настоящее время лучшей русскоязычной поисковой системой считается Яндекс. Сегодня Яндекс - это крупнейший российский портал, предлагающий пользователям разнообразные веб-службы. Летом 2001 года Яндекс, согласно данным исследовательских компаний Комкон и Gallup Media, стал самым большим ресурсом в Рунете по объему аудитории и с тех пор укрепляет свои лидирующие позиции. По данным опроса фонда «Общественное мнение» уже летом 2003 года из всех российских пользователей, заходящих в Интернет в течение дня, в среднем не менее 75% посещают и сайт Яндекса. В абсолютных цифрах (включая зарубежных пользователей) ежедневная аудитория Яндекса составила в августе 2006 года около 3 миллионов человек, ежемесячная - свыше 21 миллиона. Самая популярная страница в российском Интернете - страница с результатами поиска на Яндексе: каждый месяц чуть более 19 миллионов посетителей читают ее свыше 680 миллионов раз8. В настоящее время Яндекс предоставляет возможность осуществлять поиск по более чем одному миллиарду веб-страниц.

Лучшей мировой поисковой системой является Google. В статье «The 100 best products of the year»9 от 22 июня 2006 года поисковая система Google признаётся наиболее часто используемой и самой любимой среди пользователей в Интернете. Google регулярно получает премии. Одной из последних является «Best of the net Awards 2005» в номинации «Best search engine»10. Следует также отметить, что в 2004 году на конкурсе, организованном SearchEngineWatch.com, Google победила в 8 из 11 номинаций. По результатам опроса, проведённого в 2006 году компанией YouGov, специализирующейся на рыночных исследованиях, любимым Интернет-брендом жителей Великобритании стал Google [23]. Ещё в 2005 году поисковая система Google позволяла производить поиск по более чем восьми миллиардам веб-страниц.

Обе поисковые системы предоставляют возможность пользователю программно получать результаты поисковых запросов. Система Яндекс pea-, лизует данную возможность на основе XML11 формата данных, корпорация Google - через SOAP Search API. Лицензионные условия пользования ресурсами обеих систем во многом похожи. Так Яндекс.ХМЬ изначально позволял бесплатно задавать до 200 запросов в день, однако в последнее время увеличил ограничение до 1000. В то время как Google уже долгое время предоставляет возможность сделать 1000 запросов. Ограничения при использовании Яндекс.ХМЬ: поисковых страниц в день не более 1000, групп на странице не более 20, документов в группе не более 3, пассажей в документе не более 5, длина запроса в символах не более 150, число страниц при листании не более 100. При использовании Google SOAP Search API основными ограничениями являются: длина поискового запроса не более 2048 байт, максимальное количество слов в запросе 10, максимальное количество результатов за один запрос 10, при множественном запросе максимальное количество ссылок полученных на одну поисковую последовательность 1000. Следует отметить, что при необходимости получить все 1000 ссылок с одной поисковой последовательности необходимо будет произвести 100 поисковых запросов.

Несмотря на то, что Яндекс.ХМЬ имеет преимущества перед Google SOAP Search API автоматизированная система WebCompare в настоящее время построена с использованием ресурсов корпорации Google. Это связано в первую очередь с тем, что согласно пресс-релизу от 26 марта 2004 года Яндекс изменил алгоритм ранжирования поисковой системы. Также была введена дополнительная очистка результатов от дублирования. Тем самым пользователь был избавлен от повторения в списке найденного почти одинаковой информации [58]. Однако введение функции очистки от дубликатов результатов поиска негативно сказалось на работоспособности автоматизированной системы WebCompare. Данное обстоятельство связано в первую очередь с тем, что система ориентирована на поиск именно дубликатов, или, как минимум, похожих документов, а Яндекс сделал так, что практически одинаковые документы не выдаются пользователю. Учитывая тот факт, что при использовании поисковой системы Google можно отключать фильтрацию дубликатов документов, что является значительным преимуществом при решении поставленной задачи, в качестве используемой поисковой системы была выбрана Google.

Подтверждением правильности выбора поисковой системы Google являются также результаты сравнительных поисковых запросов. В приложении 5 представлена информация по количеству найденных веб-страниц поисковыми системами Яндекс и Google. Для проведения сравнительного анализа для формирования запросов в поисковые системы были выбраны 40 слов и словосочетаний из первых ста наиболее распространённых в исследуемом корпусе текстов Ф =xvx2,...,Xf из одной тематической области (полиграфия).

В поле «запрос» представлен запрос, посылаемый сравниваемым поисковым системам. Поля «Яндекс» и «Google» содержат, соответственно, количество найденных веб-страниц по поисковому запросу. Последнее поле «к» соответствует коэффициенту различия в результатах поиска. То есть, значение «к» получается путём деления значения из поля «Яндекс» на соответствующее значение поля «Google». В приложении 5 представлены запросы, упорядоченные по полю «к». Как видно из коэффициентов различия для отдельных слов, поисковая система Яндекс действительно превосходит Google по количеству найденных веб-страниц. Однако для запросов, состоящих из нескольких слов, поисковая система Google не уступает Яндексу. Более того, в среднем для запросов, состоящих из двух и более слов, количество документов выдаваемых Google почти в два раза больше, чем у Яндекса. Для англоязычных слов и выражений Google превосходит Яндекс на несколько порядков. Не смотря на то, что система WebCompare изначально разрабатывалась для использования с русскоязычными документами, нет никаких ограничений для использования иноязычных текстов. Даже при использовании русскоязычных текстовых документов может возникнуть ситуация, в которой иностранный термин или выражение встречается в документе относительно часто. При этом использование системы Google повысит шансы нахождения документов с заимствованиями.

Похожие диссертации на Автоматизированная система поиска заимствований в электронных изданиях, опубликованных в сети Интернет