Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Выделение структурированной предметной информации из текстов первичных источников на примере физических знаний Коробкин Дмитрий Михайлович

Выделение структурированной предметной информации из текстов первичных источников на примере физических знаний
<
Выделение структурированной предметной информации из текстов первичных источников на примере физических знаний Выделение структурированной предметной информации из текстов первичных источников на примере физических знаний Выделение структурированной предметной информации из текстов первичных источников на примере физических знаний Выделение структурированной предметной информации из текстов первичных источников на примере физических знаний Выделение структурированной предметной информации из текстов первичных источников на примере физических знаний Выделение структурированной предметной информации из текстов первичных источников на примере физических знаний Выделение структурированной предметной информации из текстов первичных источников на примере физических знаний Выделение структурированной предметной информации из текстов первичных источников на примере физических знаний Выделение структурированной предметной информации из текстов первичных источников на примере физических знаний
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Коробкин Дмитрий Михайлович. Выделение структурированной предметной информации из текстов первичных источников на примере физических знаний : дис. ... канд. техн. наук : 05.13.12 Волгоград, 2006 179 с. РГБ ОД, 61:07-5/462

Содержание к диссертации

Введение

Глава 1. Анализ проблемы поддержки процесса формирования информационного обеспечения фонда физических эффектов 13

1.1. Структурированное представление физической информации в поисковом конструировании и изобретательской деятельности 13

1.1.1. Энерго-информационная модель цепей и метод структурных параметрических схем 13

1.1.2. Комбинаторный метод поиска принципов действия 16

1.1.3. Теория решения изобретательских задач 18

1.1.4. Функционально - физический и компьютерные методы поискового конструирования 20

1.2. Методика модификации фонда физических эффектов 24

1.2.1. Методика формирования объёктно-ориентироваш-юго фонда физических эффектов 24

1.2.1.1. Анализ имеющегося массива физических эффектов 25

1.2.1.2. Мобилизация первичной информации 25

1.2.1.3. Анализ первичной информации 26

1.2.1.4. Составление описаний физических эффектов 28

1.2.2. Методика корректировки базы данных по физическим эффектам при включении новых объектно-ориентированных фондов 28

1.2.2.1. Верификация фонда физических эффектов 28

1.2.2.2. Коррекция фонда ФЭ ' 29

1.2.3. Систематизация фонда ФЭ 30

1.3. Существующие подходы к автоматизации процедур формирования объектно-ориентированного фонда ФЭ 30

1.3.1. Подходы к автоматизации процедуры мобилизации первичной информации 30

1.3.2. Анализ методов классификации и фильтрации документов 32

1.3.2.1. Метод Байеса 34

1.3.2.2. Метод опорных векторов SVM 35

1.3.2.3. Метод латентно-семантического анализа/индексирования LSA/LSI 36

1.3.2.4. Метод вероятностного латентного семантического индексирования PLSI 38

1.3.2.5. Метод индексации концептов CI 39

1.3.2.6. Классификатор Гроссберга (ART) 41

1.3.2.7. Самоорганизующиеся карты Кохонена (SOM) 41

1.3.3. Подходы к автоматизации процедуры поиска первичных источников описаний физических эффектов 43

1.3 .4. Подходы к автоматизации процедуры анализа первичных источников описания физических эффектов 44

1.3.4.1. Технология автоматической реконструкции содержания текстов на естественном языке 45

1.3.4.2. Технология извлечения из текста сетевых описаний фактов 47

1.3.4.3. Недостатки рассмотренных технологий применительно к задаче выделения физических эффектов из текстов первичных источников 50

Выводы по первой главе 51

Глава 2. Обобщенная методика поддержки процесса формирования информационного обеспечения фонда физических эффектов 53

2.1 Семантический анализ текста на естественном языке 55

2.2. Методика тематической фильтрации первичных источников . 57

2.3. Фильтрация по маске описаний физических эффектов 63

2.4. Выделение описаний физических эффектов из текста первичных источников 65

2.4.1. Модель представления структурированной предметной информации 67

2.4.2. Отношение семантической однозначности 70

2.4.3. Методика выделения структурированной физической информации в виде физических эффектов из текста 72

2.5. Верификация фонда физических эффектов 83

2.5.1. Ранги подобия физических эффектов по полям «Вход», «Объект», «В ыход » 86

Выводы по второй главе 94

Глава 3. Разработка программного комплекса поддержки процесса формирования информационного обеспечения базы данных физических / эффектов 95

3.1. Архитектура программного комплекса 95

3.2. Подсистема расширения фонда физических эффектов 103

3.3. Подсистема модернизации фонда физических эффектов 107

3.4. Подсистема верификации фонда физических эффектов 111

3.4.1. Верификация физических эффектов по полям «Вход», «Выход», «Объект» 11.2

3.4.2. Верификация физических эффектов по полям «Сущность» или «Наименование» 114

3.4.3. Выявление физических эффектов с рассогласованными входными и выходными картами 117

3.5. Подсистема систематизации фонда ФЭ 118

3.6. База данных концептуальных отношений предметной области «Физический эффект» 120

3.7. База данных концептов предметной области «Физический эффект» 122

3.8. База данных ссылок на источники 123

3.8. База данных тезаурусов фонда физических эффектов 125

Выводы по третьей главе 126

Глава 4. Применение программного комплекса поддержки процесса формирования информационного обеспечения фонда физических эффектов 128

4.1. Результаты функционирования программного комплекса при решении задач расширения фонда физических эффектов 128

4.2. Результаты работы программного комплекса при решении задач модернизации фонда физических эффектов. 135

4.3. Результаты проверки эффективности работы программного комплекса 142

4.4. Использование результатов диссертационной работы 145

4.4.1. Использование для физико-технических эффектов 146

4.4.2. Использование в предметной области «Химия» 147

Выводы по четвертой главе 148

Основные результаты диссертационной работы 149

Список публикаций по теме диссертации 150

Список сокращений и условных обозначений 152

Библиографический список использованной, литературы

Введение к работе

Актуальность. В связи с ростом количества электронных источников все более увеличивается потребность в поиске и выделении интересующей пользователя информации. Опыт использования существующих систем, применяющих универсальные модели выделения информации, свидетельствует о необходимости ограничения обрабатываемой в системе информации до конкретной предметной области (ПО), что позволит более релевантно искать и выделять нужную информацию. В данном исследовании предметная область ограничивается структурированной физической информацией в виде физических эффектов (ФЭ), которые полезны при конструировании принципиально новых высокоэффективных технических систем, разработке новых технологий, научно-техническом прогнозировании, при обучении методам технического творчества.

Существуют различные подходы к формированию концептуальных моделей описания физических эффектов, способам формализации этих моделей и созданию автоматизированных информационных систем на их основе. Значительный вклад в развитие научных направлений, в рамках которых осуществляется структурирование физической информации, внесли Г.С. Альтшуллер, Г.Я. Буш, В.Н. Глазунов, A.M. Дворянкин, М.Ф. Зарипов, В.А. Камаев, К.В. Кумунжиев, А.И. Половинкин, И.Ю. Петрова, 3. М. Шмаков, Р. Аллей, В. Бейтц, Г. Голл, Р. Коллер, П. Крумхауэр, Г. Пресс, В. Роденакер, X. Франке, К. Хикс и другие отечественные и зарубежные ученые.

Эффективность работы с системами, оперирующими структурированной физической информацией в форме физических эффектов, зависит не только от методов и алгоритмов информационного поиска, синтеза и анализа структур физического принципа действия технической системы. В неменьшей степени она зависит от качества и наполнения самого фонда ФЭ.

На данный момент вопросам поддержки процесса формирования информационного обеспечения базы данных ФЭ не уделяется должного внимания ни в одном из направлений, кроме подхода, описанного в трудах А.И. Половинкина и получившего дальнейшее развитие в работах кафедры САПР и ПК ВолгГТУ. Однако и у методики модификации фонда ФЭ, созданной в рамках данного направления, существует серьезный недостаток: все операции осуществляются вручную, что приводит к большим временным и трудовым издержкам.

Таким образом, учитывая, что центральными и наиболее трудоемкими операциями методики являются поиск первичных источников и выделение из текста описаний

физических эффектов, то актуальной является необходимость разработки автоматизированных средств поиска и выделения структурированной физической информации в виде физических эффектов из текстов первичных источников на естественном русском языке (ЕЯ).

Целью работы является повышение эффективности процесса формирования информационного обеспечения фонда ФЭ, а также качества самого фонда за счет автоматизации наиболее трудоемких процедур.

Для достижения данной цели необходимо решить следующие задачи:

  1. Проанализировать процесс формирования информационного обеспечения фонда ФЭ и осуществить постановку задачи автоматизации наиболее трудоемких процедур.

  2. Построить формальные модели и алгоритмы выбранных процедур.

  3. На основе предложенных моделей и алгоритмов разработать обобщенную методику поддержки процесса формирования информационного обеспечения фонда физических эффектов.

  4. Программно реализовать разработанную методику и проверить работоспособность созданного программного комплекса при решении практических задач.

Объект исследования. Различные модели описания ФЭ, тексты физического профиля в первичных источниках на ЕЯ.

Предмет исследования. Методы поиска и выделения структурированной предметной информации в виде физических эффектов из текста первичных источников в сети Интернет.

Методы исследования. В диссертации использованы методы системного анализа, компьютерного моделирования, искусственного интеллекта, компьютерной лингвистики, теории графов, теории баз данных, объектно-ориентированного проектирования систем.

Научная новизна работы состоит в следующем:

  1. Построена модель представления структурированной предметной информации, позволяющая выделять из текста информацию, которую можно представить в виде трехкомпонентной структуры (А,В,С), где А - входное воздействие, С - выходное воздействие, В - объект.

  2. Разработана методика выделения структурированной физической информации в виде физических эффектов из текста, использующая построенную модель. Разработан алгоритм, реализующий методику, и сформированы тезаурусы концептов и концептуальных отношений предметной области «Физический эффект».

  1. Разработаны методика и алгоритм тематической фильтрации первичных источников. Методика основана на методе латентно-семантического анализа текста и отличается от известных аналогов использованием коэффициентов принадлежности тематике семантических классов термов.

  2. На основе предложенных моделей и алгоритмов разработана обобщенная методика поддержки процесса формирования информационного обеспечения фонда физических эффектов, отличающаяся от известной тем, что позволяет автоматизировать ее наиболее трудоемкие процедуры и тем самым повысить качество описания отдельного ФЭ.

Достоверность и обоснованность научных положений и результатов, приведенных в диссертационной работе, обеспечиваются использованием зарекомендовавших себя методов компьютерного моделирования, искусственного интеллекта, компьютерной лингвистики, подтверждаются показателями эффективности работы созданного программного комплекса на тестовом массиве документов, а также результатами его функционирования при решении конкретных задач поддержки процесса формирования информационного обеспечения фонда ФЭ.

Практическая значимость и внедрение:

  1. Разработана модель представления структурированной предметной информации, инвариантная относительно предметных областей. Благодаря данной модели, программный комплекс может быть ориентирован на другие предметные области и формализованные модели ФЭ, например, на химические знания в виде химических эффектов.

  2. Разработан программный комплекс поддержки процесса формирования информационного обеспечения фонда ФЭ (ПК ППФИО БДФЭ), который позволяет существенно снизить время и трудозатраты на поиск описаний новых ФЭ и расширение описаний уже существующих. Кроме того, программный комплекс дает возможность повысить качество фонда ФЭ за счет его постоянного мониторинга, направленного на выявление недостаточно полно описанных и дублирующих ФЭ, а также улучшить наглядность просмотра фонда ФЭ с помощью его систематизации на основе многомерных систематизационных схем. Отдельные компоненты программного комплекса могут применяться в составе иных программных средств.

Данная работа выполнялась в рамках гранта для поддержки научно-исследовательской работы аспирантов вузов Федерального агентства по образованию (шифр: А04-3.16-505). Программный комплекс внедрен в учебный процесс АГТУ, а также зарегистрирован в отраслевом фонде алгоритмов и программ ФГНУ

«Государственный координационный центр информационных технологий» Федерального агентства по образованию РФ.

Основные положения диссертации, выносимые на защиту:

  1. Модель представления структурированной предметной информации.

  2. Методика выделения структурированной физической информации в виде физических эффектов из текста.

  3. Методика тематической фильтрации массива текстовых документов.

  4. Обобщенная методика поддержки процесса формирования информационного обеспечения фонда ФЭ.

5) Программный комплекс ППФИО БДФЭ и результаты его работы.
Апробация. Основные положения диссертации докладывались и обсуждались на

научных семинарах кафедры «САПР и ПК» ВолгГТУ, а также на Международных и Всероссийских научных и научно-практических конференциях: «Информационные технологии в науке, образовании, телекоммуникации и бизнесе (IT + SE)» (Гурзуф, Украина, 2004), «Системные проблемы надежности, качества информационных и электронных технологий (Инноватика)» (Сочи, 2004), «Интеллектуальные системы (AIS). Интеллектуальные САПР (CAD)» (Дивноморское, 2004), «Информационные технологии в образовании, технике и медицине» (Волгоград, 2004).

Публикации. Основные положения диссертации отражены в 12 опубликованных работах. В том числе 3 статьи напечатаны в ведущих рецензируемых научных журналах и изданиях РФ, в которых ВАК рекомендует публикацию основных результатов диссертационных работ.

Структурированное представление физической информации в поисковом конструировании и изобретательской деятельности

В рамках энерго-информационной модели цепей (ЭИМЦ), позволяющей описывать процессы и явления разной физической природы (ФП), протекающие в технических устройствах (ТУ), с помощью единого математического аппарата, Зарипов М.Ф. и др. [27, 28] вводят понятие ФЭ.

Предполагается, что любой процесс в ТУ независимо от ФП может быть представлен в виде совокупности цепей различной ФП (оптической, электрической, тепловой, магнитной, механической, диффузионной, акустической и т.д.), взаимодействующих между собой. Цепью определенной ФП называют материальную среду, имеющую геометрические размеры и характеризующуюся физическими параметрами, присущими явлениям этой физической природы.

Элементарные явления определенной ФП представляют собой реакцию цепи рассматриваемой ФП на воздействие. Для определения связи между воздействием и реакцией рассматриваемой цепи вводятся понятия величин реакции, воздействия и параметров цепи. Величины служат для внешнего описания процесса и имеют различные значения для одной и той же цепи. Параметры характеризуют относительную неизменность материальной среды при отсутствии влияния соседних цепей другой физической природы.

Выявление величин и параметров в цепях различной ФП происходит на базе основ теории подобия и аналогий. Для этого используются 6 критериев, которые представляют собой элементарные зависимости между величинами и параметрами внутри цепи одной ФП. В соответствии с этими критериями и математическими моделями, предложенными физиками для описания рассматриваемых процессов в цепи определенной ФП, определяются величины и параметры цепи.

Взаимодействие цепей различной ФП в ТУ отражается с помощью межцепных зависимостей, которые в рамках ЭИМЦ обозначаются собственно как физико-технические эффекты (ФТЭ). «Физико-техническим эффектом называется объективно существующая причинно-следственная связь, отражающая зависимость между физическими величинами, не учтенную с помощью критериев ЭИМЦ» [28].

Для каждого эффекта (внутрицепной или межцепной зависимости) составляется паспорт, содержащий следующие рубрики; название эффекта; природа входа; входная величина; природа выхода: выходная величина; вторая входная природа; вторая входная величина; формула эффекта согласно ЭИМЦ; параметрическая структурная схема эффекта (формализованное описание принципа действия ТУ); физические формулы описания эффекта; формула коэффициента межцепной (внутрицепной) связи или формула параметра; описание обозначений в формулах (единицы измерений); числовые значения физических констант, свойств материалов, геометрические размеры, входящие в формулу коэффициента; эксплуатационные характеристики эффекта; литература; рисунок технической реализации эффекта; описание особенностей эффекта и другие его характеристики.

Идеи, изложенные в рамках ЭИМЦ, реализованы в автоматизированной системе поиска новых технических решений «Интеллект». Система предназначена для интеллектуальной поддержки инженера-изобретателя, конструктора на этапах поиска принципа действия и эскизной проработки новой конструкции. Она позволяет синтезировать различные варианты принципа действия технических устройств, оценить их эксплуатационные характеристики и дать рекомендации по их улучшению, проводить конструктивную проработку синтезированных принципов действия.

Структурированная физическая информация, формализованная в соответствии с ЭМИЦ, организована в виде трех баз данных: Ї) база данных по физико-техническим эффектам (содержит в настоящее время свыше 300 эффектов для электрической, магнитной, механической линейной, механической угловой, гидравлической, пневматической, тепловой, диффузионной, оптической, акустической цепей; разрабатываются модели доменной, биологической, ядерной цепей); 2) база данных морфологических матриц физико-технических эффектов, позволяющая осуществлять синтез конструктивных реализаций физического принципа действия ТУ и ранжировать варианты по одному или нескольким критериям; 3) база данных структурных и обобщенных приемов (предназначена для адаптации технических решений к условиям эксплуатации, корректировки характеристик и компоновки синтезируемых конструкций). Сведений о методике наполнения фонда ФТЭ в литературе не имеется.

Семантический анализ текста на естественном языке

Согласно В.Н. Глазунову [9,10], ФЭ определяется как взаимосвязь между двумя явлениями (процессами), которая проявляется в определенных условиях реализации эффекта. При этом первое явление принято называть причиной эффекта, а второе - его следствием. Под причиной (как и под следствием) имеется в виду изменение во времени значений того или иного параметра материального объекта. Рассматривается четыре типа явлений (в зависимости от направления изменения значений параметра): увеличение, уменьшение, наличие ненулевого значения и произвольное изменение.

В условия реализации включаются сведения, касающиеся: 1) пределов изменения параметров; 2) объектов, определяющих эффект; 3) отношений между объектами.

С помощью словаря терминов, содержащего символические и естественноязыковые имена объектов, параметров и отношений конструируется общая формула описания эффекта, играющая роль грамматики предлагаемого языка описания эффектов.

При разработке массива эффектов для существенного сокращения их числа в общий перечень был включен ряд логических правил, по форме описания напоминающих эффекты. Ряд эффектов, входящих в перечень, сопровождается специальными значками - литерами, которые используются в процессе формирования принципов действия ТУ. Применение литер позволяет исключить из результата процедуры синтеза противоречивых (физически некорректных) решений. Для этого сформулировано множество правил определения противоречивости (нереализуемости) физических принципов действия (ФПД) в соответствии с взаимным расположением литер в цепочке ФЭ.

На основе вышеизложенной модели представления знаний наполнен фонд ФЭ «Эффекты 4000», который состоит из; 1) перечня названий 4000 физических, химических и биологических эффектов; 2) описаний эффектов (схематическое изображение ФЭ; условия реализации; формула; показатель эффекта; пределы изменения; расчет; объяснение (кратко, подробно); литература); 3) перечня технических проблем, которые можно решить с помощью эффектов (проблема-решение, примеры); 4) таблиц свойств веществ и материалов.

Несмотря на значительное количество ФЭ в фонде «Эффекты 4000», нигде в литературе не приводится методика информационного наполнения данного фонда.

Компанией «Метод», работающей под руководством Глазунова В.Н., была разработана экспертная система «Эдисон», предназначенная для разработки концепций новых устройств и технологий вне зависимости от области их применения. Работа экспертной системы основана на обращении к базе знаний, состоящей из более 600 физических и химических эффектов. Каждый эффект имеет текстовое, графическое и математическое описание. Для работы экспертной системы в режиме «Изобретатель» достаточно задать функцию проектируемого устройства и допустимый уровень его сложности. На основании этого экспертная система может найти несколько вариантов принципа действия проектируемого устройства. Все варианты имеют текстовое, графическое и математическое описание. Математическое описание представляет собой модель, при помощи которой можно определить количественные характеристики найденного принципа действия.

Архитектура программного комплекса

На рис. 3.1. цифрами показаны: 1 - предварительная входная и выходная карта ФЭ; 2 - ссылки на источники; термины концептов и концептуальных отношений ПО «ФЭ», тезаурусы фонда ФЭ; 3 -предварительная входная карта ФЭ; входные и выходные карты фонда ФЭ; тезаурусы фонда ФЭ; 4 - «новизна» ФЭ; рассогласованные карты ФЭ; карты тождественных ФЭ; 5 - систематизированный фонд ФЭ; созданные систематизационные оси; 6 - входные карты фонда ФЭ; систематизационные оси; тезаурусы фонда ФЭ; 7 - новые систематизационные оси; 8 -выделенные ссылки на источники; 9 - предварительные входные и выходные карты ФЭ; рассогласованные карты или карты тождественных ФЭ; 10 -отредактированные входные и выходные карты новых и расширенных ФЭ.

Подсистема анализа первичных источников предназначена для решения задач: 1) анализа фонда ФЭ; 2) поиска первичных источников описания ФЭ; 3) выделения описаний ФЭ из текста первичных источников. Подсистема верификации БД ФЭ предназначена для: 1) определения «новизны» (отсутствия в существующем фонде ФЭ) выделенного ФЭ; 2) выявления тождественных по полям «Вход», «Выход», «Объект», «Наименование», «Сущность» ФЭ в фонде; 3) поиска ФЭ, рассогласованных в описаниях входной и выходной карт.

Подсистема систематизации БД ФЭ осуществляет систематизацию фонда ФЭ на основе многомерных систематизациоиных схем. БД программного комплекса включает: 1) БДФЭ; 2) БД тезаурусов БД ФЭ; 3) БД концептов ПО «ФЭ»; 4) БД концептуальных отношений ПО «ФЭ»; 5) БД ссылок на источники; 6) БД систематизационных осей.

Подсистема анализа первичных источников, архитектура которой приведена на рис. 3.2, - основная в разработанном программном комплексе.

Под пользователем программного комплекса далее будем понимать администратора БД ФЭ, поскольку для принятия решения о составлении описаний новых ФЭ или редактирования описаний уже существующих ФЭ на основе предоставленных программным комплексом предварительных входных и выходных карт, а также результатов верификации ФЭ необходимы соответствующие знания и опыт в формировании фонда ФЭ.

Стратегия информационного поиска описаний новых и расширения описаний существующих ФЭ базируется на двух подходах [42, 43]:

1. Работа с начальным массивом ссылок (Url) на ресурсы с контентом в области физики, заданных пользователем.

2. Использование индексов существующих крупных поисковых систем [5].

Начальный массив ссылок включает в себя ссылки на представительства физических журналов в глобальной сети Интернет

В последнее время в Интернете стали появляться сайты научных журналов физического профиля. На сайтах содержаться архивы статей в формате pdf за несколько десятков лет, доступ к информации свободный. Особое внимание следует обратить на журнал «Успехи физических наук» (УФН) (http://ufn.ioc.ac.ru/russian/). УФН является общепризнанным лидером среди отечественных журналов по физике. Он публикует фундаментальные обзоры современного состояния наиболее актуальных проблем физики и смежных с ней наук, интересные примеры использования физических результатов в научной и технической практике, а также оперативную информацию о новейших физических исследованиях. Помимо УФН рекомендуются к просмотру также «Журнал технической физики» (http://www.ioffe.rssi.ru/joumals/jtf7), «Физика твердого тела» (http://www.ioffe.rssi.ru/journals/ftt/), «Физика и техника полупроводников» (http://www.ioffe.rssi.ru/journals/ftp/).

Подсистема анализа первичных источников реализована в виде системы с иерархической организацией взаимодействия поисковых агентов [11,79].

Мета-агент (агент «мета-уровня») работает с поисковым индексом, составленным на основе информации, передаваемой поисковым агентом. Мета-агент в режиме расширения фонда ФЭ передает поисковому агенту начальные ссылки, а в режиме модернизации - запросы, составленные на основе описания модифицируемого ФЭ. Мета-агент осуществляет выделение описания ФЭ из текста первичного источника.

Поисковые агенты построены по принципу IDS-архитектуры [2,4]и состоят из двух базовых частей: «Мыслящей части» и «Машины».

Поисковый агент [23, 72] получает от мета-агента ссылку на ресурс или строку запроса к сервисам крупных поисковых систем русскоязычного сегмента Интернета. В первом случае он сразу передает его «Машине», во втором, осуществляет запрос к сервисам Google Web APT [96] и Яндекс.ХМЬ [90] и. возвращенные ссылки передает подсистеме «Загрузка и парсинг документов», которая закачивает документ по ссылке. Подсистема «Загрузка и парсинг документа» работает с форматами txt, doc, rtf, pdf, осуществляя их конвертацию в формат html. Производится парсинг [61] документа на основе стандарта XHTML 1.1 [58]. Таким образом, первый уровень трехуровневой архитектуры IDS - это уровень процессов, на котором периодически выполняются с заданной частотой некоторые вычисления. В данном случае это загрузка и парсинг документов. На втором уровне (уровне дискретных реакций) поисковый агент выделяет внутренние (указывающие на документы, расположенные на том же хосте, что и рассматриваемый документ) и внешние ссылки (разные хосты с рассматриваемым документом) и передает их на первый уровень в соответствие с разработанной стратегией обхода (рис. 3.3):

Результаты функционирования программного комплекса при решении задач расширения фонда физических эффектов

В режиме расширения фонда ФЭ было найдено свыше 50 описаний новых ФЭ (таблица 4.1). Отметим, что большинство найденных ФЭ представляют особый интерес, поскольку описаны в статьях журналов физического профиля за последние 5 лет.

Использование ПК ППФИО БДФЭ позволяет заполнять пустые поля «Практическое применение», существенно расширять поля «Сущность» и «Литература» в выходных картах ФЭ.

Преимущество использования разработанного программного комплекса перед ручной методикой формирования фонда ФЭ [85] заключается не только в уменьшении временных и трудозатрат на поиск и анализ первичных источников, но и в возможности с его помощью находить источники описаний ФЭ, труднодоступные или вовсе не доступные администратору БД ФЭ при ручном поиске.

Опыт работы ПК ППФИО БДФЭ показал, что необходимая физическая информация может располагаться не только на сайтах физических журналов или сборках материалов по физике. Для иллюстрации данного факта в таблице 4.8 приведены ФЭ, у которых было расширено описание в поле «Практическое применение» на основе информации, взятой с интернет-страницы геологического факультета МГУ (таблица 4.8), сайта перспективных технологий производства строительных материалов (таблица 4.9), сайта коммерческой фирмы, занимающейся разработкой и продажей средств гидротерапии (таблица 4.10).

Использование подсистемы модернизации фонда ФЭ позволяет расширять описание не только поля «Практическое применение», но также вносить существенные изменения как в выходную (поля «Сущность», «Литература»), так и во входную карту ФЭ (поля «Вход», «Выход», «Объект») (таблица 4.11).

Эффективность ПК ППФИО БДФЭ проверялась на специально созданном тестовом массиве документов. Состав массива: 1) 60 документов с нефизическим контентом 2) 17 документов с физическим контентом, но не содержащие описаний ФЭ 3) 74 документа, содержащие описания ФЭ.

Существует много способов [50, 61] оценить насколько хорошо документы, найденные ИПС, соответствуют запросу. К сожалению, понятие степени соответствия запроса, или другими словами релевантности (степени соответствия запроса и найденного), является субъективным понятием, а степень соответствия зависит от конкретного человека, оценивающего результаты выполнения запроса. 1) Точность (Precision)

Отношение числа релевантных документов, найденных ИПС, к общему числу документов найденных ИПС: iRelnRetrj PreClSlOn =- : : -, (4.1 ) Retr где Rel — это множество релевантных документов в массиве, a Retr — множество документов, найденных ИПС. 2) Полнота (Recall)

Отношение числа найденных релевантных документов к общему числу релевантных документов в массиве: Recall = RelnRetr iRel 3) Выпадение (Fall-out) (4.3) Выпадение характеризует вероятность нахождения нерелевантного ресурса и определяется как отношение числа найденных нерелевантных документов к общему числу нерелевантных документов в массиве: iNRelnRetrl NRel Fall - out = где NRel — это множество нерелевантных документов в массиве.

С точки зрения последовательной фильтрации по тематике «Физика» и на наличие в тексте описаний ФЭ имеем количество релевантных документов в массиве документов Lfel = 74, количество нерелевантных документов Lf"e = 77. Результаты фильтрации по тематике «Физика» и по маске описания ФЭ приведены на рис. 4.3.

Время работы ПК ППФИО БДФЭ пренебрежимо мало по сравнению со временем, которое требуется составителю описаний ФЭ на то, чтобы провести поиск и анализ документов вручную в библиотеке. Например, на тематическую фильтрацию и фильтрацию по маске описания ФЭ в тестовом массиве документов программным комплексом было затрачено порядка 2 мин (компьютер AMD 64 2,6 ГГц, оперативная память 1Гб).

Похожие диссертации на Выделение структурированной предметной информации из текстов первичных источников на примере физических знаний