Содержание к диссертации
Введение
Глава 1 Литературный обзор 7
1.1 Роль информации в повышении уровня пожарной и промышленной безопасности опасных производственных объектов 7
1.2 Электронные библиотеки как база данных для экспертной системы 11
1.3 Знания и способы их представления 28
1.4 Классификация методов практического извлечения знаний 29
1.5 Создание базы знании и методы анализа текстовой информации 33
1.6 Информационные технологии смыслового поиска информации 36 Выводы к первой главе 44
Глава 2 Подготовка материала, разработка технической системы, технологии и методики перевода бумажных книг в электронный вид 45
2.1 Оценка количества информации и анализ наличия книг в бумажной библиотеке 45
2.2 Разработка технической системы 47
2.3 Разработка технологии процесса перевода информации с бумажных носителей в электронный вид 52
2.4 Разработка методики перевода информации с бумажных носителей в электронный вид 55
2.5 Разработка программного обеспечения для электронной библиотеки 63
Выводы по второй главе 68
Глава 3 Изучение свойств информации для формирования базы знаний в предметной области промышленная безопасность
3.1 Программное средство для статистического анализа текстового массива 70
3.2 Общий анализ текстового массива 74
3.3 Частотный анализ содержания книг выбранной предметной области 81
3.4 Определение параметров, показывающих соответствие книг 85
предметной области, на основе частотного анализа Выводы по третьей главе 91
Глава 4 База знаний для экспертной системы и предпоисковая система для работы с семантической сетью
4.1 Составление частотных фразеологических словарей 94
4.2 Построение семантической сети на основе частотного фразеологического словаря
Выводы по четвёртой главе 115
Глава 5 Применение базы знаний и базы нормативно-технической документации в качестве системы поддержки принятия решений Выводы по пятой главе 132
Список использованных источников
- Электронные библиотеки как база данных для экспертной системы
- Разработка технологии процесса перевода информации с бумажных носителей в электронный вид
- Частотный анализ содержания книг выбранной предметной области
- Построение семантической сети на основе частотного фразеологического словаря
Введение к работе
Проблема обеспечения безопасности, несмотря на длительный срок и крупные средства, привлекаемые для ее изучения, не является решенной в научном плане. Первоочередность и значимость исследований в области обеспечения промышленной безопасности оговорена в Федеральном Законе «О промышленной безопасности опасных производственных объектов» от 21 июля 1997 года и других подзаконных актах Правительства Российской Федерации.
Анализ развития тяжелых аварий показывает, что возникновение опасности имеет многопричинный характер, а ее развитие проходит через цепь событий. Варианты причин и последующую цепь событий можно предвидеть при создании систем искусственного интеллекта, экспертных систем представления знаний, которые полностью позволят исключить аварии, вызываемые ошибками обслуживающего персонала и отказами технических средств как в процессе нормальной эксплуатации, так и в экстремальных ситуациях.
В сегодняшних экономических условиях промышленным предприятиям с трудом удается поддерживать надежность и безопасность эксплуатации опасных производственных объектов. В этих условиях для оказания помощи предприятиям необходимы разработки и внедрение методов обеспечения безопасной эксплуатации особо опасных объектов, выполнение экспертных оценок опасности производственных объектов, состояния оборудования, соответствия проектных решений современному уровню развития производства и требованиям нормативно-технической документации.
Разработка методологии создания экспертных систем, внедрение компьютерной системы, позволяющий автоматизировать процесс отбора и формализации знаний специалистов по максимально простой и удобной для них форме, автоматическое заполнение базы знаний до постановки системы на объект, связано с необходимостью сбора, хранения и анализа огромного количества исходной информации.
Развитие компьютерной техники и прогрессивных технологий в области
5 обработки информации к настоящему времени позволяют решать такие проблемы на требуемом уровне.
Цель работы - Создание базы знаний экспертной системы для поддержки принятия решений и разработка метода оценки полноты планов ликвидации аварийных ситуаций (ПЛАС) для определения соответствия информации по отношению к аналогичным опасным производственным объектам (ОПО), на основе которой принимаются решения с учетом потребностей конкретного пользователя.
Для достижения поставленной цели необходимо решить следующие задачи:
разработать программно-аппаратный комплекс и технологию для автоматизированного перевода информации в электронный вид;
сформировать базу знаний на основе электронной библиотеки и разработать методику её структурирования для формирования информации об ОПО и построения экспертной системы;
— разработать информационную систему, включающую нормативные до
кументы, регламентирующие принятие решений на опасных объектах;
- провести анализ информации, содержащейся в планах ликвидации ава
рийных ситуаций и сравнение с информацией, представленной в базе знаний для
возможности обеспечения безопасности других ОПО.
В диссертационной работе разработана:
новая модель представления знаний, используемая для хранения, поиска и отображения информации в электронной библиотеке, основанная на многослойной структуре хранения информации (1 слой - растровый образ страницы, 2 слой - текст после распознавания без исправления ошибок распознавания, 3 слой - набор ключевых слов и словосочетаний, отражающих семантику страницы);
установлено, что качество поиска по тексту с ошибками распознавания " составляет 90,0%. Статистическим анализом частотных словарей - общего, предметной области «промышленная безопасность» и каждой книги показано, что около 20 % наиболее часто встречающихся (ключевых) слов достаточно для определения принадлежности книги к предметной области. Доказано, что частота повторения слова, отнесённая к общему количеству ключевых слов (коэф-
фициент соответствия), должна быть не менее 0,8, что является признаком принадлежности книги к конкретной предметной области;
— разработан алгоритм автоматического построения семантической сети по частотному фразеологическому словарю предметной области «Промышленная безопасность», который позволяет рассматривать электронную библиотеку как базу знаний для экспертной системы. Показано, что построение экспертной системы, основанной на базе знаний электронной библиотеки, позволит предусмотреть все известные аварийные ситуации на аналогичных опасных производственных объектах и предполагает автоматическую настройку одного из наиболее подходящих к конкретной аварийной ситуации планов, если нельзя воспользоваться готовым планом.
Теоретическая ценность работы заключается в разработке новой технологии представления знаний по промышленной безопасности, основанной на многослойной структуре хранения информации в электронной библиотеке, включающий комплекс мероприятий, направленных на повышения подготовленности всех категорий пользователей к действиям в чрезвычайных ситуациях.
Практическая ценность работы заключается в разработке программного комплекса информационной системы с приложением базы знаний в области промышленной безопасности, предназначенного для работы в компьютерных сетях с технологией Intranet, в научно-производственном центре УГНТУ «ЗНАНИЕ» при проведении научно-исследовательских работ, а также для повышения квалификации инженерно-технического персонала и специалистов по промышленной безопасности. Программный комплекс используется в учебном процессе и представлен в читальном зале библиотеки УГНТУ.
Автор выражает благодарность заведующему кафедры МАХП, профессору Кузееву И.Р. за оказанную помощь и ценные замечания при выполнении диссертационной работы, к.т.н. Н.А.Рудневу за консультационную помощь при создании база знаний для области промышленной безопасности и разработки программы.
Электронные библиотеки как база данных для экспертной системы
С ростом объема знаний увеличивается и скорость накопления информации, которая без современных средств добычи, передачи, хранения и переработки, физически уплотняясь, превращается буквально в научный монолит, который приходится иногда почти буквально «грызть», чтобы выделить и усвоить тот небольшой объем, отличающийся новизной.
Несмотря на все многообразие ситуаций, приемов и методов, существуют общие закономерности, принципы, применимые при работе с информацией в большинстве случаев. Приступая к работе с информацией, разумно предложить общую схему информационной работы, которая охватывает ее существенные этапы, отражает их взаимосвязь (рисунок 1).
В хорошо организованной информационной работе цель определяет буквально все — от направлений поиска, источников информации и методов ее получения, до форм ее представления и способов распространения. Сама же цель информационной работы всегда состоит в приобретении и (или) распространении сведений, необходимых для осуществления конкретных действий, принятия решений.
В некоторых случаях при наличии острой проблемы в технологии переработки информации бывает неясно, каковы должны быть конкретные действия или пути ее решения. Цель работы в такой ситуации может выглядеть как анализ ситуации и определение возможных путей решения проблемы. Цель поможет определить основные параметры нужной информации: "широту" требуемой информации, степень детализации, глубину проработки вопросов. Основные этапы Пунктиром показаны некоторые из возможных вариантов возвращения к предыдущим этапам в ходе работы.
Следующий этап - сбор информации. Он может включать как собственно сбор уже имеющейся, так и создание новой, дополнительной информации. Исходя из представления о желаемой информации, следует решить, какими методами и из каких источников может быть получена такая информация.
Выбор путей и методов получения информации, ее источников определяется конкретной ситуацией. В большинстве случаев целесообразным оказывается сочетание различных методов и источников.
Прежде всего, среди характеристик источника информации, существенных для его оценки, следует упомянуть достоверность и полноту. Достоверность подразумевает, что информация, содержащаяся в источнике, должна соответствовать действительности, быть истинной, правильной. Полнота означает, что источник информации должен отражать все существенные стороны проблемы, значимые факты. При этом требования к полноте источника определяются целью его подготовки, и определение "существенные" означает "существенные с точки зрения поставленной цели".
Во многих случаях источник информации, удовлетворяющий требованию полноты с точки зрения поставленной цели, найти просто невозможно. В этом случае необходимые сведения должны быть собраны из нескольких источников.
Следующим этапом информационной работы является обработка и систематизация собранных сведений. Некоторые типы информации требуют специальных процедур ее обработки. Наиболее характерный пример — статистическая обработка количественных данных. Необходимо отделять этап обработки информации от интерпретации, которая является процессом гораздо более неформальным, часто имеет дело с разнородными сведениями из различных источников. Данные, которые возникают в результате обработки, являются исходными для интерпретации. Результатом интерпретации, в свою очередь, являются выводы содержательного характера.
Содержанием этого этапа, общим практически для всех типов информации, является ее тщательное документирование и (или) систематизация. Систематизация результатов — важный элемент информационной работы. Она предполагает организацию вашей информации в виде, удобном для работы, хранения и последующего обращения к ней.
Разработка технологии процесса перевода информации с бумажных носителей в электронный вид
Весь технологический процесс условно можно разбить на несколько этапов: подготовка материала; сканирование; обработка изображений и информации; индексирование текста и запись готовой информации.
Подготовка материала заключается в подборе книг по предметной области «промышленная безопасность» и проверки на количество страниц. Так как в дальнейшем большинство операций автоматические, отсутствие страниц - что нередко встречается в подержанных книгах - может привести к нарушению всего технологического процесса в целом, вплоть до непригодности конечного продукта для дальнейшего использования и анализа. Кроме отсутствия страниц количество страниц может быть большим из-за типографского брака, наличия цветных вклеек или нумерации не с первой страницы, что встречается в зарубежных изданиях. Это может привести к несоответствию номеров страниц и порядковым наименованиям файлов, что также делает невозможным дальнейшую работу поисковой системы.
Собственно сканирование - простая, но наиболее трудоемкая операция, которая, в случае ручного сканирования требует определенных навыков, так как перекос, неправильная ориентация или перевернутый разворот при даль нейшей пакетной обработке изображения для поворота, разделения страниц и очистки, может привести к обрезанию части текста, зачернению середины разворота при неплотном прижатии книги и потере части информации. Кроме того, ручное сканирование значительно увеличивает количество операций на стадии обработки информации.
Обработка информации - менее трудоемкая стадия с точки зрения использования труда человека, заключается главным образом в распознавании и конвертировании. Здесь ответственный момент - правильные установки программ, так как в автоматизированном режиме обработки большого объема результатом может быть потеря большого количества машинного времени. Несмотря на значительную автоматизацию этого этапа, в технологии предусматривается визуальная проверка результата: как в программе распознавания, так и в программе конвертирования, нередко случаются сбои - неправильно распознанный текст из-за особенностей шрифта или иностранного языка, или трудность конвертирования из-за сложного рисунка, фотоизображения или графической схемы. Отдельные страницы запускаются на переработку вручную со специальными настройками, а затем возвращаются в состав книги. Индексирование предусматривает переименование файлов, что не является проблемой при небольшом количестве файлов. Для того же, чтобы файлы нескольких форматов соответствовали друг другу и имели название, которое определяет их положение, как в книге, так и в библиотеке в целом, в переименовании нуждаются несколько сотен тысяч файлов, поэтому этот этап также несет большую ответственность. Тестовые файлы и их содержание также индексируются для поисковой системы и инициализации библиотеки для нормальной работы.
Запись предусматривается в нескольких случаях на каждом этапе для предотвращения потери информации и на конечном этапе различными способами - магнитным и оптическим, что необходимо для защиты информации от случайной потери.
Каждый из этапов технологического процесса состоит из элементарных операций.
Проверка заключается в визуальном осмотре и, при необходимости, подсчете количества страниц. В случае, если в начале книги имеются не пронумерованное содержание (оглавление) или в середине - вклейки, они помещаются в конец книги, или при ручном сканировании в дальнейшем - пропускаются и сканируются в последнюю очередь.
Сканирование осуществляется в соответствии с инструкцией сканера. Со сканера файлы поступают в программу PaperPort пакетами в 50 или 100 страниц, которые соединяются, после чего проверяется соответствие количества файлов и номер последней страницы.
При автоматическом сканировании несоответствие количества файлов и количества страниц указывает на то, что две или более страниц были захвачены устройством автоподачи вместе. Недостающие страницы сканируются и добавляются в соответствующем порядке. Программа позволяет «перелистывать» страницы и после визуального осмотра отсканированные неправильно страницы сканируются повторно и файлы заменяются. Из программы PaperPort готовые файлы экспортируются в формате tif в отдельную папку с названием, соответствующим фамилии автора и названию книги «Автор И.О. Название книги», которой в дальнейшем присваивается номер, в соответствии с которым автор и название заносятся в каталог.
Все папки содержатся в отдельном каталоге с цифровым названием «Redy» и по достижении количества в 50-100 книг файлы переименовывается специальной программой таким образом, чтобы в восьмизначном названии файла первые цифры были нули, а последние указывали на номер страницы. В дальнейшем хранение информации осуществляется по принципу «одна страница -один файл».
Частотный анализ содержания книг выбранной предметной области
Составлены частотные словари для каждой книги. При составлении словаря из анализа исключались слова, содержащие менее 4-х букв, все знаки кроме кириллицы, цифры, знаки препинания и псевдографика. Словарь отсортирован по убыванию частоты использования слов и данные из программы экспортированы в электронную таблицу Exell. Результаты работы программы сведены в единую таблицу (файл приложения 03_wl_each_with_err.xls).
Наиболее характерные примеры выделены и приведены в табл. 7: уже упоминаемая в предыдущем разделе книга: № 0026 - «Безопасность человека на море»; № 0034 - Безопасность жизнедеятельности. Кн. 3; № 0035 - Безопасность жизнедеятельности. Кн. 2; № 0057 - Гражданская оборона; № 0062 - Основы безопасности труда в строительстве; № 0065 - Система безопасности труда на горных предприятиях (см. приложение 6).
В большинстве книг по выбранной предметной области ключевое слово «безопасности» или однокоренное, входит в первую «тридцатку» по повторяемости и содержится в тексте не менее 10 раз. Частота повторения ключевого слова, отнесенная к общему количеству слов в книге может служить признаком принадлежности книги к конкретной предметной области. Действительно, повторяемость слова «безопасность» на тысячу слов = (общее количество слов / количество слов «безопасность») 1.000, отражает содержание книги и соответствует ее названию.
Для выяснения полноты выборки книг и соответствия предметной области по наиболее часто встречаемым словам проведён анализ результатов сортиров ки. ..
Фрагмент исходного общего частотного словаря предметной области, составленный по 126 книгам и содержащий 10, 20, 30 ... 300 слов, сравнивался со словарём каждой книги из библиотеки в 4.250 книг.
Книги сортировались по частоте совпадений в порядке убывания. При анализе по первым 10 наиболее часто встречающимся словам, вы бранные книги, по которым был составлен словарь, в количестве 74-х сконцен трировались среди первых 200 книг. Остальные книги распределились в первой тысяче. При анализе по 20 словам в первые 200 попало 110 книг, по 30 словам 121 книга. Остальные книги не соответствовали выбранной предметной облас ти «промышленная безопасность». Таким образом, увеличение количества слов, по которым производится проверка соответствия, увеличивает качество «экстракции».
Для каждой книги вычислен коэффициент соответствия предметной области. Фрагмент результатов анализа - книги с 20 по 39 представлен в табл. 9 (файл приложения 04_wl_each_all.xls). По фрагменту, из таблицы 5 видно, что в число соответствующих предмет ной области вошли книги, не вошедшие в число 126, выбранных вручную - №№ 27, 28 это справочник по охране труда и правила безопасности. В то же время по соответствию словарю в число выбранных попали и книги, не соответствующие предметной области - книги №№ 25,32,36,37. У тех и других F = 0. Таблица 9 W Фрагмент анализа книг на соответствие предметной области, где: В — количество слов по которым производился анализ; С — количество совпавших слов; D - отношение С/В;
Дальнейший анализ, при увеличении количества слов в «шаблонном словаре» с 10 до 20, затем 30, 40 и далее до 300, показывает увеличение качества выборки и уменьшение книг не по теме вплоть до полного отсутствия книг, не соответствующих предметной области. Результаты анализов сведены в таблицу (см. файл приложения 04_wl_each_all.xls: лист «10-300») и представлены в виде зависимостей коэффициента соответствия от порядкового номера книги в списке (для различных книг) на рисунке 26. По рисунку 26 видно, что полное соответствие достигается при количестве слов в шаблонном словаре - 100, и даже при большем количестве слов (150 и даже 200), качество выборки не увеличи- вается.
При этом до 132-й книги все - соответствуют выбранной предметной области «промышленная безопасность», 10 книг, не выбранных первоначально, попадают в список автоматически, а 4 книги выбранные «вручную», или на глаз - по названию, выпадают из списка.
Дальнейший анализ, при увеличении количества слов в «шаблонном словаре» с 10 до 20, затем 30, 40 и далее до 300, показывает увеличение качества выборки и уменьшение книг не по теме вплоть до полного отсутствия книг, не соответствующих предметной области. Результаты анализов сведены в таблицу (см. файл приложения 04_wl_each_all.xls: лист «10-300») и представлены в виде зависимостей коэффициента соответствия от порядкового номера книги в списке (для различных книг) на рисунке 26. По рисунку 26 видно, что полное соответствие достигается при количестве слов в шаблонном словаре - 100, и даже при большем количестве слов (150 и даже 200), качество выборки не увеличи- -вается.
При этом до 132-й книги все — соответствуют выбранной предметной области «промышленная безопасность», 10 книг, не выбранных первоначально, попадают в список автоматически, а 4 книги выбранные «вручную», или на глаз - по названию, выпадают из списка.
Построение семантической сети на основе частотного фразеологического словаря
Семантическая сеть из фраз, состоящих из 2-х слов, строится следующим образом. За основу берётся соответствующий фразеологический словарь. Фрагмент фразеологического словаря по фразам из 2-х слов показан в таблице 11 (часть словаря, содержащая фразы, встречающиеся более 10 раз - в файле приложения 06_Analysis_126_phrases.xls, на стр. «фраз из 2-х слов до 10»).
Порядок построения цепи фраз при развитии семантической сети показан на рис. 32. Задаётся первое слово или сочетание слов, - в нашем случае «промышленная безопасность» (91) - в скобках здесь и далее - частота упоминаний. По списку фраз, состоящих из двух слов, выбираются поиском фразы, в которых 1-е слова- «безопасность». После сортировки по частоте упоминания выбирается первая по списку, наиболее часто упоминаемая фраза — «безопасность труда» (430). Действие повторяется для слова «труда» - «труда [при] производстве» (159) - в квадратных скобках слово, менее 3-х букв, изначально удалённое. Далее по слову «производстве» - «производстве работ» (110) и т.д. Постепенно образуется фраза: «промышленная безопасность [при] производстве работ» ... При продолжении подбора цепочка наращивается: ... «работ (110) [по]ликвидации (154) аварий (508) [и] несчастных (194) случаен (1702) [при] производстве (177)работ (110)» ...
До тех пор, пока не образуется цикл: фраза «производстве работ» уже встречалась и при программной реализации алгоритм должен предусматривать разветвление сети по следующей по частоте фразе: ... «[при] производстве ацетилена (70) [и] других (22)... других факторов (155) влияющих (53) других случаях (141) когда (796) температура (62)» ..., или до момента потери смысла: «других факторов» - не подходит к предыдущей фразе, следующая по частоте фраза «других случаях» - допустима, но со 1 держит однокоренное слово уже упоминавшееся. Через фразу «случаях когда», фраза «когда температура» снова не подходит по смыслу, и, очевидно, дальнейшее построение должно контролироваться человеком, либо прекратиться.
Так как при работе в поисковых системах человеком редко задаётся фраза более чем из пяти слов, в дальнейшем развитие цепи свыше указанной величины не рассматривается.
При построении семантической сети с участием человека, подбор подходящих по смыслу фраз может быть и произвольным — не обязательно по максимальной частоте упоминаний. Так по варианту второго слова «труда» можно выстроить фразу: «безопасность труда женщин имеющих детей в возрасте» ... Рассмотрено три случая продолжения фразы «безопасность эксплуатации»: ... «оборудования технологических процессов производства» ..., ... «сосудов работающих [под] давлением газа» ..., ... «трубопроводов должна быть обеспечена» .... При этом могут быть варианты продолжения (показано пунктиром): ... «оборудования технологических трубопроводов должна быть обеспечена».
В некоторых случаях цепи пересекаются, - очевидно, на границе различ ных предметных областей (см. продолжение табл. 12): «безопасность жизнедеятельности» ... Т ... «человека зависит от характера производства» ... или ... «микроорганизмов зависит [от] температуры» ... и т.п. В последнем примере: «безопасность обеспечивается [за] счет» ... ... «увеличения скорости движения» ... или ... «уменьшения скорости жидкости» ... в обоих случаях запросы, при последующем поиске в электронной библиотеке, дают релевантные результаты: в первом случае - безопасность при бурении, обеспечении пожарной безопасности и вентиляции; во втором - безопасность при разработке месторождений на шельфе с морских платформ.
Основное преимущество построения семантической сети предлагаемым методом — возможность полной автоматизации процесса. При этом могут быть Ч& предложены все возможные варианты, либо пользователь базы, на которой ос новывается экспертная система, будет направлять построение сети в желательном направлении. Построение производится каждый раз заново — в соответствии с запросом или результаты построений семантической сети могут, при не обходимости, сохраняться для дальнейшей работы при последующем обращении с идентичным запросом.
Семантическая сеть из фраз, состоящих из 3-х слов, может быть образована двумя путями, варианты которых показаны на рисунке 33.
В первом случае (А) вторую фразу с первой связывает только одно слово, «родство» соседних фраз снижается, увеличивается количество возможных вариантов, и, следовательно, возрастает неопределённость при последующем построении семантической сети. Поэтому для случая, когда фраза составляется из трёх и более слов, цепочка составлялась со сдвигом на одно слово (Б). Результат подбора фраз показан в таблице 13.
Из таблицы 13 видно, что при построении цепи слов на основе фраз, состоящих из трёх слов, получены менее значимые результаты: цепь слов или обрывается без завершения фразы (значок «х») - результаты поиска отрицательные; либо продолжается с изменением смысла (значок «...»). Во многих случаях образуется цикл или повторение предшествующего однокоренного слова (значок «s»). Полная версия таблицы представлена в файле приложения 07_Semantyc_web.xls, страница «фраза 3 по 2»).