Содержание к диссертации
Введение
Глава I. Анализ состояния проблемы электронного архивирования в системе региональных органов государственной службы 22
1.1. Специфика современных региональных систем органов государственного управления 22
1.2. Понятие и структура информационного обеспечения государственного управления 29
1.3. Анализ информационных систем электронного архивирования в некоторых учреждениях и ведомствах 31
1.4. Обзор моделей поиска и методов тематического анализа текстовой информации 39
1.4.1. Модели поиска 39
1.4.2. Методы тематического анализа текстовой информации46
1.5. Выводы по главе 1 51
Глава II. Функциональное моделирование информа-ционной системы электронного архивирования и разра-ботка метода концептуальной классификации текстов 52
2.1. Функциональная модель системы электронного архивирования 52
2.1.1. Разработка технологической схемы процесса обработки документов 52
2.1.2. Основные принципы и проблемы проектирования информационной системы электронного архивирования 57
2.1.3. Существующее состояние электронного архивирования 60
2.1.4. Основы функционального моделирования системы электронного архивирования 61
2.1.5. Функциональная модель разрабатываемой системы электронного архивирования 66
2.2. Метод и алгоритм концептуальной классификации текстов 80
2.3. Реализация алгоритма концептуальной обработки 91
2.3. Выводы по главе II 97
Глава III. Практическая реализация результатов диссертационного исследования 98
3.1. Проблемы внедрения автоматизированной системы электронного архивирования в региональных структурах государственной власти 98
3.2. Технологический процесс сбора и обработки информации 102
3.3. Разработка основных компонентов системы электронного архивирования органов регионального управления 104
3.4. Последовательность операций при создании и ведении базы данных в разработанной системе электронного архивирования 110
3.5. Перспективы развития системы электронного архивирования в современных структурах региональных органов власти 111
3.6. Выводы по главе III 114
Заключение 116
Список использованной литературы 118
- Анализ информационных систем электронного архивирования в некоторых учреждениях и ведомствах
- Разработка технологической схемы процесса обработки документов
- Функциональная модель разрабатываемой системы электронного архивирования
- Разработка основных компонентов системы электронного архивирования органов регионального управления
Введение к работе
Актуальность диссертационного исследования. Глобальный процесс, получивший название "информатизация общества", оказывает влияние на все стороны жизни общества. Главное, что отличает этот процесс, заключается в приобретении информацией статуса фундаментального фактора существования человечества. Если ранее жизнь и прогресс человечества зависели в основном от материального производства, то теперь они невозможны без максимального использования информации во всех ее видах. Информационный фактор быстро приобретает почти такую же значимость, как и материальный.
Именно поэтому сегодня на первый план должны быть поставлены не проблемы дальнейшей технизации общества, а проблемы его интеллектуализации, создания и использования новых социальных технологий, основанных на активизации и эффективном использовании главного стратегического ресурса человечества - информационного ресурса.
[8]
Изменились общественные потребности в информации, одним из следствий чего стала коренная трансформация делопроизводства в государственных учреждениях. Оно все более превращается в одну из мощных и важнейших, отраслей индустрии информации, оснащаемую новейшей компьютерной и телекоммуникационной техникой, нетрадиционными носителями информации, высокоэффективными автоматизированными технологиями ее обработки и использования.
Кардинальные социально-экономические и политические преобразования в России и в мире, ориентация на использование новых информационных технологий меняют положение структур государственной службы в обществе, расширяют и усложняют ее функции и задачи. Уч-
реждения государственной службы в настоящее время являются основой для создания в России новой информационной инфраструктуры.
Современное государственное учреждение является сложной информационной системой, состоящей как из традиционных, так и новых, нетрадиционных информационных подсистем. Важную роль среди новых информационных подсистем государственного учреждения играет электронный архив (ЭА), и его создание является приоритетной целью автоматизации архивов. Именно ЭА открывает быстрый и качественный доступ к информационным ресурсам государственного учреждения. Качество и эффективность ЭА определяются комплексом методов и средств, составляющих технологию его создания и исполЗзяиаигобразом, актуальна научная проблема, решению которой посвящено данное исследование: выработка концепции ЭА и разработка методов и средств, составляющих технологию внедрения ЭА, соответствующих тенденциям развития информационных технологий и ориентированных на реальную практику их использования. Эти методы и средства должны соответствовать тенденциям развития информационных технологий и быть ориентированы на реальную практику их использования.
Целью работы является разработка новой информационной технологии электронного архивирования для повышения качества информационного обеспечения деятельности структур государственной службы.
Качество информационного обеспечения характеризуется следующими факторами:
сокращением времени, затрачиваемого на ввод, обработку и поиск информации;
повышением полноты, достоверности и релевантности искомой
информации;
- возможностью получения аналитических справок из архива для
оперативного анализа деятельности структур государственной
службы. Разработанность проблемы. Начало процесса создания ЭА относится к 1960-1962 гг., когда ряд средних и малых библиотек США, преимущественно в учебных заведениях, независимо друг от друга приступили к разработке систем машиночитаемых архивов и средств доступа к ним. В 1963 г. с принятием программы MARC (MAchine-Readable Cataloguing - машиночитаемая архивизация) в Библиотеке Конгресса США этот процесс приобретает упорядоченный и направленный характер.
В России первые попытки создания ЭА относится к началу 1970-х годов, они связаны с исследованиями в области форматов по обмену библиографическими записями в ГПНТБ.
Теоретические и практические проблемы создания ЭА в течение длительного времени разрабатывают такие видные зарубежные ученые, как Henriette D. Avram, Hugh С. Atkinson, Cyril Cleverdon, Donald S. Cul-bertson, Richard de Gennaro, Franc W. Lancaster, Gerard Salton, L. Syre и другие. Крупномасштабные проекты по созданию ЭА реализованы и реализуются в Библиотеке Конгресса США, Британской библиотеке, региональных и вузовских библиотеках США и стран Западной Европы. Особо следует отметить достижения в этой области библиотеки университета штата Огайо, ставшей ядром крупнейшей библиотечной сети OCLC (Online Computer Library Center) и центром масштабного распределенного ЭА.
В нашей стране основы решения проблемы создания ЭА заложены и в трудах Р.С. Гиляревского, Д.Г. Лахути, В.П. Леонова, А.В. Соколова,
А.И. Черного. Теоретические и практические вопросы создания ЭА рассматриваются в работах А.Б. Антопольского, Ф.С. Воройского, Б.С. Елепова, Н.Е. Каленова, О.А. Лавреневой, Я.Л. Шрайберга и др., постоянно обсуждаются на международных конференциях и семинарах, среди которых следует отметить ежегодную Крымскую конференцию и конференции, проводимые в РГБ и РНБ. Масштабные проекты по созданию ЭА реализуют Аппарат Президента РФ, Счетная палата РФ, многие подразделения различных министерств РФ и другие крупнейшие государственные учреждения страны. Координация проектов осуществляется в рамках федеральных программ «Электронная Россия», «Единое информационное пространство», «Межведомственные архивы», «Концепции информатизации архивного дела России».
Проблемы использования метода структурного моделирования текстовой информации достаточно широко проанализированы в работах зарубежных и российских ученых: Борисова С, Яковлева С.А., Харламова А.А., Ермакова А.Е., Кузнецова Д.М., Дубинского А.Г., Сэлтон Г., Шенк Р., Круз И., и др.
Развитие мирового рынка информации, правовых основ информационной работы, а также вопросы компьютерной семантики и использования тезаурусов и классификаторов в современных информационных системах рассмотрены в работах Шемакина Ю.И., Лукашевича Н.В., Некрестьянова И.С., Марон М.Е., Куне Дж.Л.
Вопросы процессно-ориентированного моделирования, анализа и использования CASE-инструментов (Computer-Aided Software/System Engineering) для проектирования информационных систем раскрыты в работах Данчула А.Н., Калянова Г.Н., Маклакова СВ., Черемных СВ. Информация о методологии функционального анализа и моделирования
(SADT - Structured Analisys & Design Technique) содержится в работах Д.А. Марка и К.Макгоуэна.
В настоящее время в России разработано много автоматизированных управленческих систем (АУС) различного уровня сложности и масштаба. Среди таких систем можно выделить ИРБИС, "Библиотека", МАРК, решающие задачу комплексной автоматизации государственного учреждения и содержащие стандартные средства создания и ведения ЭА, принятые для архивных баз данных. Среди зарубежных массовых систем наиболее известны: ALEPH, DYMX (HORIZON), GEAC, INNOPAC, Liber, TinLib, VTLS. Анализ описаний большинства из перечисленных АУС показал, что в них, как правило, отсутствуют эффективные средства поиска и исправления ошибок и автоматизированного индексирования [13].
Что же касается вопросов, связанных с решением задач поиска документов в массивах неструктурированных данных учреждений государственной службы, то следует отметить невысокий уровень разработанности этой проблемы, что связано с непрекращающимися реформами государственных структур и слабым финансированием перспективных исследований данного направления. Анализ существующих исследований, посвященных вышеуказанной задаче, выявил крайне незначительное число готовых и апробированных решений, что во многом связано с отсутствием достаточно проработанной теории и практики решения задач анализа неструктурированной, естественноязыковой текстовой информации произвольного содержания.
Современные системы анализа текстов, особенностью которых являются: предпочтение скорости обработки текстов точности семантического и морфологического анализа, статистический частотный анализ словоупотреблений - можно выделить в отдельный класс, к ко-
торому относится и система, разрабатываемая в данной работе и включающая разработанный метод концептуальной обработки текстов.
В России работы по концептуальному анализу текстов только начинают проводиться. Главным образом они ведутся:
в Институте проблем информатики РАН, где ведутся работы по исследованиям в области концептуального поиска (И.М. Зацман) [И];
в корпорации "Галактика", где разработана автоматизированная система поиска и аналитической обработки информации "Galaktika-ZOOM";
в компании "Гарант-Парк-Интернет", где разработаны программные продукты для анализа и классификации текстов, автоматического реферирования, морфологического, синтаксического и семантического анализа текста, для навигации по большим массивам текстов;
в компании "MediaLingua", где разработана интеллектуальная система "СЛЕДОПЫТ", служащая для быстрого поиска текстовых фрагментов документов в больших объемах информации. В качестве запроса могут использоваться фразы на естественном языке;
в компании "Yandex", где предлагается набор средств полно
текстовой индексации и поиска в текстовых данных с учетом
морфологии русского и английского языков. Средства пред
назначены для работы с большими объемами русских или
английских текстов всех типов в виде файлов различных
форматов, полей баз данных и страничек Интернета.
Подробные сведения об этих и других распространяемых про
граммных продуктах содержатся в каталоге, составленном СВ. Логиче-
вым [15]. Каталог включает описание программ, связанных с анализом текстов и вычислительной лингвистикой, а также соответствующих ресурсов, доступных в Интернете.
В основном, это дорогие коммерческие системы, имеющие клиентов в рекламном бизнесе, федеральных органах управления и средствах массовой информации.
В настоящее время в стране сложилась ситуация, когда разнообраные информационные системы, начиная от систем поддержки принятия решений и заканчивая системами смысловой обработки текстов, получили широкое распространение в центре. Регионы же, в силу своей отсталости, как в части финансирования, так и в части острой нехватки квалифицированных специалистов, оставляют желать лучшего в области информатизации государственных организаций и учреждений. К сожалению, специфика современных региональных систем органов государственного управления делает комплексное лицензионное использование новейших технологий маловерятным, что обуславливает актуальность создания достаточно простой и мобильной в применении технологии электронного архивирования. Отсюда можно сделать вывод о целесообразности применения малобюджетных решений с привлечением специалистов для расширения возможностей систем под конкретные задачи. В данном случае рассматривается задача создания и эксплуатации системы электронного архивирования, в состав которой включаются также и средства концептуального анализа и поиска текстов.
Объект исследования представляет собой систему электронного архивирования в региональных органах государственной службы, как сложную метаинформационную систему. Предметом исследования являются процессы функционирования и развития автоматизированных
информационных технологий электронного архивирования в структурах государственной власти субъекта РФ. Границы исследования определяются областью автоматизированных систем электронного архивирования в региональных структурах государственной службы.
Для достижения поставленной цели в диссертации следует решить следующие задачи:
провести сравнительный анализ существующих систем электронного архивирования и выработать рекомендации по выбору системы с учетом специфики деятельности региональных структур органов государственной власти;
разработать технологическую схему процесса обработки информации в архивах региональных структур государственной службы
разработать обобщенную функциональную модель процесса функционирования информационной системы электронного архивирования.
разработать метод и алгоритм концептуальной обработки текстовых документов.
Научная новизна результатов данной диссертационной работы заключается в разработке метода и алгоритма концептуальной обработки и поиска информационных объектов в электронном архиве, а также в проектировании информационной технологии электронного архивирования. Полученные результаты могут использоваться как при решении конкретных задач поиска документов, так и для решения других задач аналитического характера. Разработанный метод и алгоритм позволяют значительно повысить точность и адекватность тематического анализа. Их реализация применительно к решению задач
поиска документов позволяет значительно повысить качество и эффективность такого поиска.
В работе предложен единый подход к технологии создания электронного архива, основанный на систематическом применении методов автоматизации всех этапов делопроизводства в государственном учреждении [13]. Помимо разработанного в работе метода обработки текстов, технология электронного архивирования включает в себя:
контроль и корректировку вводимых библиографических записей;
индексированию библиографических данных с созданием поисковых образов документов;
повышение уровня распознаваемости и автоматизированной коррекции данных при ретроконверсии карточных архивов.
Практическая значимость заключается в анализе системы управления документами для создания информационной системы электронного архива и применении разработанной схемы технологического процесса создания, хранения и обработки электронного архива в региональном органе государственного управления. Это подтверждено справкой о внедрении результатов исследования в Комитете Правительства Республики Дагестан по делам архивов.
Ценность полученных результатов также состоит в том, что они обеспечивают пользователей средствами, позволяющими:
ускорить процесс создания электронного архива за счет сокращения клавиатурного ввода;
снизить количество недоступных документов в ЭА на основе применения метода концептуальной обработки текстов, разработанного в настоящем исследовании.;
обеспечить высокорезультативный поиск документов в ЭА с применением новой технологии;
обеспечить эффективную аналитическую деятельность подразделений региональных органов государственной службы
Диссертация состоит из введения, трех глав, заключения и списка литературы состоящей из 112 наименований. Общий объем работы составляет 128 страниц.
Во введении обоснована актуальность темы диссертационной работы, сформулированы цель и задачи исследования, научная новизна и практическая значимость работы и приведено краткое содержание диссертации.
Основной целью работы определено исследование существующих и разработка новой информационной технологии электронного архивирования для повышения качества информационного обеспечения деятельности структур государственной службы.
Также во введении сделан также вывод о необходимости расширения возможностей существующих в России систем электронного архивирования за счет включения в них средств концептуального анализа и поиска текстов.
В первой главе проведен анализ текущего состояния информационных систем электронного архивирования в некоторых учреждениях и ведомствах РФ, информационно-поисковых систем, современного состояния исследований в области поиска документов и существующих методов тематического анализа. Проведен анализ структуры органов государственного управления Республики Дагестан, выявлено место Комитета по делам архивов, его связи и основные функции.
В результате этого анализа составлена сравнительная таблица характеристик некоторых существующих систем электронного архивирования и сделаны выводы об основных достоинствах электронного архива:
повышение полноты и оперативности отработки запросов к архиву;
компактность и надежность хранения информации;
возможность проведения оперативного анализа имеющейся информации, что, повышает обоснованность решений, принимаемых высшим и средним звеньями руководителей, которые сегодня полагаются, как правило, лишь на свой опыт и интуицию. Особенно эффективным электроный архив оказывается при
выполнении нестандартных нерегламентированных запросов. Выполнен также анализ специфики поиска информации в электронном архиве государственного учреждения, который позволил выявить следующие особенности функционировния электронных архивов в регональных структурах государственной службы:
большое количество документов;
повышенные требования к безопасности хранимой информации;
высокая динамика обновления информации;
наличие взаимосвязи между страницами отдельных документов, реализуемой при помощи гиперссылок;
разнородность пользователей.
С учетом этих особенностей в работе сформулированы основные требования к современным информационно-поисковым системам для региональных государственных учреждений и определены перспективные направления исследований.
В диссертации рассмотрены следующие основные модели поиска информации в электронных архивах:
простейшие модели;
модели, основанные на классификаторах;
булевские модели;
- векторные модели;
вероятностные модели;
сети вывода.
Разнообразие функциональных возможностей различных систем поиска связано с различием реализованных в них моделей поиска. Поэтому отдельные разновидности моделей текстового поиска рассматриваются в диссертационном исследовании достаточно подробно.
В настоящее время к системам текстового поиска информации в электронных архивов региональных структур государственной службы предъявляются новые требования, которые в обобщенном виде можно сформулировать следующим образом:
способность эффективно работать с большими объемами архивных документов;
обеспечение существенно улучшенного отображения содержания документов и пользовательских поисковых запросов;
способность совместно обрабатывать текстовые документы с документами иной природы - графическими образами, изображениями, аудио, видео и другими;
обеспечение эффективных методов поиска не только в статических коллекциях, но и в потоках документов.
Не все из этих требований можно удовлетворить в современных технологиях электронного архивирования. Тем не менее, они обязательно должны будут обеспечиваться в перспективных разработках.
Во второй главе рассмотрены вопросы выбора состава программных продуктов электронного архива. В ней проведена разработка и теоретическое обоснование функциональной модели электронного архива, а также метода и алгоритма концептуальной обработки текстов.
Создание информационной технологии электронного архивирования основывается на ее формализации в виде функциональной модели, при разработке которой учитывались следующие фундаментальные принципы, выработанные в мировой и отечественной практике проектирования сложных информационных систем: принцип первого лица, принцип сжатия информации, принцип дуржественного интерфейса и принцип однократного ввода информации в месте ее возникновения.
Главная особенность создания автоматизированных информационных систем состоит в концентрации сложности на начальных этапах анализа требований и проектирования спецификаций, при относительно невысокой сложности и трудоемкости последующих этапов. Фактически здесь происходит понимание того, что будет делать будущая система, каким образом она будет работать, чтобы удовлетворить предъявляемые к ней требования. Нечеткость и неполнота системных требований, нерешенные вопросы и ошибки, допущенные на этапах анализа и проектирования, порождают на последующих этапах трудные, часто неразрешимые проблемы и, в конечном счете, часто приводят к неуспеху всей работы в целом.
Функциональная модель «как должно быть» интегрирует перспективные предложения руководства и сотрудников Комитета Правительства Республики Дагестан по делам архивов и позволяет сформулировать видение новых рациональных технологий работы данного учреждения. Данная модель базируется на технологической
схеме обработки документов, разработанной на основании анализа деятельности структур Комитета по делам архивов и современных перспектив развития электронных документов и архивов.
Общее представление об обработке документов в ИС электронного архивирования дает страница модели «Принять, обработать, хранить документы». Дополнительные возможности и особенности обработки данных, представленные в функциональной модели информационной системы электронного архивирования, заключаются в более эффективном хранении и использовании документированной информации для повышения качества информационного обеспечения деятельности структур государственной службы.
В настоящее время документы региональных органов государственной власти, как правило, хранятся в бумажном виде, но большинство из них имеют электронную копию в различных подразделениях и учреждениях. Пользователи, в основном, работают с бумажными документами. Поэтому на переходном этапе к безбумажной технологии автоматизированная система документационного обеспечения управления должна поддерживать оба вида работы с документами. При традиционном исполнении документов возникают два информационных потока. Первый поток связан с движением и обработкой самих документов, второй - сформирован на основе электронных регистрационных карточек документов. При этом оба информационных потока объединяются в поток карточек с «прикрепленными» электронными копиями документов и набором ключевых слов, а оригиналы документов хранятся в системе отдельно и не могут быть удалены или модифицированы.
Весь информационный массив документов в региональных органах государственной власти, накопленный за многие годы, неце-
лесообразно переводить в электронный вид в связи с большой трудоемкостью этой работы. Более целесообразным представляется осуществление поэтапной замены бумажных документов на электронные в соответствии с частотой обращения к ним пользователей.
Переход на архивное хранение электронных документов даст возможность осуществления удаленной работы и коллективного использования необходимых данных, выполнения атрибутивного и полнотекстового поиска, ускорения проведения анализа требуемой информации, поддержки составных документов.
Дополнительное снижение стоимости хранения данных обеспечит использование различных видов электронных носителей информации (жесткие диски, оптические диски, магнитооптические диски и т.д.) и соответствующего программного обеспечения, которое позволит обеспечить автоматическую миграцию документов в зависимости от частоты обращения к ним пользователей.
Разработанный в работе подход к обработке документов основывается на том, что словарный запас и частоты использования слов зависят от тематики текста. В настоящее время данная гипотеза успешно используется в методах поиска, ориентированных на тематику.
Тематическая классификация предполагает выделение множества ключевых слов, определяющих тематику текста. При этом каждому из них приписывается свой вес, определяющий значимость данного слова в тематике. Иначе говоря, какие-то ключевые слова играют большую роль в определении тематики, какие-то меньшую, но именно такая совокупность слов, с такой значимостью каждого из них в тематике и определяет тематическую направленность данного текста.
Предлагаемый подход обеспечивает снижение размерности решаемой задачи за счет перехода от основного текста к его
представлению в виде множества ключевых слов, приближенно описывающих его содержание и составляющих его поисковый образ. Это необходимо, в частности, для последующей тематической идентификации текстов при поиске информации.
Ключевые слова определяются по количеству их вхождений в текст, а именно - частота ключевых слов в тексте выше частоты других слов. В рамках рассматриваемой модели структурного представления текста это будет означать, что именно ключевые слова характеризуют информационный поток, а информационные элементы, соответствующие этим словам, имеют большее количество связей с другими информационными элементами текста.
Проблема заключается в определении порога, который отделяет ключевые слова от всех остальных. В работе рассматривается гипотеза о том, что правильное машинное представление тематики текста должно включать в себя не только ключевые слова, но и контекст этих слов, так как смысл любого слова определяется исключительно в контексте тех слов, которые употреблялись вместе с ним, рядом по тексту. И сами по себе ключевые слова в отрыве от их контекста не отражают в полной мере тематической направленности текста. Ведь одно и то же слово, присутствующее в запросе и искомом документе, может нести в себе совершенно разные значения. Поэтому сравнение весовых коэффициентов оказывается недостаточным для корректного вычисления тематической близости.
Значение слова определяется по его контексту, по тем словам, которые употреблялись вместе с ним. Одно и то же слово, присутствующее в двух разных документах, может нести в себе совершенно разный смысловой оттенок, смысловую нагрузку. И поэтому простого сравнения весовых коэффициентов недостаточно для кор-
рентного вычисления тематической близости, необходимо еще учитывать контекст слов.
В данной главе диссертации приводится также методика работы автоматизированной системы электронного архивирования, включая разработанный метод концептуальной обработки текстов.
В результате использования предлагаемой системы полнотекстовые электронные архивы становятся частью поискового пространства, доступного пользователю на более высоком уровне. Кроме поиска по словам из текстов, пользователь получает дополнительную возможность находить тексты, близкие к его запросу по своей тематике. В качестве запроса может также выступать произвольный полный текст, внешний по отношению к архивной базе данных или же текст из этой базы.
Третья глава посвящена результатам реализации в Комитете Правительства Республики Дагестан по делам архивов информационной системы электронного архивирования с применением метода концептуальной классификации текстов. В ней рассмотрены вопросы организации функционирования электронного архива и поиска в нем информации на основе полученных в диссертации научных и практических результатов.
Рассмотрен способ организации поиска документов с помощью стандартных, уже хорошо отработанных методов, реализуемых в настоящее время поисковыми системами. В частности, это вариант векторной модели поиска или взвешенной булевой модели. Такой вариант поиска предполагает формирование поискового запроса, состоящего из множества ключевых слов, которое формируется с помощью приведенного в работе метода концептуальной обработки текстов. Этот метод применен при создании электронного архива для хранения
документов вместе с их подготовленными поисковыми образами, а также при формировании поисковых запросов пользователей. На его основе формируется поисковый запрос, который и отрабатывает поисковая система.
В результате проведенного эксперимента выявлена не только актуальность, но и практическая эффективность применения предлагаемого метода концептуального поиска информации в электронных архивах текстовых документов. Полученные результаты свидетельствуют о том, что имеется реальная возможность во много раз снизить затраты времени пользователей на поиск необходимых им документов, а также повысить релевантность этого поиска. А это и является свидетельством достижением цели диссертационной работы -повышения качества информационного обеспечения деятельности региональных структур государственной службы.
Результаты экспериментального исследования позволяют также сделать вывод о том, что применение разработанного в диссертации метода концептуальной обработки документов принципиально возможно и в других видах текстовых электронных архивов.
В заключении подводится итог выполненных исследований, перечисляются основные результаты, полученные автором и обозначены перспективы развития региональных систем электронного архивирования.
Анализ информационных систем электронного архивирования в некоторых учреждениях и ведомствах
Во все времена совершенствованию государственного управления придавалось первостепенное значение. Эта проблема в разные исторические периоды решалась по многим направлениям в зависимости от уровня экономического развития. Соответственно разрабатывались разные концепции, методы и средства государственного управления политической и хозяйственной жизнью стран. Неизменной основой, базовой компонентой этих процессов являлась информация, значение которой в обществе все более возрастало. Достижения научно-технического прогресса во многих отраслях, в том числе в информатике и связи, обеспечили возможность практической реализации идеи формирования в целом информационного общества. Эта проблема, будучи общегосударственной, комплексной, фокусирует в себя широкий спектр межотраслевых, отраслевых, региональных и международных составляющих.
Информационное обеспечение государственного управления — это система концепций, методов и средств, предназначенных для обеспечения пользователей (потребителей) информацией [16]. К пользователям информации относятся любые субъекты, обращающиеся к средствам информационного обеспечения за необходимой им фактографической, документальной, аналитической и другой информацией и пользующиеся ею. Такими общепризнанными средствами являются системы информационного обеспечения различных классов и видов, средства телерадиокомпаний, массовой информации.
Как у заказчика, так и у разработчиков систем информационного обеспечения наибольшие методологические трудности возникают при детализации самого этого понятия для конкретного того или иного органа государственной власти и определении составляющих его процессов, процедур. Объясняется это и тем, что хотя функции и компетенция конкретных властных органов определены Конституцией, законами и другими нормативными правовыми актами, но сформулированы они, как правило, на достаточно общем "метаязыке" концептуального уровня. Концепция информационного обеспечения органов государственной власти и управления; основана на идее представления их как развивающихся операционных систем [23].
Деятельность этих органов представляет собой совокупность логически взаимоувязанных массовых действий — операций, направленных на осуществление возложенных на них функций. Следовательно, это действительно своеобразные операционные системы, реализующие класс календарно развивающихся операций, семантика которых определяется компетенцией соответствующих органов. Операции всегда нацелены на достижение как стратегических целей государства, так и обеспечивающих решение задач целей более низких уровней. Операции должны быть упорядочены по времени, последовательности их выполнения и составу участников — властных органов, других юридических и физических лиц. Государственное управление — процесс выполнения комплекса операций, ориентированных на достижение государственных целей. Цели описываются в алфавите, отображающем желаемые состояния государства, отраслей, регионов и др. Именно для реализации операций государственного управления и необходима соответствующая информация и поддержание ее в актуальном состоянии. Отсюда следует важный вывод, что эффективность информационного обеспечения органов государственной власти и управления необходимо определять через показатели качества государственного управления.
В стране созданы значительные объемы информационных ресурсов различных видов и классов. Однако, что касается информационного обеспечения региональных структур государственной власти и управления, в компетенцию которых входит генерация стратегических целей, анализ упреждающих сценариев развития кризисных ситуаций в регионе, то этим проблемам уделяется недостаточное внимание. Проблемы информационного обеспечения органов власти и управления можно рассматривать в разрезе различных этапов и направлений создания, использования, организации и развития, в том числе, например: - по видам, органов государственной власти и управления; - по классам и видам автоматизированных систем и средств информационного обеспечения; - по видам информационных ресурсов, используемых для информационного обеспечения; - по видам нормативных правовых актов, регулирующих взаимоотношения в информационной сфере; - по направлениям обеспечения информационной безопасности. В процессе проведения диссертационного исследования был проведен обзорный анализ текущего состояния информационных систем электронного архивирования в некоторых учреждениях и ведомствах Российской Федерации. Были выделены основные характеристики ЭА и составлена сводная таблица (табл. 1). Основываясь на приведенной информации об электронной системе LanDocs, использованной для создания электронного архива ЦБ РФ, и о некоторых особенностях этого архива, можно выделить следующие достоинства рассматриваемого электронного архива: - соответствие нормам отечественного делопроизводства: архив базируется на отечественных стандартах и нормах делопроизводства, практике организации учета докуметов и контроля действий исполнителей в государственных и негосударственных структурах; - универсальность и функциональность: функциональность архива обеспечивает комплексную поддержку офисных деловых процессов, максимально используя накопленные навыки делопроизводственного персонала и сложившуюся инфраструктуру; - прогрессивная архитектура: система архива может строиться в любой из трех давно и хорошо зарекомендовавших себя архитектур: в двухзвенной архитектуре «клиент-сервер» на базе основных промышленных СУБД; в трехзвенной архитектуре со специализированным WEB-сервером приложений, обеспечивающим возможность удаленного доступа к данным системы через сеть Internet или в среде корпоративной Intranet сети, используя в качестве универсального платфор-менно - независимого клиента стандартный Internet Browser; на базе стандартного клиента электронной почты Microsoft Exchange или Lotus Notes; на практике разумное комбинирование методов доступа к данным LanDocs дает возможность гибкого и экономичного конфигурирования лицензий в соответствии со спецификой делопроизводственной нагрузки на конкретных рабочих местах организации-заказчика;
Разработка технологической схемы процесса обработки документов
В структурах государственной службы объектом обеспечения управленческой деятельности является документ. Каждый документ включает определенное количество элементов, называемых реквизитами документа. Состав и количество реквизитов регламентируются ГОСТ-Р 6.30-97 [19] и инструкцией по архивному делопроизводству в Правительстве Республики Дагестан
В архивную систему попадает большое количество разнородных документов, аналитических записок, писем и т.п. Но технология, определенная для ввода и обработки бумажного документа, остается единой для всех видов документов.
Во всей совокупности технологий электронного архивирования существуют две ключевые проблемы, так или иначе рассматриваемых в данной работе: наполнение электронного архива и обеспечение эффективного поиска. Первая захватывает ряд инженерно-технических проблем, решение которых может потребовать существенных временных затрат. Этим обусловлена важность эффективной организации процесса разработки, включающей оптимальное планирование процессов, анализ и синтез наработанных технологий, создание системы управления качеством и др.
Негибкость экономической деятельности в большинстве государственных структур определяет ограничения на поэтапность и наращиваемость государственных электронных архивов. Это повышает требования к системному и детальному проектированию, созданию опытного образца, организации испытаний и тестирования. При этом следует помнить, что систему нельзя считать законченной, пока не будет введен основной накопленный объем документов.
В настоящий момент огромный спрос на программное обеспечение управления электронными документами объясняется рядом причин, в числе которых можно назвать следующие: - с документами работают абсолютно все организации; - практически каждая организация сталкивается с проблемами в делопроизводстве, даже если речь не идет о его автоматизации; - путем улучшения ведения делопроизводства предприятия и организации получают реальный шанс повысить качество управления в целом. Используемые в региональных структурах государственной власти информационные технологии делят на традиционные ("бумажные") и новые или нетрадиционные ("безбумажные"). Традиционными считаются те технологии, где в качестве носителя информации преобладает бу-мага и используются неэлектронные средства ее фиксации, преобразования и передачи. К новым относят информационные технологии, основу которых составляют компьютеры и/или электронно-оптические средства передачи информации. Исходя из этого, некоторые авторы новые информационные технологии определяют просто как использование вычислительной техники и систем связи для создания, сбора, передачи, хранения, обработки информации для всех сфер общественной жизни [34]. Существующий сегодня подход к сбору информации для принятия управленческих решений, носит "функциональный" характер и понимается соответственно как функция от информационного окружения, т.е. существуют базы данных внутренней и внешней информации, которую собрали и используют для принятия решения функциональные службы. Для организации современной деятельности необходима такая реорганизация информационных потоков, которая обеспечивает информационную достаточность и четкость во взаимном информационном обеспечении отдельных подразделений с целью выработки оптимального решения. На современном этапе качество управления и контроля в государственных учреждениях находится в прямой зависимости от своевременности и точности поступления информации о функционировании как отдельного объекта, так и группы объектов, особенно если они имеют значительную удаленность и сложную организацию. Кроме того, информация должна быть представлена в простой, интуитивно понятной форме. Большое количество и разновидность документов создает определенные трудности при проектировании и последующей адаптации системы электронного архивирования к существующей системе информационного обеспечения структур государственной власти. Поэтому целесообразно разработать типовую схему технологического процесса обработки документов в электронном архиве. В процессе создания и наполнения электронного архива документов аутентичного существующему архиву бумажных документов, все поступающие и создаваемые документы должны пройти следующие этапы ввода и обработки: Этап 1. Перевод существующего архива в электронный вид и создание аппаратно-программного комплекса для хранения данных. На данном этапе осуществляется сохранение образа документа, распознавание образа, сохранение текстового файла, верификация текста, атрибутирование документа, создание его карточки, концептуальная обработка документа. Результатом этапа является аппаратно-программный электронный архив аутентичный на данный момент по своему содержанию бумажному архиву. Этап 2. Создание аппаратно-программного комплекса для ввода поступающих документов. На этом этапе осуществляется создание аппаратно-программного комплекса для ввода в электронный архив поступающих документов: рубрикация в соответствии с классификатором, актуализация (выявление легитимной версии документа) и индексация документа. Этап 3. Создание системы автоматизации архивного делопроизводства. На данном этапе осуществляется создание аппаратно-программного комплекса для автоматизации архивного делопроизводства. Результатом этапа является внедренная система автоматизации архивного делопроизводства, позволяющая вести полный стандартизированный учет архивных документов. Типовая схема технологического процесса обработки документов, направляемых на хранение в архив, изображена на рис. 2.
В соответствии с представленной схемой возможна обработка документов как на бумажных носителях, так и в электронном виде. Для обеспечения функционирования на входе необходимо предусмотреть преобразование документов представленных на бумажных носителях в электронный вид и многоформатный прием электронных документов.
Функциональная модель разрабатываемой системы электронного архивирования
Создание системы архивирования, ориентированной на использование электронных документов и обеспечение аналитической деятельности, позволит поддерживать работу с документами в течение их жизненного цикла в электронном архиве: - подвергаются обработке и формированию образов документов; - передаются на архивное хранение и списываются в дела документы и их копии. Второй информационный поток замкнут на электронные регистрационные карточки документов: - при регистрации документов в их карточки вносятся следующие реквизиты: регистрационные номера, присвоенные документам, информация о корреспондентах поступивших документов, краткое содержание документов, другие данные общего характера; - вынесение резолюций фиксируется путем добавления в регистрационные карточки информации об авторах резолюций, текстов резолюций, фамилий исполнителей документов, сроков хранения документов, назначенных авторами резолюций; - передача документов в архив сопровождается добавлением в регистрационные карточки номеров (наименований) дел, в которых будут храниться оригиналы и копии документов. На этапе приема документов переход от традиционного к электронному документообороту сопровождается: - обеспечением многоформатного ввода электронных документов в систему; - наличием перевода документов на бумажном носителе в электронную форму (получение отсканированного изображения и распознавание текстов с помощью специального программного модуля); - обеспечением "прикрепления" к электронной карточке любых документов нескольких файлов, содержащих электронные копии этих документов и их приложений: текст, графики, таблицы, аудио, видео. При этом два информационных потока объединяются в поток сопровождения электронных регистрационных карточек с «прикрепленными» электронными копиями документов, а оригиналы документов хранятся в системе отдельно и не могут быть удалены или модифицированы. Переход к безбумажной технологии, предусматривающей работу только с электронными копиями документов, требует, чтобы пользователями системы стали все участники делопроизводственного процесса, включая руководителей и исполнителей. Включение аналитиков в процесс автоматизированной обработки документов при помощи автоматизированной системы электронного архивирования позволит им осуществить анализ и получить сведения о рассматриваемом вопросе по базе данных документов, включая документы архивного хранения; обеспечить коллективную работу группы над документами (с ведением версий проектов документов); уменьшить время обработки документов за счет увеличения скорости передачи данных и повышения дисциплины работы (вследствие протоколирования действий по передаче документов); выполнить атрибутивный и контекстный поиск необходимых документов по накопленному массиву данных.
Архивное хранение бумажных документов и микрофиш необходимо постепенно заменить преимущественно электронными документами, характеризующихся более низкой стоимостью хранения. Весь информационный массив, накопленный за многие годы, нецелесообразно переводить в электронный вид в связи с большой трудоемкостью. Надо осуществлять поэтапную замену бумажных документов на электронные в соответствии с частотой обращения к ним пользователей. Переход на архивное хранение электронных документов даст возможность осуществления удаленной работы и коллективного использования необходимых данных, выполнения атрибутивного и полнотекстового поиска, ускорения проведения анализа требуемой информации, поддержки составных документов. Дополнительное снижение стоимости хранения данных обеспечит использование разных электронных носителей информации (жесткие диски, оптические диски, магнитооптические диски и т.д.) и программного обеспечения Hierarchical Storage Management (HSM), которое ответственно за автоматическую миграцию документов в зависимости от частоты обращения пользователей к тому или иному документу.
Работники органов государственной власти получают возможность выполнения более глубокого анализа электронных документов с использованием имеющейся в системе информации, аргументированного доклада соответствующих материалов руководителям с выработкой предложений по их использованию. Кроме того, они в любой момент времени могут получить следующие данные: где, у кого, на какой стадии исполнения находился рассматриваемый документ; какова загрузка, какие были приняты решения, где искать связные документы и т.д.
Руководители высшего звена смогут рассматривать не только сообщения и доклады, подготовленные работниками структурных подразделений, но и самостоятельно, оперативно осуществлять анализ документов, получать сведения, статистические данные, отчеты по интересующим их вопросам, используя имеющиеся в системе информационные ресурсы.
Разработка основных компонентов системы электронного архивирования органов регионального управления
Предлагаемый подход к классификации текстовой информации основывается на гипотезе о том, что словарный запас и частоты использования слов зависят от темы текста. В настоящее время данная гипотеза активно и успешно используется в тематико-ориентированных методах поиска [56,72,94].
Концептуальная классификация предполагает выделение множества ключевых слов, определяющих тематику текста. При этом каждому из них приписывается вес, определяющий значимость данного слова в тематике, т.е. какие-то ключевые слова играют большую роль в определении тематики, какие-то меньшую, но именно такая совокупность слов определяет тематическую направленность.
Такой подход обеспечивает снижение размерности решаемой задачи за счет перехода от основного текста к его представлению в виде множества ключевых слов, приближенно описывающих его содержание. Это необходимо, прежде всего, для последующей тематической идентификации сравниваемых текстов. Задача классификации в данном случае сводится к задаче отнесения текста к некоторому тематическому классу, описываемому множеством ключевых слов.
Замечание: тематические классы в этом случае не определены заранее, их формирование, а также идентификация и отнесение текста к тому или иному классу происходит в процессе анализа текста.
Ключевые слова определяются по количеству их вхождений в текст, а именно - частота ключевых слов в тексте выше других слов. В рамках рассматриваемой модели структурного представления текста это будет означать, что через данные слова чаще проходит информационный поток, и информационные элементы, соответствующие этим еловам, имеют большее количество связей с другими информационными элементами.
Проблема заключается в определении порога, который отделяет ключевые слова от всех остальных. Однако этого не достаточно, чтобы корректно выделять тематику текста. Адекватность тематики (машинного представления темы текста, в виде множества ключевых слов) по отношению к теме, которую для себя определяет человек после чтения текста, вопрос открытый. Корректное и адекватное машинное представление тематики текста должно включать в себя не только ключевые слова, но и контекст этих слов, т.к. смысл любого слова определяется исключительно в контексте тех слов, которые употреблялись вместе с ним, близко, рядом по тексту. И сами по себе ключевые слова в отрыве от их контекста не отражают в полной мере тематическую направленность текста. Существующие исследования в психолингвистике [24,46] подтверждают данный тезис.
Необходимость дополнения ключевых слов контекстом определяется также соображениями практического характера. Суть этих соображений заключается в следующем.
Особенности частотного распределение слов в тексте могут значительно затруднить выбор пороговой величины и снизить качество последующего анализа документов на тематическую близость. Например, ситуация частотного выброса одного из слов. Непонятно при этом, какой необходимо устанавливать порог отсева, если частота повторений одного слова значительно превосходит все остальные, а все остальные при этом имеют одинаковую частоту. Либо устанавливать порог для выделения одного ключевого слова, или опускать порог и брать все слова текста в качестве тематики. И тот, и другой вариант неприемлемы, в одном случае тематика текста будет представлена в виде одного слова, в другом - тематикой будут все слова. Организация последующего поиска те 82
матически близких документов (текстов), на основе множества ключевых слов, выступающих в качестве поискового запроса, представляется в этом случае весьма проблематичной. Если поисковый запрос представлен одним словом - результат поиска может дать незначительное число тематически близких документов, если поисковый запрос представлен всеми словами документа, то результат поиска может дать слишком много "тематически далеких" документов (рассматривается вариант поиска - искать документы, содержащие хотя бы одно из слов запроса).
Дополнение ключевых слов контекстом в этом случае является вполне разумным и приемлемым вариантом решения данной проблемы. Приступим к разработке метода и алгоритма тематической классификации на основе модели структурного представления текста, учитывая вышеприведенные соображения. Общая последовательность метода будет выглядеть следующим образом. В качестве примера обработаем следующий текст:
«Информационное обслуживание регионального уровня заключается во взаимодействии с государственными органами, федеральными органами исполнительной власти на территории субъекта и местным самоуправлением. Управление на этом уровне направлено на рациональное размещение производства, углубление специализации и комплексное развитие территорий, выравнивание уровней их экономического и социального развития, решение других задач государственной региональной политики и обеспечивается разграничением прав и ответственности между федеральными и региональными органами власти (законодательными и исполнительными), Аппаратами Президента и Правительства.»