Содержание к диссертации
Введение
1. Создание электронных каталогов в отечественных и зарубежных библиотеках 12
1.1. Развитие электронных каталогов за рубежом 12
1.2. Электронные каталоги в России 23
1.3. Создание библиографических записей 30
1.4. Экспорт данных из каталога 42
1.5. Лингвистическое обеспечение электронного каталога 43
1.6. Автоматическая коррекция ошибок и сравнение строк 62
1.7. Электронный каталог как метаинформационная система 74
Выводы по главе 1 82
2. Технология создания электронного каталога 83
2.1. Метод нечеткого сравнения строк и устранения ошибок 83
2.2. Метод индексирования унитермами и мультитермами 90
2.3. Выбор структуры инвертированного файла 99
2.4. Использование инвертированных файлов для поиска ошибок и индексирования 112
2.5. Методика поиска дублетных записей в базе данных 114
2.6. Методика поиска в электронном каталоге, нечувствительная к ошибкам 117
2.7. Методика конверсии внешних баз данных 118
2.8. Выбор пользовательского интерфейса 122
Выводы по главе 2 130
3. Практическая реализация разработанных методов 132
3.1. Реализация программного интерфейса ввода данных 132
3.2. Реализация программных интерфейсов обработки данных .. 140
3.3. Программы конверсии БЗ из внешнего источника 143
3.4. Пользовательский поисковый интерфейс ЭК 144
3.5. Результаты внедрения 145
Выводы по главе 3 149
Заключение 150
Список использованных источников 152
Список сокращений 173
- Автоматическая коррекция ошибок и сравнение строк
- Выбор структуры инвертированного файла
- Выбор пользовательского интерфейса
- Реализация программных интерфейсов обработки данных
Введение к работе
Актуальность исследования. Глобальный процесс, получивший название "информатизация общества", оказывает влияние на все стороны жизни общества. Главное, что отличает этот процесс, заключается в приобретении информацией статуса фундаментального фактора существования человечества. Если ранее жизнь и прогресс человечества зависели в основном от материального производства, то теперь они невозможны без максимального использования информации во всех ее видах. Информационный фактор быстро приобретает почти такую же значимость, как и материальный.
Этот исторический переход к новому типу цивилизации особенно четко проявляется в некоторых наиболее развитых странах. Выросшая в "технотронном" обществе индустрия информации и информационного обслуживания приобрела настолько большой удельный вес в жизни государства и отдельного человека, что по числу занятых в ней людей приближается, к сфере материального производства. Само материальное производство попадает во все большую зависимость от индустрии информации.
Изменились и общественные потребности в информации, одним из следствий чего стала коренная трансформация библиотечного дела. Оно все более превращается в одну из мощных и важнейших отраслей индустрии информации, оснащаемую новейшей компьюникационной техникой, нетрадиционными носителями информации, высокоэффективными автоматизированными технологиями ее обработки и использования.
Кардинальные социально-экономические и политические пре-
образования в России, ориентация на использование новых информационных технологий меняют положение библиотеки в обществе, расширяют и усложняют ее функции и задачи. Мы являемся свидетелями и участниками эволюции социальной миссии библиотеки. Библиотеки в настоящее время являются основой для создания в России новой информационной инфраструктуры.
Современная библиотека является сложной информационной системой, состоящей как из традиционных, так и новых, не традиционных информационных подсистем. Важную роль среди новых информационных подсистем библиотеки играет электронный каталог (ЭК) и его создание является приоритетной целью автоматизации библиотек. Именно электронный каталог открывает быстрый и качественный доступ к информационным ресурсам библиотеки. Качество и эффективность ЭК определяются комплексом методов и средств, определяющих технологию его создания и использования.
Таким образом, актуальна научная проблема, решению которой посвящено данное исследование: выработка концепции ЭК и разработка методов и средств, определяющих технологию создания ЭК, соответствующих тенденциям развития информационных технологий и ориентированных на реальную практику их использования.
Разработанность проблемы. Начало процесса создания ЭК относится к 1960-1962 гг., когда ряд средних и малых библиотек США, преимущественно в учебных заведениях, независимо друг от друга приступили к разработке систем машиночитаемых каталогов и средств доступа к ним. В 1963 г. с принятием программы MARC (MAchine-Readable Cataloguing — машиночитаемая каталогизация) в
Библиотеке Конгресса США (БК США) этот процесс приобретает упорядоченный и направленный характер. Решения, полученные в
ходе реализации первых этапов программы MARC, de-facto стано-
вятся не только национальным, но и международным стандартом автоматизированных библиотечных систем.
В России первые попытки создания ЭК относится к началу 1970-х годов, они связаны с исследованиями в области форматов по обмену библиографическими записями в ГПНТБ. Примерно в то же
* время в ГБЛ на основе USMARC создан внутренний формат маши-
ночитаемой записи. Вскоре после этого информационные учреждения (ВИНИТИ, ИНИОН и др.) начинают деятельность по созданию и распространению библиографических записей на магнитных носителях.
Теоретические и практические проблемы создания ЭК в тече-*
ние длительного времени разрабатывают такие видные зарубежные
ученые, как Henriette D. Avram, Hugh С. Atkinson, Cyril Cleverdon,
Donald S. Culbertson, Richard de Gennaro, Franc W. Lancaster, Gerard
Salton,L. Syre и другие I 80, 109-113, 146, 160, 161, 181, 182, 192/.
а Крупномасштабные проекты по созданию ЭК реализованы и реали-
зуются в Библиотеке Конгресса США, Британской библиотеке, региональных и вузовских библиотеках США и стран Западной Европы. Особо следует отметить достижения в этой области библиотеки университета штата Огайо, ставшей ядром крупнейшей библиотечной сети OCLC (Online Computer Library Center) и центром мас-
^ штабного распределенного ЭК.
В нашей стране основы решения проблемы создания ЭК заложены в трудах Р.С. Гиляревского, Д.Г. Лахути, В.П. Леонова, А.В.
Соколова, А.И. Черного, Ю.И. Шемакина /55, 56, 58, 59, 63, 74, 79, 90, 91/. Теоретические и практические вопросы создания ЭК рассматриваются в работах А.Б. Антопольского, Ф.С. Воройского, Б.С. Елепова, Н.Е. Каленова, О.А. Лавреновой, Я.Л. Шрайберга /41, 51, 89-91/ и др., постоянно обсуждаются на международных конференциях и семинарах, среди которых следует отметить ежегодную Крымскую конференцию и конференции проводимые в РГБ и РЫБ. Масштабные проекты по созданию ЭК реализуют РГБ, РНБ, БАН, ГПНТБ, БЕН, ГПНТБ СО РАН, ВГБИЛ и другие крупнейшие библиотеки страны. Координация проектов осуществляется в рамках федеральной программы Либнет и федеральной программы "Культура России (2001-2005)" /53/.
В настоящее время в России разработано много автоматизированных библиотечных систем (АБИС) различного уровня сложности и масштаба. Многие региональные и вузовские библиотеки разрабатывают собственные АБИС. Создание же действительно мощной, адаптируемой и эффективной системы доступно только крупным библиотекам, таким как ГПНТБ и специализированным фирмам, таким как "Информ-Система". Среди таких систем можно выделить ИРБИС, "Библиотека", МАРК, решающие задачу комплексной автоматизации библиотек и содержащие стандартные средства создания и ведения ЭК, принятые для библиографических баз данных (ББД). Среди зарубежных массовых систем наиболее известны: ALEPH, DYNIX (HOmZON), GEAC, INNOPAC, Liber, TinLib, VTLS. Все они ориентированы, в основном, на работу с готовым ЭК и основное внимание уделяется сетевым средствам, средствам межсетевого взаимодействия, организации доступа пользователей и
обеспечению учета и сохранности изданий. Анализ описаний большинства из перечисленных АБИС показал, что в них, как правило, отсутствуют средства поиска и исправления ошибок и автоматизированного индексирования ЭК.
Целью исследования является теоретический анализ методов и
практическая разработка средств создания ЭК, позволяющих уско
рить и упростить его создание, повысить качество и облегчить ис
пользование. Для ее достижения следует решить следующие задачи:
* 1. Проанализировать современное состояние проблемы создания
ЭК.
Рассмотреть существующие методы и средства создания ЭК, определить возникающие при этом проблемы и наметить пути их решения.
Дать анализ проблемы создания ЭК как сложной комплексной задачи, направленной на обеспечение эффективного доступа к информационным ресурсам.
Разработать методы и средства создания ЭК и организации эффективного доступа к нему.
+ Объектом исследования является электронный каталог как
сложная метаинформационная система.
Предметом исследования являются особенности технологии создания электронного каталога, методов и средств используемых при создании электронного каталога.
Методы исследования, используемые в работе, базируются на
% основных положениях системного анализа, теории информации и
информационных процессов, теории нечетких множеств, теории индексирования.
Научная новизна диссертационной работы заключается в том, что впервые электронный каталог рассматривается как сложная самообучающаяся метаинформационная система в совокупности с ме-тодами и средствами его создания, поддержания и развития. Предложен единый подход к технологии создания электронного каталога, основанный на систематическом применении методов нечеткой логики и теории индексирования.
На защиту выносятся следующие положения:
Концепция ЭК как метаинформационной системы.
Технология создания электронного каталога, включающая:
- метод контроля и корректировки вводимых библиографических
записей;
- метод индексирования библиографических данных с созданием
. нечетких поисковых образов документов;
метод идентификации и сравнения библиографических записей на основе создания многоуровневого нечеткого образа записи;
метод повышения уровня распознаваемости и автоматизированной коррекции данных при ретроконверсии карточных каталогов
* - методику конверсии внешних баз данных для создания элек-
тронного каталога.
Практическая значимость работы и реализация результатов.
Полученные в работе теоретические и практические результаты яв
ляются теоретической основой разработанных алгоритмов и мето
дик, а также программных средств, включающих в себя:
^ - программный комплекс обслуживания электронного каталога;
программу конверсии внешних баз данных;
программу ввода спецификаций журнальных изданий;
программу ведения каталога периодических изданий и поиска в нем;
программу статистического анализа библиографических баз данных;
программу создания и редактирования инвертированного файла электронного каталога с элементами индексирования;
программу автоматизированного индексирования библиографических баз данных
программный интерфейс доступа к электронному каталогу.
Практическая ценность полученных результатов состоит в том, что они обеспечивают каталогизатора, систематизатора, библиографа и рядового пользователя средствами, позволяющими:
ускорить процесс создания электронного каталога за счет сокращения клавиатурного ввода;
снизить количество недоступных библиографических записей в электронном каталоге на основе применения метода нечеткого сравнения строк и записей;
обеспечить эффективный поиск в электронном каталоге с применением нового пользовательского интерфейса.
Базой исследования являются электронные каталоги Библиотеки РАН и библиотек-отделов БАН при институтах Санкт-Петербургского Научного Центра РАН, российские и зарубежные библиографические базы данных и электронные каталоги в сети Internet и на CD-ROM.
Апробация работы и публикации. Материалы диссертационной работы докладывались на конференциях и семинарах:
1. Библиотеки и ассоциации в меняющемся мире: новые техноло-
гии и новые формы сотрудничества (Судак, 1998)
Библиотеки и ассоциации в меняющемся мире: новые технологии и новые формы сотрудничества (Судак, 1999).
Библиотечное дело в России и за рубежом: Наследие и современность. (Краснодар, 1999).
Библиотечное дело и проблемы информатизации общества. (Москва, 1999).
5. Библиотечное дело - 2000: программа формирования открыто-
^ го информационного общества (Москва, 2000).
Информационные ресурсы библиотек и их кадровое обеспечение (Минск, 2000).
Библиотечное дело - 2001: Российские библиотеки в мировом информационном и интеллектуальном пространстве (Москва 2001).
Автоматическая коррекция ошибок и сравнение строк
Проблема коррекции искажений как техническая проблема, связанная с ЭВМ, имеет давнюю историю. Первые работы были посвящены исправлению искажений, получаемых в результате передачи символов и чтения их оптическими устройствами. Кроме того, в . центре внимания было повышение распознаваемости кода Морзе и коррекция ошибок в ключевых словах и идентификаторах в языках операционных систем и программирования. В настоящее время наибольший интерес представляет возможность коррекции машиночитаемых текстов на естественном языке. Хотя автоматически производится лишь обнаружение ошибок, и то лишь орфографического типа, а собственно коррекция ведется обычно при участии человека, даже при таком ограниченном автоматизме точность и производительность выверки текстов значительно возрастает /11, 176, 196, 205/.
Анализ различных источников/5, 6, 34, 130, 172/ позволил установить, что проблема коррекции ошибок включает в себя следующие аспекты:
- коррекция ошибок слов, т.е. случаев преобразования правильного слова в другое правильное слово;
- коррекция ошибок структур слов - пропуск одного и более слов, строк, абзацев, перестановки слов;
- коррекция ошибок связи слов, т.е. знаков препинания;
- коррекция символьных ошибок, т.е. ошибок оператора, заклю 63
чающихся во вставке, замене, удалении одного и более символов и перестановке двух соседних символов.
К настоящему времени задача автоматизации коррекции искажений рассматривалась только для случая символьных ошибок и ошибок связи слов, которые превышают все остальные искажения на порядок. В дальнейшем под словом искажения мы будем понимать только символьные искажения.
При разработке средств коррекции текстовых ошибок следует выделить три основные задачи:
- изучение характеристик искажений;
- определение способа представления знаний;
- разработка алгоритма коррекции, преобразующего искаженный текст в "улучшенный".
К характеристикам искажений обычно относят статистику различных ошибок в текстах, которая группируется по трем параметрам:
- количество искаженных символов;
- позиция искажений в слове;
- типы ошибок.
Чисто автоматическому исправлению мог бы способствовать автоматический синтаксический и семантический анализ проверяемого текста, но он еще не стал принадлежностью систем автоматической коррекции. И даже при его наличии лишь человек сможет диагностировать быстро меняющиеся совокупности собственных имен, терминов и аббревиатур, а также окказионализмы - случайно появляющиеся словесные новации.
В связи со сказанным полная автоматизация исправлений мо 64
жет применяться лишь в любом из следующих ограничительных условий:
- текст имеет вид перечня терминов и терминологических слово-сочетаний в стандартной их форме, так что достаточно иметь словарь, замкнутый по объему и проблематике. При этом все термины между собой «непохожи» (например, в словаре нет одновременно слов АДСОРБЦИЯ и АБСОРБЦИЯ);
- ошибки носят характер замены кодов исходных букв на коды литер, совпадающих или близких к исходным по начертанию. Например, заменяются коды ASCII русских букв А, В, С, Е, У, О на коды латинских букв А, В, С, Е, Y, О, латинские буквы I и О-на цифры 1 и 0 и т. п.;
- повторы одной и той же литеры, возникающие из-за продленного нажима клавиши клавиатуры или ее неисправности.
В подавляющем большинстве, если в словоформе более 2-3 букв, такие исправления абсолютно правильны.
Можно применять автоматическое исправление и тогда, когда текст содержит лишь минимум личных имен, и в системе преду смотрен постконтроль автоматически исправленных мест челове ком. Чтобы в последнем случае (с постконтролем или без него) уменьшить число неверных исправлений, можно привлечь результаты исследований типовых ошибок, допускаемых человеком при вводе текстов в машину. Характер этих ошибок существенно зависит от конкретного языка.
Для английского языка, где орфография зиждется на этимоло гическом (историческом) принципе и расхождение между звуковым и письменным обликом слов велико, характерны школьно орфографические ошибки /201, toil. Поэтому в процессе исправления здесь, в первую очередь, целесообразны пробные шаги, сохраняющие «звучание» буквенных цепочек.
В славянских языках письмо базируется на принципах, близких к фонетическому (отдельные буквы отражают фонемы современного языка), и пишущему гораздо легче увязывать звуки и фиксирующие их на письме буквы. Поэтому операторам легче избегать школьно-орфографических ошибок /14, 51, 70/. Как показано в /14/, на первое место в русском языке выдвигаются недостатки профессиональной подготовки машинисток - неточные или несинхрониэо-ванные между руками нажимы клавиш, пропуски и лишние нажимы. Характер этих погрешностей выявлен, и на этой основе предложено ранжировать гипотезы исправления, внешне равновозможные, по их статистическому правдоподобию. Для этого предложена клавиатурная модель типовых ошибок, прямо зависящая от расположения клавиш на стандартной (для данной страны) клавиатуре и от привычной привязки к зонам клавиш разных пальцев машинистки (оператора). Следует отметить, что эта клавиатурная модель ориентирована на оператора, владеющего десятипальцевым методом ввода, что не слишком распространено в библиотеках.
Выбор структуры инвертированного файла
Инвертированный файл - это таблица представляющая собой множество отношений: ЛЕ - совокупность точек входа ЛЕ в БД. Качество инвертированного файла как основы эффективного поиска в БД несомненно играет важную, если не основную, роль. Детализация точки входа бывает различной, например, с учетом структуры записи в MARC-ориентированных форматах БЗ: номер записи, номер поля, номер повторения поля, сигнатура подполя, положение в подполе (номер ЛЕ от начала подполя или смещение первого символа ЛЕ от начала подполя). Основным недостатком инвертированного файла является его большой объем. Если не применять специальные методы кодирования списков точек входа и методы контроля ЛЕ, то размер инвертированного файла может превышать размер информационного массива документов в 2-3 раза.
С целью совершенствования поисковых средств ЭК предлагается расширить использование инвертированного файла для индексирования БЗ.
Каковы же основные факторы, влияющие на эффективность применения инвертированных файлов? Перечислим некоторые, наиболее важные, на наш взгляд, факторы.
Представительность. Очевидно, что чем больше информации в инвертированном файле, тем он полезнее для поиска. Существенную роль также играет правильное структурирование и сегментация данных.
Размер. Чем меньше размер, тем легче ориентироваться в словаре БД и тем быстрее идет поиск. Здесь имеет место конфликт с предыдущим фактором.
Семантическая определенность. Повышается релевантность результатов поиска.
Мультибазовость. Обеспечивается одновременный поиск в нескольких БД, что уменьшает время поиска.
Гибкость. Возможность пополнения инвертированного файла при расширении связанных с ним БД без полной реорганизации.
Каким же образом можно влиять на эти факторы? Самое очевидное решение для повышения представительности - полное инвертирование всех полей БД. Разумеется, это не выход. Остается другое - выбор информативных полей и подполей и их инвертирование. Но и после этого в инвертированном файле остается немало "мусора" - неинформативной лексики (НИЛ). Это не только так называемые стоп-слова, но и термины, не несущие информации в контексте той или иной базы данных. Именно в этом отличие предлагаемого понятия НИЛ от понятия стоп-слова. В списки стоп-слов включают, помимо служебных слов, термины, не несущие предметной информации, например: аспекты, проблема, усиление, расшире-ние, эффективность и т.п. При этом не учитывается контекст термина. Так, например, термин "археологический" в контексте ПОБД по археологии не является информативным и должен быть включен в НИЛ. Подобных примеров можно привести много.
Таким образом, необходимо каким-либо образом "фильтровать" инвертированный файл при его создании. Аналогичные функции выполняет файл стоп-слов в ППП CDS/ISIS, но ограничения, накладываемые на его состав (длина терминов не превышает 10, количество терминов не более 799), ограничивают возможности его применения. Следовательно, необходимо формировать специальный файл НИЛ без подобных ограничений. Его применение позволяет сократить объем инвертированного файла и повысить релевантность поиска.
Устранить семантическую неопределенность можно, определив источник ее происхождения. Как правило, это совпадение тер щ минов или аббревиатур из различных полей. Таким образом, разде ление информации из различных полей позволяет во многом решить эту проблему. Использование индексов или префиксов для разделения терминов, тем более в режиме ручного ввода, на наш взгляд, не является естественным решением, так как приводит к большим затратам и повышает вероятность внесения ошибок в БЗ.
Формат инвертированного файла ППП CDS/ISIS не преду сматривает каких-либо ссылок на совокупность БД, и, таким образом, поиск по совокупности БД происходит последовательно. Объединение нескольких БД в одну часто непродуктивно как с точки зрения организации поиска, так и с точки зрения их сопровождения. Мультибазовый подход позволяет провести предметизацию уже на уровне БД и сократить, таким образом, область поиска и время поиска.
Выбор пользовательского интерфейса
Сделать доступ к информационным ресурсам как можно более легким и интуитивно понятным пользователю призван пользовательский интерфейс. Пользовательский интерфейс - это совокупность программного обеспечения и оборудования, с помощью которого, осуществляется связь пользователя с информационными ресурсами /4,124/.
На практике эта связь осуществляется при помощи ряда элементов - команд побуждающих компьютер выполнить то или иное действие, способа отображения полученной информации, средств информационной помощи, необходимой пользователю при работе с системой.
Графический пользовательский интерфейс делает компьютер более легким и удобным для использования. Для этого он должен быть "дружественным" по отношению к пользователю, предусматривать возможные нужды и функции определенного класса пользователей, предупреждать их от ошибок в работе и защищать от разрушения системы. Он позволяет заменить командное управление с учетом сложного синтаксиса операционной системы на манипулирование окнами и элементами изображения пользовательских интерфейсов. Интерфейс с пользователем должен быть логичным и согласованным, не создавать неожиданные или тупиковые ситуации при любых действиях пользователей в соответствии с инструкциями, иметь руководства для помощи при работе и для предотвращения ошибок /2, 28, SSjoy.
Во-первых, пользовательский интерфейс должен быть настолько гибким, насколько это возможно. Это позволит ему быть легким в использовании и новичкам, и экспертам.
Поэтому важно сделать пользовательский интерфейс настраиваемым, например, простое меню и меню для более опытных пользователей. Другой способ обеспечения гибкости - разработка двух отдельных интерфейсов.
Во-вторых, пользователь должен иметь возможность свободного перемещения как от опции к опции и от экрана к экрану, так и в рамках результатов своего поиска - от записи к записи, от поля к полю. Без хороших навигационных методов неопытный пользователь будет ощущать дискомфорт при работе с программой. Это особенно важно для среды Windows - где уровень контроля над управляющими и рабочими элементами очень гибок и высок.
В-третьих, важно дать пользователю возможность задать вопрос при затруднении в работе с программой, и получить на него ясный и простой ответ, адекватный его запросу.
Пользователь должен быть постоянно информирован системой процессе обработки его запроса. Некоторые запросы могут обрабатываться достаточно продолжительное время, в течение которого, пользователь будет чувствовать себя несколько неудобно, а отсутствие отклика системы вызовет сомнение в ее исправности.
В /147/ отмечается как типичный недостаток злоупотребление оконным интерфейсом, выражающееся в нагромождении диалоговых и информационных окон, затрудняющих работу пользователя. Представление элементов управления и выходной информации на экране оказывает большое влияние на легкость эксплуатации любого программного продукта. Размещение функциональных элементов должно быть интуитивно понятно пользователю. Слишком большая или малая информативность экрана могут отпугнуть пользователя.
Проектирование интерфейсов пользователей состоит в разработке интегрированного набора средств, помогающих разработчику в создании и управлении различными интерфейсами пользователей. Основу пользовательского интерфейса составляют наборы графических элементов и действий над ними, представляемые как меню и системы окон для манипулирования с изображениями. При этом ставится задача отделить процесс создания интерфейса пользователей от разработки прикладных программ, которые не должны связываться с конечными пользователями напрямую. Основные особенности современного интерфейса с пользователями состоят в следующем/60, б /, 186, 198/:
- наличие механизмов управления окнами;
- использование готовых графических символов (икон) для отображения управляемых объектов;
- непосредственное манипулирование графическими объектами и окнами посредством "мыши"; - объектно- и проблемно-ориентированное проектирование диалоговых систем.
Важную роль играет цветовое оформление интерфейса. Слишком яркая цветовая палитра приводит к быстрой усталости в то время как экран без цветовой маркировки ключевых элементов программы может дезориентировать пользователя. Трудность цветового отображения информации заключается в субъективности подхода к использованию цветовых палитр, поскольку нет объективных критериев оценивающих раздражительность или допустимость того или иного цвета. Поэтому следует при проектировании цветового оформления пользоваться стандартными цветами Windows, заданными в настройках ОС. Тогда любой пользователь сможет изменить цветовую гамму, пользуясь стандартными средствами.
Для реализации интерфейсов создаются и используются библиотеки технологических интерактивных программ, позволяющих использовать устройства ввода команд управления и графических элементов при наличии обратной связи, отображающей на дисплее результаты манипулирования ими. Для этого разрабатываются мо дели, методы и языки проектирования интерфейсов пользователей, которые должны соответствовать проблемной области информационной системы.
Реализация программных интерфейсов обработки данных
Все элементы интерфейса снабжены ярлыками, дающими необходимые подсказки при работе. Длительные процессы индицируются шкалами, отражающими ход процесса. В программе предусмотрены средства автоматического контроля правильности выполняемых операций и выдачи предупреждающих сообщений пользователю. Для критических операций предусмотрена возможность их отмены и восстановления предыдущего состояния файлов.
Программа позволяет исследовать частотные характеристики терминов, строить распределения частот по терминам, по длине, по объему (суммарное число символов в БД), по совместной встречаемости в различных структурных единицах БЗ (подполе, поле, запись), исследовать контекст терминов (рис. 3.7) и получать словари унитермов и мультитермов, используемые для автоматизированного индексирования. Кроме этого, для каждой БД можно построить свою таблицу п-грамм.
Процедура создания файла мультитермов построена на основе алгоритма морфологического и синтаксического анализа описанного в главе 2. Процедуры индексирования и инвертирования аналогичны применяемым в Verlnvert и основаны на алгоритмах описанных во 2 главе.
Программа Verlnvert предназначена для создания системы инвертированных файлов ЭК. Процесс инвертирования состоит из следующих этапов:
- определение состава файла НИЛ;
- сегментация и/или объединение текстовых и числовых данных;
- корректировка инвертированного файла, включающая морфологический анализ и объединение терминов по основе;
- индексирование дескрипторами, выбираемыми из словаря вручную и/или автоматически;
- индексирование с использованием тезауруса с применением как нисходящего, так и восходящего индексирования.
Интерфейс программы инвертирования представляет собой цепь последовательных вкладок, отражающих последовательность этапов процесса инвертирования. Некоторые этапы могут быть опущены. Программа подробно описана в Приложении 1.
3.3. Программы конверсии БЗ из внешнего источника
Программа IsisUlr позволяет конвертировать БЗ в формате MARC в БЗ в формате UNIMARC на основе алгоритма, описанного в главе 2. При этом создается файл в формате ППП CDS/ISIS и выполняется перевод на русский язык части информации из исходной БЗ. Программа не имеет интерфейса и выполнена как консольное приложение. Передача параметров (имена входного и выходного файлов) осуществляется через командную строку.
Логически связанная с ней программа Speclnt предназначена для ввода спецификаций периодических изданий. Ее интерфейс спроектирован так, чтобы предельно сократить клавиатурный ввод и обеспечить быстрое создание БД. Результат ее работы - компактная ББД, которая по окончании ретроспективного ввода разворачивается в полную ББД. Передача параметров (имя секции системного реестра с характеристиками сеанса и признак сортировки) осуществляется через командную строку.
Программа подробно описана в Приложении 2.
Пользовательский поисковый интерфейс обеспечивается про щ граммой VerSearch и спроектирован на основе требований вырабо танных в главе 2. Он позволяет получить доступ к ЭК как с помощью словарей (инвертированных файлов), так и с помощью свободного поиска. Результаты поиска сохраняются в различных форматах (файл CDS/ISIS, текстовый файл формата rtf, библиографическая карточка, ISO2709, UNIMARC и других). Ф
Файл протокола хранит все запросы, которые при необходимости могут быть повторены пользователем.
Подробное описание программы приведено в Приложении 3.
На основе интерфейса VerSearch разработан интерфейс доступа к журнальному ЭК Б АН (Journlnt). Учет особенностей поиска и потребностей читатели позволил существенно упросить как внеш ний вид интерфейса, так и использование его. В основе журнального организации поиска в ЭК лежит система инвертированных файлов, разработанной в главе 2 структуры.