Введение к работе
Последние десятилетия нашего века характеризуются небывалым ростом объемов информации. Развитие сетевых технологий привело к кардинальным изменениям в информационной сфере. Мир вступает в эру безбумажной, электронной информации.
Из множества задач обработки информации выделяется задача информационного поиска, для реализации которой разрабатываются автоматизированные информационно-поисковые системы (ИПС), представляющие собой совокупность средств и методов, предназначенных для хранения и поиска текстов (документов) или данных (фактов).
Объектом исследования настоящей диссертации являются документальные информационно-поисковые системи, в которых единицами хранения и выдачи являются документы (тексты). В качестве предмета исследования выступают языковые средства ИПС, или подсистема лингвистического обеспечения.
Актуальность работы определяется необходимостью исследования проблем лингвистического обеспечения документальных ИПС, так как языковые средства являются ядром ИПС. Несмотря на разнообразие теоретических работ и большое число реатыю функционирующих ИПС, результаты исследований по теории информационного поиска и лингвистическому обеспечению нельзя признать удовлетворительными. Более того, интенсивность теоретических исследований по лингвистическому обеспечению неуклонно снижается. Создание ИПС все чаще становится делом программистов и специалистов по компьютерной технике.
Лингвистический компонент современных ИПС отстает от технического и программного. Создание лингвистического обеспечения является сложной и комплексной проблемой, требующей исследования и решения многих задач семантики, прикладной лингвистики и теории информационного поиска. Достижения в области программно-технического обеспечения документального поиска, коренным образом изменившие лицо современных информационных систем, выглядят, безусловно, впечатляюще. Однако эти достижения образуют явную диспропорцию с показателями эффективности поиска. Под эффективностью мы понимаем функциональную эффективность, отражающую качественную сторону документального поиска. Качество же работы современных поисковых систем — особенно в Интернет — оставляет желать лучшего. Эта сложившаяся диспропорция делает работы, направленные на совершенствование документальных ИПС, особенно актуальными. Кроме того, в сферу электронного документооборота и информационного поиска на полных правах вошел естественный язык. Это явление требует серьезного научного осознания и освоения, для чего также необходимы теоретические и практические разработки в области лингвистического обеспечения.
Основной целью настоящего диссертационного исследования является разработка теоретических принципов построения лингвистического обеспечения документальных ИПС, создание комплекса языковых средств, практическая реализация их в виде действующей модели ИПС и проверка выработанных принципов.
Эта общая цель обусловила необходимость проработки и решения ряда теоретических и практических конкретных задач, в частности:
1) определение состава и структуры комплекса языковых средств
документальных ИПС;
-
исследование схемы взаимодействия языковых средств документальных ИПС;
-
разработка концепции и выбор типа информационно-поискового языка (ИПЯ);
-
создание функциональной модели ИПС без лексического контроля;
-
разработка принципов и алгоритмов морфологической нормализации лексики ИПЯ;
-
разработка методов и средств работы с лексикой запросов;
-
разработка методов и алгоритмов построения тезауруса запросов;
-
анализ тенденций развитая современных ИПС и обоснование основных положений архитектуры "клиент-сервер" применительно к системе языковых средств информационных систем;
-
анализ языков запросов информационных систем и разработка унифицированной структурной модели языка запросов.
Методы исследования включают методы системного анализа, классификационно-типологический анализ языковых средств, метод функционального моделирования, метод дистрибутивно-статистического анализа, метод структурно-функционального моделирования, методы эксперимента, аппарат теории множеств, математической логики, теории алгоритмов и прикладной лингвистики.
Научная новизна работы определяется следующими результатами:
определены основные принципы построения документальных нолигема-тическлх ИПС без контроля лексики;
разработал комплекс языковых средств ИПС без контроля лексики;
разработана функциональная модель данной ИПС;
разработаны методы автоматического кодирования словоформ текста в целях морфологической нормализации;
разработаны средства и методы лексико-семактической обработки запросов;
разработаны формализованные методы построения тезауруса запросов;
обоснован подход к созданию языковых средств, обеспечивающих агрегацию традиционных дескрипгорных языков с языками библиографических данных;
обобщены принципы архитектуры "клиент-сервер" применительно к языковым средствам документальных ИПС;
создана унифицированная структурная модель языков запросов современных ИПС.
Научная достоверность исследования обеспечивается учетом обширной литературы по теме, обобщешіем опыта разработки лингвистического обеспечения различных систем и личного опыта автора, проверкой результатов исследования на практике. Представленная концепция документальной ИПС основана на исследованиях, проводившихся автором на протяжении многих лет (1973-1991) в ЛенЦНТИ для решения практических информационных задач достаточно крупного масштаба в рамках Государственной программы 0.80.18 по теме И81.40 (задашіе 06.01 "Усовершенствовать и ввести в эксплуатацию АСНТИ по РСФСР"). С 1992 г. исследования были продолжены в Библиотеке Российской академии наук в рамках работ по создашю автоматизированной библиотечной системы.
Практическая ценность работы заключается в том, что разработанные на основе диссертационного исследования лингвистические средства реализованы на практике в ряде систем, работающих в режиме промышленной и опытной эксплуатации в ЦНТИ АСНТИ РФ, в Библиотеке РАН, в других организациях. Полученные результаты могут быть использованы также в учебных курсах по прикладной лингвистике, информатике, автоматизировшшой обработке текстов, библиографическому поиску и др. Материалы диссертационного исследования использовались и используются автором в учебных курсах по автоматизации информационных процессов в Санкт-Петербургском университете, Институте повышения квалификации информационных работшшов и Санкт-Петербургской академии культуры. По данной тематике под руководством автора в Санкт-Петербургском университете и Санкт-Петербургской академии культуры защищено несколько дипломных работ.
Апробация работы. По проблемам лингвистического обеспечения и автоматизированного информационного поиска автором опубликовано 67 работ. Основные положения диссертации докладывались и обсуждались на многих конференциях и семинарах, перечень которых включает международные конференции и семинары по вопросам информатики в Кабли (Эстония, 1990), Лохусалу (Эстония, 1992), Москве (1993), Вильнюсе (1994), Крыму (1994, 1995, 1996, 1997), Новосибирске (1994, 1996), Тронхейме (Норвегия, 1995), Санкт-Петербурге (1995, 1996), Будапеште (1996), Всесоюзные научные семинары "Системные исследования ГАСНТИ" (1979-1991), Всесоюзные конференции "Проблемы развития Государственной системы патентной информации", межотраслевые конференции, семинары, симпозиумы и выставки по проблемам автоматизированной обработки научно-технической информации (1978-1989), конференцию "Семантика естественных и искусственных языков" (Ленинград, ЛГУ, 1979), Межвузовский симпозиум по научно-технической лексикографии (Ленинград, ЛГУ, 1981), Всесоюзную конференцию "Актуальные проблемы компьютерной лингвистики" (Тарту, 1990) и др.
На защиту выносятся:
-
Основные принципы построения документальных политематических ИПС без контроля лексики.
-
Логико-лингвистическая реализация ИПС "РАСПРИ-1".
-
Разработка принципов и алгоритмов автоматического кодирования словоформ текста в целях морфологической нормализации.
-
Разработка методов и средств лексико-семантического нормирования запросов в ИПС без лексического контроля.
-
Методология и алгоритмы построения тезауруса запросов методами дистрибутивно-статистического анализа и транзитивного замыкания.
-
Обобщенная структурная модель языков запросов современных ИПС.
Структура и объем работы. Диссертация состоит из введения, 4 глав, заключения и списка литературы. Основной текст диссертации занимает 216 страниц, содержит 8 таблиц, 7 рисунков. Список литературы состоит из 224 названий.