Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Теоретические и прикладные аспекты применения метода аналогии в системах автоматической обработки текстовой информации Зеленков Юрий Григорьевич

Теоретические и прикладные аспекты применения метода аналогии в системах автоматической обработки текстовой информации
<
Теоретические и прикладные аспекты применения метода аналогии в системах автоматической обработки текстовой информации Теоретические и прикладные аспекты применения метода аналогии в системах автоматической обработки текстовой информации Теоретические и прикладные аспекты применения метода аналогии в системах автоматической обработки текстовой информации Теоретические и прикладные аспекты применения метода аналогии в системах автоматической обработки текстовой информации Теоретические и прикладные аспекты применения метода аналогии в системах автоматической обработки текстовой информации Теоретические и прикладные аспекты применения метода аналогии в системах автоматической обработки текстовой информации Теоретические и прикладные аспекты применения метода аналогии в системах автоматической обработки текстовой информации Теоретические и прикладные аспекты применения метода аналогии в системах автоматической обработки текстовой информации Теоретические и прикладные аспекты применения метода аналогии в системах автоматической обработки текстовой информации
>

Данный автореферат диссертации должен поступить в библиотеки в ближайшее время
Уведомить о поступлении

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - 240 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Зеленков Юрий Григорьевич. Теоретические и прикладные аспекты применения метода аналогии в системах автоматической обработки текстовой информации : ил РГБ ОД 71:1-5/190

Содержание к диссертации

Введение

Глава 1. Компьютерная лингвистика в системе НТИ 10

Выводы 25

Глава 2. Метод аналогиии в компьютерной лингвистике 26

2.1. Предварительные замечания 26

2.2. Метод аналогии в морфологии 30

2.3. Метод аналогии в синтаксисе 34

2.4. Метод аналогии в семантике 44

2.4.1. Дистрибутивно-статистический анализ текстов 44

2.4.2. Автоматическая классификация текстов 45

2.4.3. Автоматическое установление парадигматических отношений между словами на основе известных парадигматических отношений между словосочетаниями... 48

2.4.4. Автоматическое установление переводных соответствий между словами на основе переводных соответствий между русскими и английскими именными словосочетаниями 49

2.4.5. Дистрибутивно-статистический метод установления переводных соответствий между русскими и английскими словами и словосочетаниями по параллельным текстам (билингвам) 50

2.4.5.1. Установление переводных соответствий между словами 50

2.4.5.2. Установление переводных соответствий между словсочетаниями 51

2.5. Фразеологический машинный перевод 53

Выводы 56

Глава 3. Морфологический анализ русских и английских текстов на основе метода аналогии 58

3.1. Морфологический анализ русских слов 58

3.2. Морфологический анализ английских слов 77

Выводы 94

Глава 4. Системы фразеологического машинного перевода 95

4.1. Предварительные замечания 95

4.2. Лексический состав современных языков 96

4.3. Переводные соответствия между лексическими единицами 98

4.4. Концепция фразеологического машинного перевода 104

4.5. Системы машинного перевода RETRANS и ERTRANS 107

4.6. Перспективы развития фразеологического машинного перевода 113

Выводы 114

Глава 5. Другие примеры применения метода аналогии в системах автоматической обработки текстовой информации 116

5.1. Автоматизированная словарная служба ВИНИТИ 116

5.2. Системы автоматизированного обнаружения и исправления орфографических ошибок в текстах (русских и английских) 118

5.3. Система пословной нормализации (лемматизации) русских текстов 120

5.4. Система избыточного пословного индексирования русскоязычных библиографических баз данных 122

5.5. Системы автоматического индексирования русскоязычных документов ключевыми словами и словосочетаниями на русском, английском и вьетнамском языках 123

5.6. Политематический ассоциативный тезаурус ключевых слов и словосочетаний по естественным и техническим наукам 126

5.7. Система автоматизированного реферирования документов на основе словаря стандартных фраз 128

Выводы 132

Заключение 133

Литература

Введение к работе

Естественный язык является универсальным средством общения. В нем отражается все богатство материальной и духовной культуры человечества. Он не отделим от процесса мышления и является его инструментом. Он служит также инструментом накопления, хранения и передачи информации. Словарь таких развитых языков как русский и английский имеет объем более одного миллиона слов, а количество фразеологических единиц (в том числе терминов) исчисляется сотнями миллионов. Поэтому почти все задачи, связанные с разработкой средств автоматической обработкой текстовой информации, трудны и трудоемки. Но, с другой стороны, прогресс в разработке этих средств повышает эффективность информационной работы.

По мнению многих отечественных и зарубежных ученых 21-ый век будет веком бурного развития информационных технологий, а компьютерная лингвистика станет локомотивом этого развития. Но чтобы она на деле стала таким локомотивом требуется приложить большие усилия. Задачи, стоящие перед компьютерной лингвистикой, чрезвычайно сложны и трудно поддаются алгоритмизации. Поэтому необходимо искать альтернативные пути решения этих задач. На наш взгляд одним из альтернативных путей является широкое применение метода аналогии.

К такому выводу пришел, в частности, профессор Макото Нагао, который в течение многих лет руководил в Японии работами по машинному переводу. В статье [167] он противопоставляет традиционному алгоритмическому подходу, который он называет "rule based approach" ("подход, основанный на правилах"), другой подход "example based approach" ("подход, основанный на примерах").

Метод аналогии ни в коей мере не противостоит алгоритмическому подходу. Более того, он в значительной мере опирается на алгоритмический

подход, но акцент здесь делается не на сложные алгоритмические процедуры, а на индуктивные умозаключения по аналогии. К сожалению, метод аналогии пока еще не занял должное место в исследованиях и разработках по компьютерной лингвистике.

Компьютерная лингвистика как наука возникла на рубеже 1950-х -1960-х годов прежде всего в связи с необходимостью решения задач машинного перевода и информационного поиска. Крупный вклад в решение этих задач внесли российские ученые Ю.Д. Апресян, Г.Г. Белоногов, Г.Э. Влэдуц, Р.С. Гиляревский, О.С. Кулагина, Д.Г. Лахути, Ю.Н. Марчук, И.А. Мельчук, Е.В. Падучева, Р.Г. Пиотровский, В.А. Успенский, В.К. Финн, А.И. Черный, Ю.И. Шемакин, Ю.А. Шрейдер и многие другие.

В настоящей диссертации предпринята попытка рассмотреть теоретические и прикладные аспекты применения метода аналогии в системах автоматической обработки текстовой информации. Ее автор в течение полутора десятков лет занимался применением этого метода к задачам компьютерной лингвистики и накопил здесь определенный опыт. Этот опыт и опыт других исследователей в обобщенном виде представлен в предлагаемой работе. Целью исследования является изучение возможностей применения метода аналогии в системах автоматической обработки текстовой информации и разработка эффективных процедур и систем, реализующих этот метод. Предметом исследования являются закономерности языка и речи, позволяющие применять этот метод и на его основе создавать перспективные системы автоматической обработки текстовой информации. Исследования проводились путем формулировки гипотез о закономерностях, имеющих место в языке и речи, проверки этих гипотез путем моделирования на ПЭВМ, построения и испытания систем автоматической обработки текстовой информации.

Основные научные результаты

В процессе исследований получены следующие основные научные результаты:

1. Дано теоретическое обобщение опыта применения метода аналогии
в компьютерной лингвистике. Сформулированы основные направления
использования этого метода при создании систем автоматической обработки
текстовой информации.

2. Разработаны конкретные методы, алгоритмы и программы
морфологического и синтаксического анализа русских и английских текстов,
основанные на использовании метода аналогии.

3. На основе проведенных исследований, автором лично и при его
участии создан ряд систем автоматической обработки текстовой
информации, базирующихся на широком использовании принципа аналогии.
В частности:

- две системы автоматизированного обнаружения и исправления
орфографических ошибок в текстах - в русских и в английских;

- система автоматического индексирования русских текстов
ключевыми словами и словосочетаниями на русском и на английском
языках;

две системы фразеологического машинного перевода политематических текстов:

  1. система перевода с русского языка на английский (система RETRANS) и

  2. система перевода с английского языка на русский (система ERTRANS);

- политематический ассоциативный тезаурус ключевых слов и
словосочетаний по естественным и техническим наукам.

Научная новизна работы

Научная новизна работы состоит в том, что автором впервые разработаны и на обширном текстовом материале исследованы методы, алгоритмы и программы морфологического, синтаксического и семантического анализа текстов, основанные на принципе аналогии. Эти методы открывают в компьютерной лингвистике принципиально новые возможности для построения перспективных систем автоматической обработки текстовой информации.

Практическая значимость работы

Практическая значимость работы определяется тем, что результаты исследований автора нашли широкое применение в промышленных системах автоматической обработки информации (см. п.З). Так, система автоматизированного обнаружения и исправления орфографических ошибок в русских и английских текстах используется в России (в ВИНИТИ и в ряде других организаций), во Франции (Центр CEDOCAR) и в США (фирма Access Innovations Inc.). Системы русско-английского и англо-русского машинного перевода (RETRANS и ERTRANS) используются в ВИНИТИ, ВНТИЦентре, ВНИИККИ, в Министерстве Науки и технологий РФ, в Министерстве Обороны РФ (Генштаб, Главный военный госпиталь им. Бурденко и др.), в библиотеке Президента, в Верховном Суде России, в Медицинском Диагностическом Центре г. Барнаула и в других организациях России. Система RETRANS вот уже более пяти лет используется во Франции (Центр CEDOCAR) и в США (фирма Access Innovations Inc., Госдепартамент).

Диссертация состоит из пяти глав и приложения. Первая глава является вводной. В ней рассматриваются проблемы компьютерной лингвистики, возникающие при создании систем автоматической обработки

текстовой информации. Обосновывается целесообразность применения метода аналогии в тех случаях, когда получение точного алгоритмического решения задачи затруднительно.

Во второй главе формулируются общие принципы применения метода аналогии в компьютерной лингвистике, эффективность которых демонстрируется на ряде задач морфологического, синтаксического и семантического анализа и синтеза текстов.

В третьей главе описываются разработанные автором конкретные алгоритмы морфологического анализа русских и английских слов, построенные на основе метода аналогии.

В четвертой главе рассматриваются принципы построения систем русско-английского и англо-русского фразеологического машинного перевода (систем RETRANS и ERTRANS), одним из создателей которых является автор диссертации (см. Приложения 1, 2). В основу построения этих систем положен метод аналогии.

В пятой главе описывается ряд других систем автоматической обработки информации, созданных либо автором диссертации лично, либо при его участии. Все описанные в этой главе системы построены с использованием метода аналогии.

Метод аналогии в синтаксисе

В системах автоматической обработки информации синтаксический анализ текстов проводится с целью получения формализованных описаний их структуры. В зависимости от решаемых задач, эти описания могут строиться на основе различных синтаксических моделей и с различной степенью обобщения. Они могут содержать информацию и о структуре слов, и о структуре словосочетаний, и о структуре фраз и сверхфразовых единств.

Иногда, даже в теоретических исследованиях, синтаксический анализ текстов рассматривается как нечто принципиально отличное от семантического анализа и в какой-то мере даже противопоставляется последнему. На наш взгляд, это так же неверно, как неверно противопоставление категорий формы и содержания. Единицам языка и речи (словам, словосочетаниям, фразам, сверхфразовым единствам) синтаксис так же присущ, как и семантика. Одно от другого неотделимо. Синтаксис всегда в какой-то мере семантичен, а семантика единиц языка и речи немыслима вне определенной синтаксической структуры. И синтаксический, и семантический анализ текстов - это всегда их семантико-синтаксический анализ. Но в первом случае семантика текста представлена в обобщенном виде, а во втором - более детально.

И все-таки, в системах автоматической обработки текстовой информации принято выделять этапы морфологического, синтаксического и семантического анализа и синтеза. Это удобно, это соответствует природе естественных языков и лингвистической традиции. Но если поглубже рассмотреть существо этих этапов, то их можно было бы более строго охарактеризовать следующим образом: морфологический анализ и синтез текстов - это их семантико-синтаксический анализ и синтез на уровне отдельных слов; синтаксический анализ и синтез - это их семантико-синтаксический анализ и синтез на уровне словосочетаний, фраз и сверхфразовых единств с очень обобщенным представлением смысловой стороны единиц языка и речи; семантический анализ и синтез текстов - это их семантико-синтаксический анализ и синтез с более детальным представлением смысла (по сравнению с этапом синтаксического анализа).

Традиционно синтаксический анализ текстов ограничивался, как правило, анализом структуры предложения. Но уже на начальном этапе исследований по машинному переводу возникла необходимость выйти за пределы предложения (например, при поиске антецедентов местоимений). В качестве основных моделей синтаксической структуры предложения рассматривались модель членов предложения, модель непосредственно составляющих и модель дерева зависимостей (наибольшей популярностью пользовалась модель дерева зависимостей).

В последней модели в качестве вершины дерева рассматривалось сказуемое, от него исходили связи к непосредственно подчиненным ему словам, от этих слов - к подчиненным им словам и т.д. Слова в дереве зависимостей были связаны друг с другом отношениями непосредственной доминации (отношениями типа "хозяин" - "слуга").

Но синтаксическая структура предложения не всегда может быть представлена в виде дерева. Например, когда в предложении встречается эллиптическая конструкция типа "проектирование деталей и узлов машины". Здесь слово "машины" оказывается в роли "слуги двух господ" - слова "деталей" и слова "узлов". Дерева не получается. Получается сеть. Сеть зависимостей или, точнее, семантико-синтаксическая сеть является более общим типом синтаксической модели, а дерево зависимостей - ее частным случаем. В отличие от дерева зависимостей, семантико-синтаксическая сеть может использоваться для описания структуры единиц языка и речи любого уровня, начиная от слов и кончая сверхфразовыми единствами.

Следует подчеркнуть, что все синтаксические модели текстов являются обедненным и в известной мере условным отражением их структуры. Поэтому не имеет смысла говорить о "полном синтаксическом анализе". Он, как правило, всегда неполон и подчас содержит ошибки. Более того, при построении реальных процедур синтаксического анализа текстов допустимо использовать элементы различных моделей (например, модели дерева зависимостей и модели членов предложения).

Синтаксическая структура текстов обычно описывается в терминах классов слов и их отношений. При этом в качестве классов слов могут выступать части речи (существительное, прилагательное, глагол, наречие и др.), сопровождаемые грамматической информацией, характеризующей конкретные формы слов (например, род, число, падеж, лицо и др.). В качестве отношений - отношения непосредственной доминации с той или иной степенью их дифференциации.

Морфологический анализ английских слов

В английском языке (равно как и в русском, немецком, французском и других индоевропейских языках) существует сильная корреляционная связь между грамматическими характеристиками слов и буквенным составом их концов. Поэтому слова, имеющие аналогичные концы, с высокой вероятностью имеют и одинаковые грамматические характеристики.

В таблице 3.5 представлены фрагменты обратного словаря английских словоформ, в котором каждой словоформе поставлен в соответствие признак длины грамматического окончания и числовой индекс, характеризующий ее грамматический класс. Так словоформа "America", стоящая на первом месте первого фрагмента таблицы 3.5, имеет нулевое окончание и относится к грамматическому классу "существительные" (см. таблицу 1 главы 2); словоформа "morphologic", стоящая на первом месте второго фрагмента, также имеет нулевое окончание и относится к грамматическому классу "собственно прилагательные"; словоформа "opened", стоящая на первом месте третьего фрагмента, имеет нулевое окончание и относится к двум грамматическим классам - "отглагольные прилагательные" и "глаголы прошедшего времени".

Как и в случае русского языка, рассматриваемый обратный словарь может использоваться для автоматического морфологического анализа английских текстов, если составляющие их словоформы отождествлять со словоформами словаря и приписывать им грамматическую информацию, указанную в словаре. Словоформам текста, которые не находятся в словаре, можно приписывать грамматическую информацию тех словоформ словаря, концы которых в максимальной степени совпадают с концами этих "новых" словоформ текста.

Объем словаря, представленного в таблице 3.5, можно без ухудшения качества морфологического анализа существенно сократить, если применить методику, описанную в параграфе 3.1.

В таблице 3.6 приведены результаты морфологического анализа небольшого фрагмента английского текста. Здесь слева по вертикали расположены слова исходного текста. За ними следуют однозначные индексы длин грамматических окончаний слов, затем (через косую черту) -Двузначные числовые индексы, характеризующие грамматические классы слов. Так, слова "language" и "engineering" являются существительными с нулевым окончанием, слово "is" - вспомогательным глаголом, слово "the" -определенным артиклем, слово "core" существительным, слово "of -предлогом и т.д.

Система морфологического анализа английских текстов реализована на ПЭВМ типа IBM PC/AT и Pentium и работает со скоростью более 1000 слов/сек. (на ПЭВМ типа Pentium). Она используется в различных системах автоматической обработки текстовой информации (обнаружение и исправление орфографических ошибок, машинный перевод текстов с русского языка на английский и с английского на русский, автоматизированное составление словарей различного назначения и др.) и обеспечивает вероятность правильного анализа слов более 99%.

Выводы

1. Процедуры автоматического морфологического анализа русских и английских слов, построенные на основе метода аналогии, просты в реализации и обеспечивают высокую скорость и точность автоматической обработки информации.

2. Применение этих процедур делает системы автоматической обработки текстовой информации "открытыми" - способными воспринимать тексты любой тематики и с любым лексическим составом.

Системы машинного перевода RETRANS и ERTRANS

По современным представлениям процесс машинного перевода текстов с одного естественного языка на другой может быть в крупном плане разделен на три этапа: 1. Семантико-синтаксический анализ текста на входном языке (выявление его грамматической структуры, распознавание наименований понятий и отношений между понятиями). 2. Трансфер (переход от наименований понятий и структуры текста на входном языке к наименованиям понятий и структуре текста на выходном языке); 3. Семантико-синтаксический синтез текста на выходном языке (его грамматическое оформление).

В различных системах машинного перевода эти этапы не всегда бывают четко выделены, но, тем не менее, они всегда там присутствуют. Присутствуют они и в системах фразеологического перевода RETRANS и ERTRANS.

Система RETRANS работает следующим образом. Сначала выполняется морфологический анализ исходного текста и по его результатам на основе локального семантико-синтаксического анализа распознаются фразеологические единицы. Затем все слова текста нормализуются и формируются поисковые образы фразеологических единиц. Они представляют собой последовательности нормализованных слов, входящих во фразеологические единицы.

Далее осуществляется поиск в русско-английском машинном словаре. Входами в словарь служат упорядоченные по алфавиту поисковые образы русских слов и словосочетаний. Поисковые образы русских слов и словосочетаний, извлеченные из текста, также упорядочиваются по алфавиту. Поиск в словаре ведется методом "скользящего начала" в сочетании с методом "деления пополам". Результатом поиска являются английские переводные эквиваленты русских слов и словосочетаний, сопровождаемые порядковыми номерами и сочетаниями порядковых номеров русских слов в исходном тексте. Затем переводные эквиваленты упорядочиваются по возрастанию численных значений сопровождающих их номеров слов и их сочетаний.

Следующим этапом перевода является выбор для каждого фрагмента исходного текста единственного переводного эквивалента или единственной серии переводных эквивалентов (если в словаре указывается серия переводных эквивалентов). При этом предпочтение оказывается тем эквивалентам или их сериям, которые покрывают более длинные фрагменты исходного текста. Альтернативные варианты перевода исключаются. Результаты этого этапа перевода представляются в виде структуры, приведенной в табл. 4.5. В середине этой таблицы по вертикали расположены порядковые номера слов исходного текста.

Слева и справа от них - элементы исходного текста и их переводы: слева - слова русского текста, справа - английские эквиваленты русских слов и словосочетаний.

Далее перевод может выполняться в двух режимах: а) в режиме автоматического перевода; б) в интерактивном режиме с возможностью интеллектуального редактирования промежуточных результатов перевода. В режиме автоматического перевода для каждого слова и словосочетания исходного русского текста выбирается только один (первый) английский переводной эквивалент из числа указанных в табл. 4.5. Затем следует синтез выходного текста, который выполняется на основе синтаксического анализа исходного русского текста и синтаксического и морфологического синтеза выходного английского текста.

Результаты синтеза английского текста имеют структуру аналогичную структуре, приведенной в табл. 4.5. Отличие состоит лишь в том, что здесь каждое слово и словосочетание русского текста сопровождается только одним английским эквивалентом, при необходимости изменяются формы английских слов и делаются пометы об изменении порядка их следования. Эта структура далее может быть использована для построения выходного английского текста или еще одной промежуточной структуры в виде последовательности чередующихся русских предложений и их английских переводов. Последняя необходима для редактирования результатов синтеза в интерактивном режиме.

Работа системы в интерактивном режиме поначалу, пока не сформирована структура, приведенная в табл. 4.5, ничем не отличается от ее работы в автоматическом режиме. После того, как эта структура сформирована, пользователь может выбирать английские эквиваленты слов и словосочетаний из предлагаемых ему вариантов. При этом если первый слева вариант перевода удовлетворяет пользователя, то ему ничего не надо делать. Если не удовлетворяет, то он может выбрать другой вариант.

На этом этапе редактирования можно не только выбирать необходимые английские эквиваленты русских словосочетаний и слов, но и назначать их непереведенным словам и корректировать ранее назначенные эквиваленты.

Система пословной нормализации (лемматизации) русских текстов

Тезаурусы обычно рассматриваются как средство, помогающее формулировать запросы при обращении к системам автоматического поиска информации, и как средство повышения полноты поиска. Работы по их составлению ведутся уже в течение десятилетий, но, к сожалению, масштабы их применения в практике поиска информации еще недостаточны. Одной из причин этого является трудность составления тезаурусов. Ведь в современных языках количество наименований понятий исчисляется сотнями миллионов (см. Главу 2), а количество парадигматических отношений -миллиардами! И, тем не менее, необходимо накапливать опыт применения тезаурусов.

В начале 90-х годов в отделе лингвистических исследований ВИНИТИ был построен ассоциативный политематический тезаурус ключевых слов и словосочетаний по естественным и техническим наукам. В его основу был положен словарь объемом более 200 тыс. ключевых слов и словосочетаний, составленный по ПОДам из БД ВИНИТИ. Ассоциативный тезаурус строился на базе интерактивной поисковой системы, разработанной автором диссертации для ПЭВМ типа IBM PC/AT.

При загрузке словника тезауруса в поисковую систему строились инверсные файлы этого словника. Они были представлены в двух вариантах: 1) с применением пословной нормализации наименований понятий и их избыточным индексированием (см. п.п. 5.3, 5.4 настоящей главы); 2) с применением только пословной нормализации. При формулировке запросов к тезаурусу использовались операторы Булевой алгебры.

При вводе в ПЭВМ поисковых предписаний (запросов, обращенных к тезаурусу) была предусмотрена возможность выбора слов в инверсном файле по их начальным буквосочетаниям. После появления на экране выбранных слов можно было с помощью курсора пометить нужное слово или группу слов (например, все словообразовательные варианты заданного слова). Помеченные словообразовательные варианты слова автоматически включались в запрос в виде их дизъюнкции.

Запросы, обращенные к тезаурусу, могли состоять из одного или нескольких нормализованных слов, соединенных Булевыми операторами. Если налагалось условие, чтобы все слова запроса, соединенные знаком конъюнкции, входили в словосочетания тезауруса а его опорное слово совпадало с опорными словами этих словосочетаний, то в результате поиска выбирались синонимы и гипонимы исходного формализованного словосочетания. Если такого условия не налагалось, то, наряду с синонимами и гипонимами, выбирались также и другие наименования понятий, ассоциированные по смыслу с понятием запроса.

Результаты поиска выдавались на экран и, по указанию пользователя, могли записываться в любой файл в исходном виде или в отредактированном. При редактировании можно было с помощью курсора помечать либо слова и словосочетания, подлежащие записи в файл, либо, наоборот, слова и словосочетания, не подлежащие записи.

Опыт эксплуатации политематического ассоциативного тезауруса ключевых слов и словосочетаний показал, что в сочетании с интеллектуальными возможностями человека он является мощным инструментом поиска ассоциативных смысловых связей между понятиями.

Реферат документа представляют собой краткое изложение его содержания, сопровождаемое иногда оценками референта. Процесс реферирования - это безусловно творческий процесс, и для его реализации требуются специальные знания. Тем не менее, уже в начале 60-х годов были предприняты попытки автоматизации этого процесса. Продолжаются они и в настоящее время, но дело сводится, в основном, к экстрагированию по тем или иным критериям фрагментов исходного текста и к построению на их основе более короткого текста - квазиреферата. Квазирефераты обычно уступают по качеству рефератам, составленным специалистами, но они значительно дешевле.

При составлении рефератов можно пойти и по другому пути сочетать творческие возможности человека с возможностями ЭВМ по быстрому выполнению рутинных операций. Например, можно составлять рефераты из стандартизованных фрагментов текстов, дополняя их, в случае необходимости, нестандартными элементами. Такой подход предлагался неоднократно и, в частности, профессором Д.Г. Лахути. В начале 90-х годов автор диссертации также руководствовался таким подходом, когда дирекция ВИНИТИ поставила задачу построить систему автоматизированного Реферирования.

В системе использовался словарь стандартных фраз, полученных на основе анализа рефератов, составленных специалистами, и словарь ключевых слов и словосочетаний по информатике и вычислительной технике. Словарь стандартных фраз включал около 600 элементов, а словарь ключевых слов и словосочетаний - около 17 тыс. элементов.

Похожие диссертации на Теоретические и прикладные аспекты применения метода аналогии в системах автоматической обработки текстовой информации