Содержание к диссертации
Введение
Глава 1. Современные методы создания электронных словарей 12
1.1. Анализ процесса становления и развития электронных словарей 12
1.2. Классификация электронных словарей 19
1.3. Обзор современных методов и инструментальных средств создания электронных словарей 44
1.4. Характеристика корпусной лингвистики 52
1.5. Выбор корпуса текстов для диссертационного исследования 65
1.6. Краткая характеристика методов искусственного интеллекта в математической лингвистике 66
1.7. Постановка задачи диссертационного исследования 72
1.8. Выводы 73
Глава 2. Разработка интеллектуального электронного отраслевого словаря 76
2.1. Формирование требований к интеллектуальному электронному отраслевому словарю 76
2.2. Выбор базы данных и типа архитектуры интеллектуального электронного отраслевого словаря 77
2.3. Разработка базы данных и архитектуры интеллектуального электронного отраслевого словаря 85
2.4. Выбор моделей представления знаний и хранения данных в интеллектуальном электронном отраслевом словаре 87
2.5. Разработка семантической сети для интеллектуального электронного отраслевого словаря на немецком языке 93
2.6. Создание методики выбора смысловой информации для формирования корпуса текстов в заданной предметной области 97
2.7. Разработка методики проверки правильности содержания базы данных на основе морфологии и семантики немецкого языка 100
2.8. Создание алгоритмического обеспечения интеллектуального электронного отраслевого словаря 114
2.9. Программная реализация интеллектуального электронного отраслевого словаря 121
2.10. Выводы 123
Глава 3. Анализ результатов использования интеллектуального электронного отраслевого словаря 125
3.1. Создание немецко-русского интеллектуального электронного словаря в сфере робототехники и мехатроники 125
3.2. Использование интеллектуального электронного словаря как встроенного компонента АРМ переводчика, преподавателя 139
3.3. Использования интеллектуального электронного словаря в системах специфического тестирования немецкого языка 142
3.4. Выводы 149
Заключение 150
Список сокращений и условных обозначений 153
Литература
- Выбор корпуса текстов для диссертационного исследования
- Постановка задачи диссертационного исследования
- Разработка базы данных и архитектуры интеллектуального электронного отраслевого словаря
- Использование интеллектуального электронного словаря как встроенного компонента АРМ переводчика, преподавателя
Введение к работе
Актуальность исследования обусловлена необходимостью решения задачи создания интеллектуального электронного отраслевого словаря для предметной области «робототехника» и «мехатроника». Это объясняется тем, что в настоящее время происходит активное развитие данного научно-технического направления в разных странах ЕС, в частности, в Германии, которая является ведущей в области робототехники, что отражается прежде всего в создании образовательного стандарта по робототехнике и мехатронике, который широко используется в различных странах Европы [Festo Bildungsfonds].
Современные проблемы автоматической обработки информации, представленной на естественном языке, невозможно решить без лингвистических данных, полученных методами корпусной лингвистики - количественными и
качественными [Сушилин 2007]. Результаты исследования корпусов текстов могут использоваться для решения многих лингвистических задач: составления разнообразных словарей (слов, словосочетаний, частотных словарей и т.д.), описания грамматического строя языка, дифференциации типов текстов, а также в качестве основы моделирования разнообразных систем автоматической обработки текста.
Методологическую основу исследования составляют концептуальные разработки и практические результаты, отраженные в трудах по терминоведению (М.В. Антонова, И.Н. Волкова, М.А. Ковязина, В.М. Лейчик, В.М. Перерва, В.Н. Сергеев, В.Д. Табанакова); проблемам корпусной лингвистики (Н.Д. Андреев, В.М. Андрющенко, Л.Н. Беляева, В.П. Захаров, А.А. Поликарпов); лексикографии (Ю.Д. Апресян, А.Н. Баранов, В.П. Берков, В.М. Варинская, В.Г. Гак, А.С. Герд, СВ. Гринев, П.Н. Денисов, В.В. Дубчинский, Б.И. Игнатьев, Е.В. Каламбет, Ю.Н. Караулов, Р.Ю. Кобрин, З.И. Комарова, И.С. Куликова, Ю.С Маслов, В.В. Морковкин, Л.Л. Нелюбин, В.П. Петушков, Л.В. Попова, В.Ф. Роменская, Д.В. Салмина, Л.В. Щерба); речевого управления роботом (Р.К. Потапова); информационным технологиям в лингвистике (Ю.М. Абсалямов, О.И. Бабина, А.В. Зубов, А.Д. Клочко, О.И Максименко, З.М. Шаляпина), текстологии (М.Я. Дымарский, Г.А. Золотова, И.А. Мельчук, О.И.Москальская), а также теоретической и прикладной лингвистике (В.А. Звегинцев, Н.Н. Леонтьева, Ю.Н. Марчук, СВ. Никитина, И.И. Убин).
Значительный вклад в исследования в вышеуказанных направлениях внесли зарубежные ученые С. Аткинс, Д. Бибер, В. Вартбург, А. Вилсон, Т. Виртанен, С. Конрад, П. Кюн, А. Люделинг, Р. Халлиг и другие. Важная роль в вышеприведенных исследованиях отводится дефиниции таких понятий как корпус текстов, термин, а также классификации существующих словарей.
Однако в них отсутствует интеллектуальная автоматизированная система, содержащая сформированные и определенным образом упорядоченные наименования понятий предметной области «робототехника» и «мехатроника».
Существующие терминологические словари указанной предметной области на бумажном носителе не отвечают современным требованиям по ряду причин, одной из которых является отсутствие автоматического поиска терминов. Современные электронные словари имеют эту функцию, однако часть из них не позволяет пополнять базу данных с учетом грамматических правил языка, что важно при переводческой работе или при составлении текстов. Интеллектуальная составляющая словарей присутствует только в системах машинного перевода фирменных продуктов, стоимость которых затрудняет их использование для бюджетной сферы образования.
Для создания немецко-русского интеллектуального электронного словаря по робототехнике и мехатронике требуется разработка соответствующих методик, алгоритмов и прототипа системы.
Основные методы, применяемые в настоящем диссертационном исследовании, определяются его задачами и включают корпусный, алгоритмический, дистрибутивный, статистический, контекстологический, комбинаторный, компонентный, сопоставительный, трансформационный, семантический и лексикографический виды анализа.
Объектом исследования является корпус научно-технических текстов применительно к их использованию в автоматизированных системах.
Предметом исследования являются методы и алгоритмы автоматизированного отбора релевантной информации из информационного массива предметной области «робототехника» и «мехатроника», базы данных и знаний интеллектуального электронного словаря.
Вышеуказанная предметная область включает применительно к данному исследованию немецкоязычные научно-технические тексты в сфере робототехники и мехатроники, характеризующиеся наличием специальных терминов.
Основной целью исследования является построение модели извлечения научно-технических текстов вышеуказанной предметной области из первичных массивов текстов, включающих тексты научно-информационной литературы и из Интернета, а также разработка интеллектуального электронного отраслевого сло-
варя и его апробация на примере предметной области «робототехника» и «ме-хатроника» на немецком языке, что в дальнейшем может быть использовано для повышения эффективности автоматизированного научно-технического перевода.
Гипотеза исследования заключается в том, что дополнительное привлечение данных лингвистического анализа текстов с использованием правил импликаций «если.. .то» позволит оптимизировать процедуру автоматизированного поиска в полнотекстовом массиве документов ограниченной предметной области.
В соответствии с целью и гипотезой исследования решались следующие задачи:
разработка архитектуры интеллектуального электронного отраслевого словаря применительно к предметной области «робототехника» и «ме-хатроника»;
выбор модели хранения данных и представления знаний в вышеуказанной предметной области;
формирование корпуса текстов вышеуказанной предметной области на базе различных источников информации;
создание правил проверки корректности ввода единиц базы данных с учетом морфологического и семантического уровня немецкого языка;
формализация разработанных правил на основе интеллектуальной модели представления знаний;
программная реализация интеллектуального электронного отраслевого словаря с учетом разработанных лингвистических правил;
заполнение базы знаний и базы данных интеллектуального электронного отраслевого словаря лингвистической информацией;
пилотная апробация предложенного способа использования лингвистической информации для организации информационного массива в предметной области «робототехника» и «мехатроника».
Научная новизна диссертации заключается в том, что впервые:
- предложена архитектура немецкоязычного электронного отраслевого
словаря, включающая базу данных и базу знаний в виде семантической
сети и содержащая интеллектуальную компоненту, реализующую продукционный механизм правильности содержания базы данных на основе морфологии и семантики немецкого языка;
предложена методика проверки корректности содержания базы данных на основе морфологии и семантики немецкого языка;
сформулированы правила проверки правильности содержания базы данных на основе морфологии и семантики немецкого языка, формализованные в виде комплекса продукционных правил;
разработаны алгоритмы функционирования интеллектуального электронного отраслевого словаря с учетом архитектуры и функционирования системы для WEB-реализации.
Теоретическая значимость диссертации заключается в том, что полученные результаты являются вкладом в теорию моделирования и формализации языковых и речевых единиц применительно к критериям и требованиям разработки автоматизированных систем с использованием лингвистических процессов, теорию лексикографии и терминографии применительно к созданию лингвистических процессоров в различных предметных областях, в теорию автоматизированных информационных систем и систем управления базами знаний и данными, а также в дальнейшее развитие концепции Р.К. Потаповой «Новые информационные технологии и лингвистика» [Потапова 2002, 2004, 2005, 2012]
Практическая ценность диссертации заключается в следующем: созданы методики, которые могут использоваться при создании семейства интеллектуальных электронных словарей различного отраслевого характера. Созданный интеллектуальный электронный отраслевой словарь может быть использован при построении различных приложений: автоматизированных рабочих мест для переводчика и преподавателя, автоматических обучающих систем, пакетов тестов немецкого языка для технических вузов, а также при подготовке и чтении курсов по прикладной и математической лингвистике.
Положения, выносимые на защиту:
архитектура электронного отраслевого словаря достаточно полно и эффективно описывается с помощью интегрированных методов искусственного интеллекта в виде представления данных и знаний на основе семантической сети и продукционного механизма правильности содержания базы данных с учетом морфологии и семантики немецкого языка;
правила проверки правильности содержания базы данных на основе морфологии и семантики немецкого языка формализованы в виде комплекса продукционных правил;
методика проверки правильности содержания базы данных включает информацию о специфике морфологического и семантического уровня немецкого языка;
алгоритмы функционирования интеллектуального электронного отраслевого словаря разработаны с учетом архитектуры и функционирования системы для WEB-реализации.
Степень достоверности полученных результатов обеспечивается репрезентативной выборкой (первоначальная база терминов включает 3766 единиц и их словосочетаний), разнообразием рассмотренного языкового материала (в каждой категории содержится более 70 текстов, общий объем 87,5 п.л.) с одной стороны и наличием фронтального методологического подхода к исследованию с другой стороны.
Основные результаты работы апробированы на различных конференциях: Международная научная конференция «Математические методы в технике и технологиях (ММТТ- 24, 25, 26)» (2011, 2012, 2013); Международная практическая конференция «Логистика и экономика ресурсосбережения и энергосбережения в промышленности» (2011, 2012), Международная научная конференция «Корпусная лингвистика-2013» (2013), отражены в ряде научных публикаций, а также обсуждены на заседании кафедры прикладной и экспериментальной лингвистики Института прикладной и математической лингвистики факультета гуманитарных и прикладных наук Федерального государственного
бюджетного образовательного учреждения высшего профессионального образования «Московский государственный лингвистический университет».
Структура и объем диссертации. Специфика разрабатываемой проблемы, а также поставленные в ходе исследования задачи определяют структуру работы, которая состоит из 158 страниц, содержит 18 рисунков, 9 таблиц, 3 приложения.
Выбор корпуса текстов для диссертационного исследования
Строго иерархические классификации, примером которых могут служить классификации Б.И.Игнатьева [Игнатьев 1977], П.Н.Денисова [Денисов 1976], В.П. Петушкова и В.Н. Сергеева [Петушков 1976], не могут достаточно полно раскрыть сущность конкретных словарей - именно этим и объясняется известная их недостаточность.
В классификациях фасетного типа используется различное количество оснований деления, а также классификационные признаки варьируются от классификации к классификации. Так, например, В.М. Перерва [Перерва 1976] предлагает осуществлять классификацию словарей в научно-технической лексикографии по пяти признакам: по числу представленных языков, по наличию и принципу толкования терминов, по представленным отраслям знания, по полноте представленной терминологии, по специальному назначению. Фасетные классификации обеспечивают возможность значительно точнее и логичнее по сравнению со строго иерархическими описать конкретные словари, однако определенная "жесткость" этих классификаций, обусловленная предкоординированностью, препятствует действительно полному раскрытию сущности словарей.
Указанные трудности в значительной мере снимаются в классификациях, которые можно назвать параметрическими. Такие классификации соответствуют посткоординируемым ИПЯ, когда .некоторое множество параметров ("простых классов"), характеризующих словарь (имеющийся или создаваемый), является координатами словаря в пространстве существующих параметров. Центральным понятием в параметрической классификации является понятие лексикографического параметра. Понятие лексикографического параметра применительно к общей лексикографии подробно рассмотрено в работе Ю.Н. Караулова [Караулов 1993]. Главное отличие каждого из выделенных Ю.Н. Карауловым параметров от единицы языковой структуры и от лингвистической категории заключается в его глобальности: "Параметр всегда относится к слову в целом: это не слог, а слогоделение,... не фонема и не звук, а произношение и т.п.".
Выделение параметров связано со структурными элементами или функциональными явлениями языка, которые должны подвергнуться лексикографической интерпретации. При этом могут оказаться полезными и строго иерархические, и фасетные классификации, т.к. признаки, на которых основываются рассматриваемые в этих классификациях оппозиции словарей, могут считаться определенными лингвистическими параметрами. Идеи параметризации открывают новые перспективы в научно-технической лексикографии: появляется возможность отдельного рассмотрения каждого лексикографического параметра и разработки способов эксплицирования конкретного параметра в специальных словарях.
В.Д. Табанакова справедливо замечает, что во всех отечественных классификациях просматриваются типологические оппозиции Л.В. Щербы. Таким образом, типология Л.В. Щербы по праву считается классической, так как выдержала испытание временем и присутствует во всех без исключения последующих классификациях, построенных по оппозиционному признаку. В.Д. Табанакова, сопоставляя типологию противоположностей Л.В. Щербы и классификацию В.Ф. Роменской, приходит к выводу о том, что возможно продолжить фасеты в терминах противоположностей. Кроме того, появляется дополнительный фасет «по объему». В.Д. Табанакова утверждает, что в настоящее время в отечественной теории лексикографии разработано две типологии словарей - оппозиции Щербы и параметрическое описание Ю.Н. Караулова и большое количество классификаций как обобщающего, так и частного характера. Классификация не может быть универсальной, так как практическая лексикография постоянно пополняет перечень параметров. При этом параметрический анализ - наиболее эффективный инструмент типологического описания и универсален в том смысле, что позволяет без ограничений пополнять список параметров [Табанакова 2001].
Для структурирования различных авторских классификаций словарей построим следующую таблицу (табл. 1.1). За основу взяты 6 противоположений Л.В. Щербы, которые в дальнейшем находят отражение в других приведенных классификациях. Например, классификация Р.Ю. Кобрина ограничивается менее развернутыми формулировками дифференцирующих оснований, используя названия основных типов словарей как заголовки классов. Всего в классификацию Р.Ю. Кобрина входят восемь составляющих: словари переводные двуязычные; диалектологические; идеологические (понятийные); толковые; филологические; фразеологические; энциклопедические; частотные.
И.С. Куликова, Д.В. Салмина [Куликова 2002] выделяют 9 типологических оппозиций словарей лингвистических терминов. Преимуществом рассматриваемой типологии является ее тематическая направленность - словари лингвистических терминов. Однако, по мнению Л.В. Поповой, эту типологию можно дополнить оппозицией «печатный словарь» - «электронный словарь».
Постановка задачи диссертационного исследования
В современной науке существует стремление к семантической унификации систем терминов одной науки в разных языках (однозначное соответствие между терминами разных языков) и к использованию интернационализмов в терминологии.
Дальнейшими признаками подъязыков являются выбор и применение языковых средств (например, временная форма глагола, вид придаточного предложения и т.д.) и внутритекстовые признаки. Эти признаки неодинаковы для различных подъязыков, они могут варьировать в соответствии с видом подъязыка, его отношением к определенной области науки и техники. Так, на первом месте по употребительности частей речи в качестве терминов стоит имя существительное из-за семантической емкости: «Das Konzept des Rollstuhls ist schon sehr alt. Technische Fortschritte haben zwar immer wieder zu kleinen Verbesserungen gefuhrt, aber Rollsttihle und Treppen stehen bis heute auf dem KriegsfuB...» [Die Roboter News 2012]. «Схема кресла-каталки очень стара. Технический прогресс приводил к небольшим улучшениям, однако, кресла-каталки и лестницы до сих пор несовместимы...». Данный отрывок включает термины из общетехнического подъязыка.
Четкого и единого определения специального слова и всего терминологического состава не удается найти из-за различных концепций рассмотрения термина и слова [Roelcke 1999]. В.Д. Табанакова сделала попытку ответить на вопрос, почему нет общепринятого определения термина. «С одной стороны, это объясняется тем, что еще недостаточно разработаны теоретические основы терминоведения, не дифференцированы его основные понятия и нет единого мнения о том, что такое научно-технический термин. С другой стороны, те разнообразные определения, которые существуют сейчас в литературе, не всегда и не в полной мере отражают суть определяемого явления» [Табанакова 1982: 24].
Принято считать, что наиболее исследованными аспектами в этом смысле являются лексические единицы, а в последнее время появилась значительная часть работ, посвященных изучению синтаксиса и специальной текстологии. Причем, если раньше ученые в основном занимались описанием лексикона определенного подъязыка, изучали, например, способы образования лексем, то в настоящий период времени справедливо ставятся такие вопросы: каким образом приобретается и используется специальная лексика, как слова понимаются разными группами людей, каковы перспективы дальнейшего развития специальных слов и т.д.
Интерес к подъязыкам вызван, с одной стороны, необходимостью автоматизации процессов управления и создания терминологических банков данных, что требует проведения комплекса исследований отдельных лексиконов, а, с другой стороны, общелингвистическими причинами.
В следующем параграфе на основе рассмотренных положений осуществляется выбор предметной области и собственно корпуса для дальнейшего диссертационного исследования.
В качестве предметной области и соответствующего корпуса текстов для дальнейшего диссертационного исследования предлагается робототехника и мехатроника с немецким языком представления информации. Этот выбор обусловлен следующими факторами. Научное направление мехатроники и робототехники является относительной молодым, весьма перспективным и бурно развивающимся. Поэтому оно находится в центре внимания многих ученых, стран, с ним также связывают конкурентные преимущества и будущее. При этом информационно-лингвистическая поддержка этого направления, включая механизм создания немецко-русских электронных словарей, в достаточной степени не разработана.
На современном этапе развития науки и техники, робототехника занимает лидирующее положение. К.Д. Никитин отметил в книге «Основы робототехники», что это сравнительно новое и интенсивно развивающееся научное направление, вызванное к жизни необходимостью освоения новых сфер и областей деятельности человека, а также потребностью широкой автоматизации современного производства, направленной на резкое повышение его эффективности [Василенко 1993].
Следует отметить, что в настоящее время роботы вышли за рамки промышленного производства и стали применяться во многих сферах жизнедеятельности человека. Их использование позволяет облегчить труд человека в областях, где раньше было невозможно использовать средства автоматизации.
Многие страны ведут активные разработки в области робототехники, не являются исключением Германия и Россия. Причем сотрудничество обеих стран подкреплено соглашением между Правительством Российской Федерации и Правительством Федеративной Республики Германия о научно-техническом сотрудничестве, подписанном в Мюнхене 16 июля 2009 г. Целью данного Соглашения является содействие расширению и укреплению связей между научно-исследовательскими организациями и институтами, высшими учебными заведениями, предприятиями, другими организациями, а также физическими лицами обоих государств на основе создания благоприятных условий для научно-технического сотрудничества и его развития на взаимовыгодной и сбалансированной основе [Действующие международные соглашения о научно-техническом сотрудничестве 2009]. Большое количество технических университетов России работают с немецкими коллегами и фирмами, такими как университет Брауншвейга, фирмы Сименс, Кука и др., производятся поставки комплектующих и роботов из Германии, а также имеется открытый доступ к научно-технической и учебной литературной базе. К сожалению, не все желающие могут воспользоваться в полной мере предоставляемыми ресурсами. Основная проблема в получении знаний связана со слабым владением немецким языком и не структурированностью массивов документов.
Существуют различные способы сбора терминов для формирования подъязыков, однако, современные методы прикладной лингвистики повышают эффективность в этой области. Рассмотрим наиболее распространенные методы искусственного интеллекта, которые используются в прикладной и математической лингвистике.
Разработка базы данных и архитектуры интеллектуального электронного отраслевого словаря
Теоретические модели определяются как теоретически обоснованные, гарантирующие правильность решений. Они представлены моделями, основанными на формальной логике (исчисление высказываний, исчисление предикатов), формальных грамматиках, комбинаторными моделями, в частности, моделями конечных проективных геометрий, теории графов, тензорными и алгебраическими моделями. В рамках этого подхода до настоящего времени удавалось решать только сравнительно простые задачи из узкой предметной области.
В первой главе определена необходимость использования в диссертационном исследовании семантических сетей и поэтому подробнее остановимся на их структуре.
Начиная с конца 50-х годов XX века, созданы и применены на практике десятки вариантов семантических сетей. И.О. Сердцева в своей работе «Семантические сети как инструмент структуризации терминологической базы подъязыка специальности «Информатика» в рамках преподавания дисциплины национально-регионального компонента «Терминологический практикум»» подчеркивает, что существуют общие особенности, присущие практически всем семантическим сетям [Сердцева 2006]: 1. Узлы семантических сетей представляют концепты предметов, событий, состояний. 2. Различные узлы относятся к различным значениям, если не помечено, что они относятся к одному концепту. 3. Дуги семантических сетей задают отношения между узлами-концептами (пометки над дугами указывают на тип отношения). 4. Некоторые отношения между концептами представляют лингвистические падежи (такие как агент, объект, реципиент и инструмент), а другие означают временные, пространственные, логические отношения и отношения между отдельными предложениями. 5. Концепты организованы по уровням в соответствии со степенью обобщения, например, сущность, живое существо, животное, млекопитающее. Последние версии семантических сетей стали более мощными и гибкими и составляют конкуренцию фреймовым системам, логическому программированию и другим языкам представления.
Наиболее простые сети, которые используются в системах искусственного интеллекта - это реляционные графы, состоящие из узлов, соединенных дугами. В прикладной лингвистике для представления предложений используются графы с центром в глаголе. В таких графах глаголы соединяются с группой существительного с использованием падежных отношений. Маркеры времени и отношения пишутся рядом с концептами, которые представляют глаголы. Помимо падежных отношений в предложении на естественном языке имеются средства для связи с другими предложениями. Одним из недостатков графов с центром в глаголе является то, что они не проводят разграничение между определителями, которые относятся только к глаголу, и определителями, относящимися к предложению целиком. Для представления связного текста используются препозиционные сети, узлы которых представляют целые предложения. Эти узлы являются точками соприкосновения для отношений между отдельными предложениями текста. Любое частичное упорядочение может быть изображено, как граф без циклов. Такой граф имеет ветви, которые расходятся и вновь сходятся, что обеспечивает возможность некоторым узлам иметь несколько узлов-родителей.
Этот тип графа называют ацикличным. Другим наиболее распространенным видом является граф с одной вершиной - дерево. В такого типа графах накладываются ограничения на ацикличные графы: вершина графа представляет один общий тип, и каждый другой тип имеет лишь одного родителя. Существует третий вид графа - решетка. В отличие от деревьев узлы в решетке могут иметь несколько узлов-родителей.
Современное применение семантической сети показано в работе А.Е. Ермакова и В.В. Плешко для решения задачи автоматической классификации документов [Ермаков 2009]. Порождение текста можно рассматривать как временной процесс, обусловленный активацией элементов и связей модели. При этом семантические связи между словами текста условно разбиваются на две группы. Первые (глубинно-семантические) представляют отражение связей семантической модели, задействованных на момент порождения высказывания. Именно эти связи определяют коммуникативное строение текста, в том числе и сверхфразовое. Связи второго вида (семантико -синтаксические) формируются в процессе оформления высказывания в языковых конструкциях, и их выявление требует грамматического анализа. Считая высказывание (предложение) основной коммуникативной единицей, его появление обусловливают активацией одного элемента семантической модели, находящегося в фокусе внимания и представляющего тему высказывания. Появление прочих слов в рематической части предложения обусловлено их связями с темой, задействованными в модели на момент порождения. Второе предположение опирается на представление о сверхфразовой связности сообщения в целом и состоит в том, что наиболее вероятно обусловливание темы текущего высказывания одним из слов в рема- или тематической части предшествующего, что отражает сохранение фокуса внимания или его переключение на связанный элемент семантической модели. Учитывая коррелированность появления слов в рамках сформулированных предположений, процесс порождения текста рассматривается как марковский процесс первого порядка, состояния которого соответствуют предложениям, а вероятности переходов между состояниями определяются связями элементов семантической модели, соответствующих словам. Семантическая модель представляет семантическую сеть, состоящую из понятий предметной области (слова и словосочетания), которые связаны между собой ассоциативными связями. Для решения задачи автоматической классификации принимается, что множество текстов, относящихся к одному классу, порождается на основе одной семантической сети - эталона, тогда задача отнесения неизвестного текста к соответствующему классу сведется к определению вероятностей порождения текста на основе каждой из эталонных сетей.
Использование интеллектуального электронного словаря как встроенного компонента АРМ переводчика, преподавателя
К типу Б.1 отнесены стопоходящие аппараты, передвигающиеся автоматически с помощью искусственных ног. Роботы, передвигающиеся автоматически, но с помощью любых других движителей (колесных, гусеничных, гребных и др.) отнесены к типу Б.2. В этот класс введены и экзоскелетоны (тип Б.З), самодвижущиеся робототехнические устройства, надеваемые на тело человека либо функционирующие совместно с ним в непосредственном контакте и существенно увеличивающие его физические возможности. Если такое устройство выполняется в виде геометрической конструкции, образующей автономное пространство жизнеобеспечения (космосподводные глубины и ТА), то оно относится к скафандровым (Б.3.2). Аппараты, предназначенные для преодоления препятствий, выделены в отдельную разновидность - "прыгающих" (Б.3.3).
Класс В - информационные роботы, предназначенные для поиска и выявления информации об окружающей среде, различных явлениях и объектах, ее изучения, систематизации и представления в обработанном виде.
Роботы типа В.1 - исследователи свойств среды и объектов, недоступных для непосредственного изучения человеком. Разновидности роботов этого типа, непрерывные исследователи (В. 1.1), выдают информацию постоянно, без специальных на то команд, а накапливающие - по мере необходимости по вызову оператора, запоминая информацию в промежутках между сеансами передачи и накапливая ее в памяти. Роботы вида В. 1.3 адаптируют свое поведение в процессе исследования сообразно установленным параметрам и свойствам изучаемой среды и объектов.
Роботы-искатели (тип В.2) предназначены для поиска и изучения объектов (предметов) с заданными параметрами и свойствами различными способами: контактным (например, ощупыванием) (В.2.1) либо дистанционным при отсутствии (В.2.2) или наличии (В.2.3) собственного излучения. Так, если дистанционный робот-искатель оснащен системой искусственного зрения, то он относится к пассивной (В.2.2), а если снабжен радиолокационной системой - к активной разновидности (В. 2.3) робота. И, наконец, последний тип класса В - роботы-определители, которые служат для определения и изучения объектов с неизвестными свойствами.
Роботы, входящие в класс Г, предназначены прежде всего для решения интеллектуальных задач, в зависимости от характера которых они подразделяются на роботы-проектировщики (Г.1), игровые - для творчества и забав (Г. 2) и композиционные роботы (Г.З) для создания того или иного интеллектуального продукта (перевод текстов, анализ и систематизация речевой и текстовой информации, музыкальная композиция, живопись, стихосложение и др.). В большинстве творческо-игровые роботы должны быть наделены совершенными информационно-управляющими системами и искусственным интеллектом.
В последний класс Д включены робототехнические устройства, объединяющие в себе те или иные признаки и свойства других классов, например, подвижный робот с манипулятором, предназначенный для исследования океанских глубин.
В связи с вышеизложенным, в качестве тематических категорий, которыми ограничена заданная предметная область, выделены следующие: электроника; теоретическая механика; сопротивление материалов; автоматическое управление; методы искусственного интеллекта, программное обеспечение, механика, навигация, алгоритмическое обеспечение, элементы классификации по А.Е. Корбинскому.
В соответствии с методикой выбора смысловой информации для каждой категории формируется ядро ключевых терминов и словосочетаний с ними, чтобы в дальнейшем они послужили базой для пополнения и модернизации словаря [Большакова 2012]. Благодаря выбранным терминам будет происходить поиск текстов в информационном массиве и при положительном решении экспертов добавление найденных текстов и терминов в базу данных словаря и корпуса по робототехнике и мехатронике. В приложении вынесено несколько схем организации терминологических ядер для предметной области «робототехника и мехатроника».
Представленный в настоящем исследовании корпус текстов отражает особенности одного типа языка — языка научной прозы, относится к предметной области робототехники как одной из областей научного знания. Конечный размер корпуса определяется целями планируемого исследования или задачами использования корпуса, в соответствии с которыми корпус может быть, как дополнен, так и сокращен.