Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Модель представления смысла текстовой информации Нагоев, Залимхан Вячеславович

Диссертация, - 480 руб., доставка 1-3 часа, с 10-19 (Московское время), кроме воскресенья

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Нагоев, Залимхан Вячеславович. Модель представления смысла текстовой информации : диссертация ... кандидата технических наук : 05.13.16.- Нальчик, 2000.- 165 с.: ил. РГБ ОД, 61 00-5/3106-0

Введение к работе

Актуальность темы, В диссертационной работе предлагаются модель и прикладная система, построенные на основе синтеза элементов систем: понимания естественного языка, виртуальной реальности, когнитивной графики, а также инженерии знаний, гомеостатики. Эти элементы рассматриваются во взаимосвязи, как единое целое для создания новых методов решения одной из ключевых проблем искусственного интеллекта - проблемы понимания текстов на естественном языке (ЕЯ).

Актуальность исследований по искусственному интеллекту (ИИ) вообше и исследований по пониманию естественного языка, в частности, в настоящее время общепризнана.

Предлагаемая в диссертации система ментального интерфейса (СМИ) - это модель коммуникации человек - компьютер, предназначенная для интерактивного представления смысла предложений естественного языка. Входные тексты преобразуются СМИ в наглядные трехмерные многомодальные модельные представления. Это дает пользователю возможность анализировать подобные представления смысла, корректировать их, быстро и эффективно строить трехмерные ситуации, описанные в исходном предложении, наблюдать за их развитием.

По мнению ряда ведущих исследователей в области ИИ при создании различных интеллектуальных систем проявляются ограничения традиционных формальных моделей. Поэтому на смену математическому моделированию, в основе которого всегда лежат те или иные формальные системы, должно прийти, прежде всего, семиотическое моделирование, рассматривающее знак, как основу семантических построений - моделирующую сущность, обладающую референтной, денотативной и прагматической функциями.

Опираясь на принцип «семантического треугольника», СМИ рассматривает слова ЕЛ как знаки, обеспечивая средства для их интерпретации - семантически значимые денотаты.

Новым специфическим разделом интеллектуального программирования являются системы когнитивной графики, которые пытаются реализовать основную идею современного представления о мышлении как о синтезе визуальных и символьных представлений. В настоящее время с развитием когнитивной графики связывают большие надежды на повышение эффективности решения широкого круга задач различных областей, так как образное мышление пользователя может существенно ускорить процесс поиска решения и рождать новые пути его поиска. Одной из оригинальных возможностей, предоставляемых СМИ, явля-

ется обеспечение графического представления развития контекстов, описываемых в интерпретируемых текстах ЕЯ. Реализация такой функции СМИ в сочетании с единообразным подходом к обработке символьной, образной и денотативной информации с полным основанием дает право причислить СМИ к системам когнитивной графики.

Соединение в единое целое образной, символьной, слуховой, тактильной и т. п. информации, отражающей одну и ту же сущность реального мира, приводит к идее стандартного кода, позволяющего единообразным способом кодировать разнородную информацию. Очевидно, что объединяющим началом, могущим стать структурной и функциональной основой подобного кода, в СМИ служит топологическое пространственное единство многомодальных координат точек, входящих в предметы.

Вместе с тем, цели создания антропоморфного интерфейса, «очеловечивания» поведения роботов стимулируют, по мнению ведущих специалистов, интерес исследователей ИИ к системам виртуальной реальности.

Такие компоненты СМИ как виртуальное пространство и виртуальный мир по определению являются разновидностью системы виртуальной реальности, так как они моделируют трехмерный мир с поддержкой перемещений и многомодальных сенсорных координат (запах, цвет, вкус и т.п.).

Таким образом, актуальность создания гибридных систем понимания текста - на стыке нескольких современных направлений - подтверждается общей тенденцией современного развития этой области ИИ.

Объект и предмет, цели и задачи исследования. Объектом исследования является моделирование процессов, протекающих при понимании человеком текстов на ЕЯ. Предметом исследования является представление смысла текстов на ЕЯ, формирующееся у человека в процессе осмысления естественноязыкового высказывания.

При этом ставятся две главные цели исследования:

1. Изложение и обоснование новых принципов компьютерного
понимания текстов;

2. Создание прикладной системы представления смысла текстов ЕЯ,
являющейся необходимой компонентой для создания систем,
опирающихся на новые принципы понимания и способных
продемонстрировать адекватный уровень понимания текстов на ЕЯ.

Подобная композиция целей обусловлена, с одной стороны
органической взаимозависимостью и иерархической

структурированностью систем и способов представления смысла и систем понимания смысла, и, с другой стороны, - необходимостью

проведения относительно полного исследования, а также построения действующей прикладной системы, приближающей нас к решению задачи понимания текстов на ЕЯ.

Задачей исследования является разработка модели и прикладной системы, реализованной на основе описываемых и выводимых в работе принципов и способов представления смысла и способной представлять:

- смысл предложений, описывающих пространственные, временные и перцептуальные изменения предметов; смысл, неявно заданный в предложении; смысл предложений, описывающих взаимодействие предметов.

При этом получаемые представления должны обладать свойствами наглядности, адекватности, многомодальности.

Методы исследования. При проведении исследования использовалось композиционное сочетание интроспекции, концептуального моделирования, имитационного моделирования и эксперимента.

Применяемый в работе алгоритм квантирования был оптимизирован по критерию минимума времени выполнения с применением алгебры алгоритмов.

Для генерации усредненных представлений семантики лексических единиц был применен математический аппарат нечетких множеств.

Условия, при которых получены результаты исследования. В качестве программной реализации модели СМИ была разработана система «Сосруко».

Программа СМИ «Сосруко» написана на компьютере с характеристиками Pentium/150/16/1 Gb/, на котором также проводились все эксперименты. Вследствие наличия небольшого объема оперативной памяти - 16 Mb - пришлось ограничить число точек виртуального пространства следующими значениями: 50x25x50, что в итоге дало модель из 62500 точек. Этого оказалось достаточным для представления смысла нескольких простых нераспространенных предложений, описывающих перемещения и изменения свойств предметов. Программа была написана и отлажена с помощью компилятора Visual C++ 5.0 фирмы Microsoft.

Новизна и достоверность результатов. Предлагаемая в работе СМИ обладает свойством наглядной адекватной интерпретации смыслов некоторых предложений на ЕЯ, а также достаточным потенциалом семантических построений для создания и поддержки «ментального» интерфейса с пользователем.

Архитектура СМИ интегрирует состав и свойства систем понимания ЕЯ, виртуальной реальности, когнитивной графики.

Новым результатом является создание топологической модели виртуальной реальности, базирующейся на концепции макроабстрагирования, оригинальном понимании времени и пространства, обладающей мощными средствами для описания перцептуальных свойств объектов, их взаимодействия.

Результаты, полученные в ходе экспериментов по интерпретации СМИ группы предложений ЕЯ, описывающих перемещения и изменения состояний предметов, в которых в прагматическом аспекте наличествуют различные значения «по умолчанию», подтвердили, что возможна не только символьная или образно-символьная коммуникация с компьютером, но и эффективная «ментальная» коммуникация. Отличие состоит в том, что в ней участвуют еще и денотаты - модельные представления концептов сознания, наделенные пространственной формой, физическими свойствами и вовлеченные в контексты, интерпретирующие смысл текстов на ЕЯ. При этом, эффективность достигается за счет «полномасштабного» моделирования в СМИ физических законов. Достаточно лишь задать ситуацию несколькими предложениями для того, чтобы увидеть ее развитие на дисплее компьютера. Таким образом, реализована своеобразная когнитивная реальность с естественноязыковым интерфейсом.

При осуществлении генерации усредненных представлений денотатов впервые для модели виртуального пространства (ВП) был успешно применен аппарат нечетких множеств. При этом показано, что последовательное применение операций над нечетким представлением денотатов в виртуальном пространстве приводит к закреплению наиболее характерных их свойств.

Созданы структуры данных, позволяющие для одного десигната хранить и по выбору применять как прагматическое представление -модель в ВП, так и образные представления - картинки, идиомы и т. д.

Теоретическая значимость результатов. В работе изложены новые принципы исследований в области компьютерного понимания текстов на ЕЯ, связанные с признанием необходимости моделирования субъекта понимания.

Применение СМИ усиливает способности человеческого рассуждения при решении широкого круга задач различных областей. Представляется вероятным в ближайшем будущем бурное развитие подобных систем - по типу экспертных, но с элементами виртуальной реальности и когнитивной графики. Типологически - это новый вид программных систем, который, в силу своей практической направленности призван стать одним из массовых коммерческих направлений.

СМИ способна адекватно представлять и неаддитивно аккумулировать смыслы текстов на ЕЯ. Подобная способность реально приближает возможность создания естественноязыкового интерфейса и модели среды в будущих системах ИИ, построенных на принципах новой парадигмы. На основе этих результатов можно строить инструментальное окружение для редактирования «среды обитания» интеллектуального агента. При этом процессы интериоризации будут формализованы при помощи ВП и реально упрощены с помощью средств инструментальной среды. Это, в свою очередь, даст исследователям ИИ возможность сконцентрироваться на моделировании собственно процессов гомео-стазиса, мышления и социальных отношений человека.

С помощью ВП удается обеспечивать целостность (многомодаль-ность) представлений. Здесь интегрирующим свойством служит пространственное единство предметов.

Как уже подчеркивалось, ментальный интерфейс осуществляется благодаря тому, что при помощи средств, предоставляемых ВП, можно строить адекватные представления смыслов. При этом необходимо отметить важное в теоретическом плане достижение - десигнаты получают адекватные денотаты. На практике это означает, что пользователь видит на экране дисплея семантическую интерпретацию введенного им текста в виде наглядных, априорно узнаваемых и понятных образов (денотатов). При этом на каждом шаге он имеет возможность корректировки интерпретации, используя инструментальные средства ВП.

Подобный инструмент дает широкие возможности для психологического изучения процессов интериоризации и мышления. По существу, впервые человек получит возможность «увидеть невидимое» - процесс работы сознания. При этом подобное моделирование обладает перспективой скорого наращивания выразительных возможностей и качества реализации, а также - повышения адекватности.

Практическая значимость. Описан структурный состав СМИ, функции и пути реализации отдельных структурных компонент, типы их взаимодействия внутри модели.

Практическую значимость имеет предлагаемый в работе оригинальный алгоритм квантирования и поддержки функционирования физических законов в ВП. Для имитации синхронности явлений в ВП в этом алгоритме использован циклический поллинг всех точек ВП в такты, равные порогу чувствительности человека по времени. Приведена укрупненная блок-схема алгоритма квантирования, программно реализованная в СМИ «Сосруко».

Практическое приложение имеет также реализованный алгоритм генерации усредненных представлений денотатов при помощи аппара-

та нечетких множеств, в котором учитываются как образные, так и «прагматические» (в терминах ВП) представления.

Описаны структура и способы представления, функционирования и хранения слов естественного языка - операторов СМИ для классов «предмет», «явление», «качество», «образ действия» и др.

С целью экспериментального подтверждения гипотез разработана программа СМИ «Сосруко» на языке C++ и проведены эксперименты, подтверждающие возможность эффективной ментальной коммуникации в СМИ.

При работе над программой «Сосруко» с использованием технологии объектно-ориентированного программирования была разработана система типов данных и объектов для представления ВП и объектов ВП.

Указанные алгоритмы и типы данных могут быть использованы в дальнейших разработках программного обеспечения систем ментального интерфейса.

Реализация результатов. Программа «Сосруко» была внедрена в НИИ структурной методики преподавания языков при Кабардино-Балкарском государственном университете. Программа успешно использовалась в качестве модельной среды для создания представлений смыслов лексических единиц с целью нахождения и систематизации групп дифференцирующих признаков слов с близкими и пересекающимися значениями.

Пути дальнейшей реализации. Результаты работы могут быть применены при создании систем понимания речи и естественноязыковых интерфейсов. Программная система может быть использована в качестве инструментального средства для построения трехмерной многомодальной среды окружения интеллектуального агента в системах искусственного интеллекта. Теоретические результаты могут быть применены при создании семантических систем, в которых возникает задача представления и анализа смысла текстов на естественном языке.

Аппробация работы. Основные результаты диссертационной работы были представлены на следующих симпозиумах и конференциях:

III всероссийский симпозиум «Математическое моделирование и компьютерные технологии» (г. Кисловодск, 1999).

III международная научно-техническая конференция «Интерактивные системы: Проблемы человеко-компьютерного взаимодействия / ИС-99» (г. Ульяновск, 1999).

Международная научная конференция «Пользовательский интерфейс в современных компьютерных системах» (Орел, 1999).

Публикации. По материалам диссертации опубликовано 4 печатные работы.

На защиту выносятся следующие положения:

  1. Впервые предложена концепция Системы ментального интерфейса - нового типа интерактивных систем, предназначенных для моделирования смысла текстов на естественном языке и его наглядной демонстрации.

  2. Предложено виртуальное пространство (ВП) - модельная структура для представления смысла. Свойства ВП позволяют строить в ВП семантические представления слов, обозначающих предметы, так и явления (действия), и качества и т.д.

  3. Экспериментально доказано, что ВП способно адекватно и наглядно представлять и неаддитивно аккумулировать смыслы естественноязыковых высказываний. В частности, ВП способно представлять:

смысл предложений, описывающих пространственные, временные и перцептуальные изменения предметов;

смысл, неявно заданный в предложении;

смысл предложений, описывающих (явно или неявно) взаимодействие предметов.

  1. Представления денотатов слов, получаемые СМИ, многомодальны. Модальности соответствуют перцептуальным способностям человека.

  2. Показана возможность ментальной коммуникации. Выразительными средствами подобного типа коммуникации являются тексты, денотаты - модели внутреннего представления смысла, наделенные пространственной формой, физическими свойствами, а также образная и образно-символьная информация.

Объем и структура диссертации. Объем диссертационной работы -165 страниц. Работа состоит из введения, трех глав и заключения.