Электронная библиотека диссертаций и авторефератов России
dslib.net
Библиотека диссертаций
Навигация
Каталог диссертаций России
Англоязычные диссертации
Диссертации бесплатно
Предстоящие защиты
Рецензии на автореферат
Отчисления авторам
Мой кабинет
Заказы: забрать, оплатить
Мой личный счет
Мой профиль
Мой авторский профиль
Подписки на рассылки



расширенный поиск

Системный анализ текстового представления таксономии и разработка моделей для оценки профессиональных знаний с использованием тестов открытого типа Мошков, Илья Сергеевич

Системный анализ текстового представления таксономии и разработка моделей для оценки профессиональных знаний с использованием тестов открытого типа
<
Системный анализ текстового представления таксономии и разработка моделей для оценки профессиональных знаний с использованием тестов открытого типа Системный анализ текстового представления таксономии и разработка моделей для оценки профессиональных знаний с использованием тестов открытого типа Системный анализ текстового представления таксономии и разработка моделей для оценки профессиональных знаний с использованием тестов открытого типа Системный анализ текстового представления таксономии и разработка моделей для оценки профессиональных знаний с использованием тестов открытого типа Системный анализ текстового представления таксономии и разработка моделей для оценки профессиональных знаний с использованием тестов открытого типа Системный анализ текстового представления таксономии и разработка моделей для оценки профессиональных знаний с использованием тестов открытого типа Системный анализ текстового представления таксономии и разработка моделей для оценки профессиональных знаний с использованием тестов открытого типа Системный анализ текстового представления таксономии и разработка моделей для оценки профессиональных знаний с использованием тестов открытого типа Системный анализ текстового представления таксономии и разработка моделей для оценки профессиональных знаний с использованием тестов открытого типа Системный анализ текстового представления таксономии и разработка моделей для оценки профессиональных знаний с использованием тестов открытого типа Системный анализ текстового представления таксономии и разработка моделей для оценки профессиональных знаний с использованием тестов открытого типа Системный анализ текстового представления таксономии и разработка моделей для оценки профессиональных знаний с использованием тестов открытого типа Системный анализ текстового представления таксономии и разработка моделей для оценки профессиональных знаний с использованием тестов открытого типа Системный анализ текстового представления таксономии и разработка моделей для оценки профессиональных знаний с использованием тестов открытого типа Системный анализ текстового представления таксономии и разработка моделей для оценки профессиональных знаний с использованием тестов открытого типа
>

Диссертация - 480 руб., доставка 10 минут, круглосуточно, без выходных и праздников

Автореферат - бесплатно, доставка 10 минут, круглосуточно, без выходных и праздников

Мошков, Илья Сергеевич. Системный анализ текстового представления таксономии и разработка моделей для оценки профессиональных знаний с использованием тестов открытого типа : диссертация ... кандидата технических наук : 05.13.01 / Мошков Илья Сергеевич; [Место защиты: Сам. гос. техн. ун-т].- Самара, 2012.- 173 с.: ил. РГБ ОД, 61 12-5/3398

Содержание к диссертации

Введение

1 Проблема автоматизированной оценки профессиональных знаний специалистов в текстах на естественном языке 11

1.1 Организация и методы контроля профессиональных знаний 11

1.2 Структурная организация текстов на естественном языке 16

1.3 Методы автоматизированного анализа текстов 30

1.4 Модели представления и оценка профессиональных знаний в системах обработки текстов 37

1.5 Выводы 41

2 Системный анализ текстового представления таксономии на естественном языке и разработка моделей профессиональных знаний 43

2.1 Проблема разработки моделей терминологических и системно-организованных профессиональных знаний 43

2.2 Системный анализ текстового представления таксономии на естественном языке 47

2.2.1 Анализ описания таксономии на текстовом уровне 47

2.2.2 Анализ текстового представления терминов 56

2.3 Формальная модель описания термина и таксономии 62

2.4 Обработка текстового представления формализованных профессиональных знаний 76

2.5 Выводы 83

3. Разработка алгоритмического обеспечения оценки профессиональных знаний на основе тестов открытого типа 86

3.1 Требования к алгоритмическому обеспечению системы оценки профессиональных знаний 86

3.2 Алгоритм обработки текста лингвистическим процессором 90

3.2.1 Алгоритм обработки текста препроцессором 90

3.2.2 Алгоритм реализации морфологического анализа 91

3.2.3 Алгоритм синтаксического анализа 94

3.2.4 Алгоритм семантического анализа 110

3.3 Методика оценки субъективной модели знаний таксономии 120

3.4 Выводы 127

4. Разработка структуры и программная реализация системы автоматизированной оценки профессиональных знаний 129

4.1 Требования к структуре и программной реализации системы оценки профессиональных знаний 129

4.2 Разработка модульной структуры системы автоматизированной оценки профессиональных знаний 132

4.3 Программная реализация системы автоматизированной оценки профессиональных знаний 146

4.4 Апробация системы автоматизированной оценки профессиональных знаний 151

4.5 Выводы 155

Заключение 157

Список литературы

Введение к работе

Актуальность проблемы. Современная промышленность имеет сложную диверсифицированную многоотраслевую структуру и характеризуется высоким уровнем специализации производства. В результате важнейшим стратегическим ресурсом промышленного производства становятся профессиональные знания. Вследствие этого подготовка квалифицированных кадров и совершенствование их знаний отнесены к числу высших приоритетов государства, что отмечено в проекте документа «Основы политики Российской Федерации в области развития науки и технологий на период до 2020 года и дальнейшую перспективу». Следует отметить и то, что растет число предприятий, эксплуатирующих опасные производственные объекты. Неквалифицированные действия специалистов на таких предприятиях могут привести к производственным инцидентам катастрофического характера. Поэтому деятельность промышленных предприятий регулируется федеральным законом «О промышленной безопасности опасных производственных объектов», согласно которому они должны регулярно проводить аттестацию работников.

Оценить степень готовности специалистов выполнять свои текущие служебные обязанности можно лишь только в ходе постоянного мониторинга их профессиональных знаний. Для этого предприятие должно уметь идентифицировать знания, требуемые для его нормальной производственной деятельности, и иметь организационные и технические возможности сравнить их с действительным состоянием знаний своих специалистов.

Формирование потенциала профессиональных знаний базируется на таксономии многообразных форм теоретических знаний и опыта работы специалистов. Таксономия знаний - это результат идентификации и структурирования знаний, это иерархическая система классификации, которая, будучи основана на отношениях подчинения, помогает систематизировать процедуру группировки и категоризации формализованных знаний. Важным свойством таксономического представления профессиональных знаний является то, что оно способствует выявлению случаев возникновения проблем со знаниями у специалистов и позволяет связать их с определенной категорией причин.

Понимая всю значимость проверки уровня квалификации специалистов, следует иметь в виду, что промышленное производство накладывает определенные особенности на представление и оценку их профессиональных знаний. Эти особенности обусловлены как объективными факторами (непрерывным обновлением технологий, сменой номенклатуры производимой продукции, спецификой условий производства, наличием различий между предприятиями даже в рамках одной отрасли и т.п.), так и субъективными факторами (ведомственными нормативными актами, особенностями руководства и его индивидуальными установками, мотивацией работников и т.п.).

В настоящее время для оценки знаний специалистов широко применяются тестовые испытания и экспертное оценивание. При этом в процессе тестирования в основном используются тесты закрытого типа. Процедуру такого тестирования можно легко автоматизировать, но она не выявляет способности тестируемого к рациональному мышлению и не позволяет проанализировать ход его рассуждений. Что касается экспертного оценивания, то оно позволяет оценить весь комплекс знаний специалиста и получить представление о его компетентности принимать решения, но автоматизация такого контроля знаний затруднена вследствие непосредственного участия в нем экспертов. Получить информацию о том, насколько системно специалист владеет профессиональными знаниями, можно с помощью тестов открытого типа. Поэтому они могут быть использованы для оценки системно-организованных профессиональных знаний и способности применять их на практике. Однако автоматизация этих тестов приводит к необходимости анализа текстов на естественном языке, что сдерживает их применение на практике.

Таким образом, создание качественного инструментария оценки профессиональных знаний специалистов, следует рассматривать как важную, актуальную проблему современного промышленного производства.

В соответствии с вышеизложенным, целью диссертационной работы является системный анализ представления таксономии в текстах на естественном языке, разработка моделей терминологических и системно-организованных профессиональных знаний и создание на их основе алгоритмического и программного обеспечения для оценки знаний специалистов промышленных предприятий с использованием тестов открытого типа.

Для достижения поставленной цели были решены следующие задачи:

  1. проведен анализ методов контроля и формализованного представления профессиональных знаний в промышленности, а также анализ методов извлечения знаний из связного текста на естественном языке и языковых средств формирования текстов данного вида;

  2. проведен системный анализ представления таксономии в тексте на естественном языке, определены его основные языковые конструкции, среди которых особое внимание уделено понятию термина как элементу языка фиксации знаний, а также исследована связь этих конструкций с представленными в них элементами знаний;

  3. разработана формальная модель термина, позволяющая хранить смысловые значения терминов, которые используются при описании таксономии профессиональных знаний;

  4. на основе модели термина разработана формальная модель таксономии, предназначенная для хранения совокупности смысловых значений терминов в процессе организации баз профессиональных знаний;

  5. разработана методика оценки профессиональных знаний, основанная на сопоставлении смыслового содержания баз профессиональных знаний, созданных экспертами, и данных о знаниях специалистов, полученных в результате автоматизированного анализа тестов открытого типа;

  6. на основе моделей термина и таксономии разработано алгоритмическое обеспечение, которое позволяет проводить анализ текстов на естественном языке, описывающих таксономию, а также рассмотрена программная реализация этих алгоритмов для автоматизированной оценки профессиональных знаний специалистов с использованием тестов открытого типа.

Методы исследования. В качестве методологической основы решения указанных задач в диссертационной работе использовались методы системного и функционального анализа, графоаналитические методы, методы представления знаний. Для подтверждения полученных теоретических результатов применялись методы экспериментальных исследований совместно с методами математического и имитационного моделирования.

Научная новизна заключается в следующем:

    1. проведен системный анализ представления таксономии в виде связанных текстов, который позволил установить закономерности построения таких текстов и выявить типовые языковые конструкции, используемые для описания терминологических и системно-организованных знаний в виде иерархических структур;

    2. разработана формальная модель описания терминов, отличительной особенностью которой является то, что она за счет разделения элементов сложных терминов по их семантическим ролям позволяет связать составные части терминов с их текстовым представлением;

    3. разработана формальная модель описания таксономии, отличающаяся от известных тем, что она позволяет связывать системно-организованные профессиональные знания в виде иерархических структур с их представлением в тексте на естественном языке;

    4. предложена методика анализа текстов на естественном языке, особенностью которой является использование синтаксических шаблонов и семантических правил для определения семантических ролей языковых конструкций текстового представления таксономических структур в соответствии с разработанными формальными моделями терминов и таксономии;

    5. предложена методика оценки профессиональных знаний, отличительная особенность которой заключается в возможности сравнения знаний специалистов с формализованными знаниями, как между терминами таксономии, так и между составными частями сложного термина, что позволяет дать комплексную оценку системности знаний специалистов.

    Практическая значимость работы:

        1. разработанные модели терминов и таксономии позволяют экспертам представлять терминологические и системно-организованные профессиональные знания в виде баз формализованных знаний с учетом специфики производственных процессов конкретных промышленных предприятий;

        2. предложенная методика анализа текста, описывающего классификацию, позволяет извлекать из него терминологические и системно-организованные профессиональные знания и осуществлять оценку знаний специалистов, путем сопоставления их с формализованными знаниями;

        3. разработанное алгоритмическое и программное обеспечение может быть использовано при построении систем оценки профессиональных знаний для автоматизированного контроля компетенций специалистов промышленных предприятий при подборе новых работников, а также в процессе подготовки и проведения аттестации персонала.

        Реализация результатов исследований. Диссертационная работа выполнена в соответствии с действующим координационным планом фундаментальных научных направлений деятельности ФГБОУ ВПО «Самарский государственный технический университет» (СамГТУ) в рамках темы «Системный анализ сложных технических объектов и методы обработки информации». Результаты диссертационной работы апробированы в ООО «Региональная энергетическая сервисная компания «Искра» (г. Самара). Материалы диссертационной работы также используются в учебном процессе СамГТУ в лекционном курсе и лабораторном практикуме по дисциплине «Системы искусственного интеллекта» для студентов специальности 230102 «Автоматизированные системы обработки информации и управления».

        Положения, выносимые на защиту:

              1. формальная модель описания терминов, которая за счет разделения элементов сложных терминов по их семантическим ролям позволяет связать составные части терминов с их текстовым представлением;

              2. формальная модель описания таксономии, связывающая системно- организованные профессиональные знания в виде иерархических структур с их представлением в тексте на естественном языке;

              3. методика анализа текстов на естественном языке, основанная на построении синтаксических шаблонов и семантических правил для определения семантических ролей языковых конструкций;

              4. методика оценки профессиональных знаний, позволяющая осуществлять комплексный анализ знаний специалистов в результате выполнения процедуры их сравнения с базами формализованных знаний, как на уровне терминов таксономии, так и между составными частями сложного термина.

              Апробация работы. Основные положения и результаты диссертационной работы докладывались и обсуждались на следующих конференциях: Международной конференции по мягким вычислениям и измерениям (Санкт- Петербург, 2008, 2010, 2011); Международной научно-практической конференции «Фундаментальные и прикладные проблемы приборостроения, информатики и экономики» (Сочи, 2008, 2010, 2011); Международной научно- практической конференции «Ресурсо- и энергосберегающие технологии и оборудование, экологически безопасные технологии» (Минск, 2010); Международной научно-практической конференции «Инновация-2011» (Ташкент, 2011); Всероссийской научно-практической конференции «Наука. Технологии. Инновации» (Новосибирск, 2009); Всероссийской научно-практической конференции «Компьютерные технологии в науке, практике и образовании» (Самара, 2010, 2011); Всероссийской научно-практической конференции ученых и педагогов-практиков «Актуальные проблемы развития высшего и среднего образования на современном этапе» (Самара, 2008).

              Основные публикации. По теме диссертационной работы опубликовано 19 работ, 5 из которых опубликованы в рецензируемых изданиях из перечня ВАК России, а также получено одно свидетельство об официальной регистрации программы для ЭВМ.

              Структура и объем диссертационной работы. Общий объем работы 173 страницы. Диссертация состоит из введения, четырех разделов и заключения, изложенных на 159 страницах, включая 43 рисунка, 7 таблиц, а также содержит список использованных источников из 108 наименований на 11 страницах и 3 приложения на 3 страницах.

              Структурная организация текстов на естественном языке

              Современные промышленные предприятия являются высокотехнологичными и функционируют в условиях растущей конкуренции, а также быстро меняющегося рынка. Поэтому для обеспечения их успешной производственной деятельности требуется постоянное обновление и максимально эффективное использование профессиональных знаний. Таким образом, знания специалистов становятся важнейшим экономическим ресурсом и решающим фактором развития промышленного предприятия [3, 5, 49].

              По своей сущности профессиональные знания, будучи определены технологической документацией, должностными инструкциями, нормативно-техническими документами, правовыми актами и т.п., являются объективными и составляют основу функционирования предприятия [3, 4, 29]. Однако на практике всегда в той или иной мере имеет место искажение этих знаний в процессе их усвоения, и они становятся субъективными знаниями специалистов. Поэтому по мере усиления внимания к знаниям как к одному из основных экономических ресурсов все более актуальной становится проблема осуществления контроля и оценки профессиональных знаний специалистов.

              Обеспечить объективную оценку знаний специалиста, определяемых поставленными целями и требованиями к его профессиональной деятельности, а также реально проявляемыми им при выполнении своих должностных обязанностей в рамках конкретного предприятия, можно лишь только с учетом понимания их специфики формирования и структурной организации [5].

              В соответствии с общими принципами системного представления знаний и управления ими, профессиональные знания в производственной деятельности также подразделяются на две группы: декларативные и процедурные [11, 20, 24, 80, 94, 103]. Декларативные знания - это знание понятий, фактов, правил, зависимостей и т.п. Они содержат в себе сведения о структуре и организации производства (например, знание должностных инструкций, нормативных и правовых актов и т.п.). Процедурные знания - это знание механизмов реализации производственных процессов.

              Декларативные и процедурные профессиональные знания, будучи закреплены документально, являются формализованными [3]. В основе их формализации лежат те или иные принципы систематизации данных, фактов, требований, рекомендаций, правил и.п., которые определяют организацию и выполнение производственных процессов. Систематизация и формализация профессиональных знаний существенно облегчает их восприятие и повышает обоснованность и корректность принятия производственных решений специалистами. В соответствии с этим на практике фактически приходится иметь дело с системно-организованной совокупностью формализованных профессиональных знаний. Такой форме представления профессиональных знаний свойственна иерархичность описания производственных процессов в виде таксономических структур [3].

              Основу системно-организованных формализованных знаний, представленных в виде таксономических структур, составляют терминологические знания [38, 102]. В основе терминологических знаний лежит понятие термина, который представляет собой слово или словосочетание [1]. Термин является точным обозначением и в тоже время сжатой характеристикой профессиональных понятий и отношений между ними в пределах установленной области знаний. Одной из основных проблем оценки знаний является четкое понимание используемых в профессиональной деятельности терминов [35, 43]. При этом любой термин должен использоваться строго в границах его терминологического поля. Организованная совокупность терминов, соответствующих конкретной области профессиональных знаний, образует терми-носистему [1]. Следует иметь в виду, что увеличение степени детализации терминологических знаний ведет к размытию границ между близкими по смыслу попяткями fll, 23. 28J. СОВОКУПНОСТЬ таких близких поихшй обозначается множеством соответствукшучх им біііг.іккх по зпачешно термином, что может принести к излпшпему усложнению .ермппосистсмы "47]. Правильно построенная терчтмсисте&еа является инструионтмм выражения И фиксации формализованных професеиопаиьиых зпаний и обеспечивает выстраивание их пошгпшиой иерархия [3].

              Экспертное оценивание ініхнімяет определить уровень знаний епепиа-лисга и способность их рационально, о примепеїтя в ходе нроизводеткепной деятельности [27, 49J. Одшпко этот мст ід оценки знати характеризуется субьсктквносі кн) мнения эксперта. Кроме тог», cm ііршпнтпиалт»ньгм недосіл

              татком является сложность автоматизации оценки знаний вследствие непосредственного участия в его процессе экспертов. Сложность автоматизации и необходимость присутствия экспертов требуют от предприятия определенных финансовых и временных затрат. Все это существенно ограничивает применение данного метода оценки профессиональных знаний на практике в условиях динамично развивающегося промышленного производства.

              Достаточно просто решить задачу автоматизации процесса оценки профессиональных знаний и исключить необходимость обязательного присутствия экспертов позволяет метод тестовых испытаний с использованием тестов закрытого типа. Подобного рода испытания обеспечивают стандартизированные ограниченные во времени испытания для установления индивидуальных особенностей знаний специалистов с учетом специфики конкретного промышленного предприятия [8, 39, 75]. Как правило, формы тестовых заданий закрытого типа, предполагают выбор испытуемым одного или нескольких ответов из предварительно составленного списка возможных вариантов. Результаты такого тестирования хотя и позволяют получить информацию о недостатках в знаниях специалистов, но не дают возможности установить вызвавших их причины [7]. Кроме того, тестовые задания закрытого типа имеют существенный недостаток, снижающий уровень объективности результатов тестирования. Этот недостаток связан с проблемой учета вероятностной составляющей выбора верных вариантов ответа. Несмотря на существующие методики, проблема объективного учета вероятностной составляющей в настоящее время не имеет кардинального решения [7, 37, 81]. Следует также отметить, что данный метод тестирования не является гарантией получения достоверного ответа от специалиста, имеющего соответствующий опыт работы, так как при этом не отражается специфика знаний, служащая основанием для принятия решений в реальных условиях [7]. Еще одним принципиальным недостатком этого метода является высокая сложность проверки продуктивного уровня знаний

              Анализ описания таксономии на текстовом уровне

              Оценка профессиональных знаний с использованием тестов открытого типа требует реализации процедуры сравнения извлекаемых из текста на естественном языке знаний специалиста с формализованными экспертными знаниями. Извлекаемые из текста знания специалистов будем рассматривать как субъективные знания. Процедура сравнения субъективных и экспертных знаний требует наличия обобщенной модели представления формализованных знаний [74, 77]. Данная модель должна позволять оценивать различие между субъективным и экспертным семантическим содержанием субъективных и экспертных знаний.

              Таким образом, одним из основных компонентов оценки профессиональных знаний в тексте на естественном языке является модель представления формализованных знаний. С учетом рассмотренной в первом разделе специфики профессиональных знаний, модель представления формализованных знаний должна отражать принципы построения терминологии, а также способы и альтернативные описания системно-организованных знаний.

              Для того чтобы модель представления формализованных знаний соответствовала своему назначению, необходимо, чтобы она отвечала ряду требований. Основными из таких требований являются: адекватность, точность и универсальность представления знаний, Кроме того, такая модель должна удовлетворять требованию целесообразной экономичности ее построения. Рассмотрим, как каждое из этих требований отразится на разработке модели представления формализованных профессиональных знаний.

              В соответствии с тем, что текстовое представление таксономии описывается на естественном языке, в нем могут присутствовать сведения, которые не имеют никакого отношения к анализируемой таксономии. Адекватная модель представления знаний должна учитывать только те знания, которые относятся к описанию таксономии. Вместе с тем, такая модель должна отражать как особенности формирования таксономии в целом, так и особенности терминологии, являющейся ее составным элементом. Для выполнения этого требования далее в работе проводится системный анализ текстового представления таксономии на естественном языке на уровне текста в целом и на уровне термина, как основной языковой конструкции.

              Точность модели представления формализованных знаний выражается в том, что субъективное и экспертное ее наполнение в достаточной мере соответствует специфике представления формализованных системно-организованных знаний. Для экспертного наполнения такое соответствие обеспечивается инструментарием накопления знаний, а для субъективного - инструментарием анализа текстового представления таксономии. Достижение указанных соответствий позволяет соотносить субъективное и экспертное наполнения моделей представления знаний. Для обеспечения точности в работе формируются основные элементы модели представления знаний, рассматривается их соотношения с языковыми конструкциями текстового представления таксономии, а также формулируются критерии идентификации указанных элементов модели.

              Универсальность означает то, что в рамках автоматизированной обработки текстового представления таксономии профессиональных промышленных знаний данную модель можно использовать для адекватного извлечения субъективных знаний из высказываний, независимо от их отношения к тем или иным производственным объектам. Для обеспечения универсальности представления знаний в работе анализируются высказывания различного уровня сложности.

              Целесообразная экономичность связана с затратами на построение модели представления субъективных знаний и с ее дальнейшим использовани ем в процессе оценки профессиональных знаний. Для достижения целесообразной экономичности из множества понятий, содержащихся в текстовом представлении таксономии, в модель знаний должны включаться только те понятия, которые необходимы для обеспечения оценки с допустимым уровнем погрешности.

              Модель представления формализованных знаний, удовлетворяющая выше приведенным требованиям, в процессе обработки текстового представления таксономии должна обеспечивать решение следующих задач:

              Задача соотнесения термина с его текстовым представлением затруднена тем обстоятельством, что термин, как правило, является словосочетанием и включает в свой состав несколько слов [73]. Каждое слово, образующее термин, с одной стороны, имеет собственное значения, а с другой стороны сам термин также имеет свое собственное значение. При этом в текстовом описании термина возможны отклонения по причине недостаточно грамотного или неполного владения профессиональной терминологией, а также наличия системных ошибок у специалиста при структурировании профессиональных знаний. Модель должна предусматривать допустимые границы отклонения субъективных знаний специалистов от экспертных, в пределах которых можно рассчитать степень расхождения этих знаний по различным критериям. Кроме этого, для более детального проведения синтаксического и семантического анализа структуры текста, целесообразно классифицировать составные части языковых конструкций термина по типу значений и присущих этим конструкциям характеристик на каждом из уровней текстового представления. Такой подход позволит выделить элементы термина и уста новить его границы еще до семантического анализа, что позволяет снять проблемы, связанные с омонимией.

              Задача представления знаний с достаточным уровнем формализации для сопоставления потенциально схожих таксономических структур, связана с построением модели таксономии, которая в случае отклонения описания субъективной таксономии от экспертной позволяла бы формализовать степень такого отклонения. Эта задача подразумевает построение связей между формальным представлением множества родственных терминов экспертных знаний. При замещении части термина или всего термина в таксономии, необходимо иметь возможность установит корректность такой замены. Также эта задача связана с определением полноты, связности и глубины представленных субъективных знаний.

              Задача обеспечения возможности построения таксономии по различным критериям деления термина обусловлена существованием альтернативных способов классификации формализованных знаний.

              Алгоритм обработки текста препроцессором

              Автоматизация процесса оценки профессиональных знаний, представленных в тестах открытого типа, требует соответствующего алгоритмического обеспечения [42]. При этом в соответствии с рассмотренными в первом разделе вопросами такое алгоритмическое обеспечение должно формализовать следующие процессы: а) накопление экспертной базы профессиональных знаний; б) обработка текстового представления таксономии и извлечения из не го субъективного наполнения модели знаний; в) оценка и интерпретация результатов тестирования знаний при по мощи тестов открытого типа.

              Реализация накопления профессиональных знаний экспертами не имеет ярко выраженной специфики и может быть произведена существующими алгоритмами накопления знаний в виде структур, которые определяются предложенными моделями термина и таксономии. Вместе с тем, алгоритм обработки текстового представления таксономии и оценки извлеченных знаний имеет ряд особенностей, которые следует учитывать при построении алгоритмического обеспечения.

              Обработка текстового представления таксономии является сложным процессом и включает в себя этапе препроцессорной обработки, морфологического, синтаксического и семантического анализа.

              Основными требованиями к алгоритмическому обеспечению являются: - возможность обработки связного текста на естественном языке; - максимальная простота этапов анализа текста; - соотнесение языковых конструкций с соответствующими семантическими ролями моделей таксономии или термина; - соотнесение языковых конструкций с их смысловым значением в экспертной базе профессиональных знаний; - возможность восстановления имплицитных знаний в обрабатываемом тексте за счет извлеченных субъективных знаний, экспертной базы знаний и ожидаемого значения; - возможность представления извлеченных профессиональных знаний в виде структуры, сопоставимой со структурой экспертных знаний.

              Возможность обработки связного текста на естественном языке подразумевает то, что на высказывание специалиста не накладывается никаких дополнительных ограничений. Это позволяет специалисту излагать свои профессиональные знания в тестовом задании без искажений. Для того чтобы сохранить высокую степень детализации извлекаемых знаний без внесения искажений, целесообразно вести обработку высказываний на всех уровнях представления текста. Поэтому указанное требование обуславливает необходимость обеспечения относительной простоты этапов анализа текста, которая заключается в учете принадлежности языковых конструкций лишь к описанию таксономии. По отношению к модели данное требование выражается в том, что в обрабатываемом тексте сначала ищутся слова, выражающие основное понятие терминов, затем средства его модификации, после чего средства связи терминов между собой. Такой подход с одной стороны не накладывает ограничений на естественный язык, а с другой стороны - позволяет ограничить количество задействованных в текстах типов языковых конструкций и вариантов их трактовки.

              Требования соотнесения языковых конструкций с соответствующими семантическими ролями и со смысловым значением в экспертной базе знаний для представления таксономии в связном тексте выражаются в том, что в результате обработки текста должно формироваться наполнение разработанных моделей термина и таксономии. Причем сопоставления языковых конструкций с потенциальной семантической ролью больше относится к этапу морфологического и синтаксического анализа, а сопоставление со значением - к этапу семантическому анализа. Для реализации этапа синтаксического анализа с учетом специфики обрабатываемого текста целесообразно использовать подход, основанный на использовании множества синтаксических шаблонов, определяющих соответствие языковой конструкции определенной семантической роли в описании таксономии.

              Возможность восстановления имплицитных знаний в обрабатываемом тексте обуславливается спецификой анализа связного текста на естественном языке. Обеспечить данную возможность можно с учетом того, что имплицитные знания, как правило, также описываются явно и должны находиться в обработанном наполнении субъективной модели профессиональных знаний, а также должна быть представлены в экспертной базе знаний.

              Возможность представления извлеченных профессиональных знаний в виде структуры, сопоставимой со структурой экспертных знаний выражается в представлении промежуточных и конечном результатах обработки текста. Конечный результат данной обработки должен быть сопоставим с экспертными профессиональными знаниями.

              На основе перечисленных требований можно сформулировать основные компоненты системы оценки профессиональных знаний, для которых создается алгоритмическое обеспечение: а) компонент извлечения текстового представления таксономии, вклю чающие в себя блоки морфологического, синтаксического и семантического анализа с учетом особенностей ее описания; б) компонент коррекции ошибок на морфологическом и синтаксиче ском уровне, а также восстановления имплицитных знаний; в) компонент оценки, обеспечивающий интерпретацию результатов об работки текста посредством сравнения различий субъективного и экспертно го наполнения баз профессиональных знаний. Обобщая материал, изложенный во втором разделе, и с учетом сформулированных в предыдущем подразделе требований, разработано алгоритмическое обеспечение системы анализа текста таксономического типа на ес

              Программная реализация системы автоматизированной оценки профессиональных знаний

              На рисунке 4.1 представлена контекстная диаграмма системы анализа, которая включает в себя три основных модуля: модуль анализа ответа, модуль оценки ответа и модуль управления знаниями, а также две объекта внешней среды: эксперт и субъект. Эксперт является носителем эталонных знаний для системы анализа ответа, отображенных на диаграмме в виде следующих потоков данных: - морфологическая информация, представленная виде словаря, который включает в себя словоизменительные парадигмы всех слов предметной области и их корневых частях; - структура терминов предметной области, которая включает в себя множество основных терминов предметной области, родственные им термины, а также связи между ними; - структура сложных терминов предметной области, построенная при помощи ссылок на простые термины. - эталонная модель, которая включает в себя таксономию основных терминов предметной области с требуемым уровнем детализации; - степень корректности простых терминов, которая включает в себя множество допустимых текстовых представлений термина с указанием для каждого из них числового значения.

              Субъект является носителем субъективных знаний, которые оцениваются системой анализа посредством сравнения с эталоном. Взаимодействие с системой обеспечивается посредством трех потоков данных: - вопрос в виде текстовой формулировки на естественном языке, который содержит в себе предложение провести классификацию сущности, описываемой термином, заданным, как правило, корневой вершиной одной из эталонных таксономии; - ответ от пользователя в виде связного текста на естественном языке, который описывает таксономию и является ответом на поставленный вопрос; - оценка системы в виде численного значения, показывающего степень сходства субъективных знаний с эталонными знаниями. Модуль анализа ответа является внутренним вспомогательным модулем и обеспечивает построение субъективной таксономической структуры, описываемого в ответе субъекта на поставленный вопрос. Поэтому в модуль входят следующие потоки данных: - ответ испытуемого субъекта; - информация о предметной области, заданная экспертом, необходимая при анализе ответа субъекта; - словоизменительные парадигмы нераспознанных слов, найденные в тексте ответа субъекта.

              На выходе модуля анализа поток данных, включающий в себя таксономические знания субъекта, заданные структурой, аналогичной эталону. Знания субъекта далее подаются на вход модуля оценки знаний. Также на этот модуль подаются таксономические знания, заданные экспертом. В этом модуле экспертные знания подразделяются на два типа: общие знания о предметной области и эталонные знания, как ожидаемый ответ на вопрос, составленный из знаний о предметной области. В той части ответа, где субъективные знания не соответствуют эталонным, модуль оценки производит расчет степени отклонения знаний на основе знаний о предметной области.

              Процесс разбивка ответа на слова и сегменты преобразует входной поток ответа ф, заданного в виде текста на естественном языке, в упорядоченное множество слов W], ..., wn и представляет ответ в виде сегментов (ps = segi, ..., segm , где каждый сегмент состоит из набора слов seg = wj, ..., wn . Основой разбивки по сегментам является список служебных слов. Разбивка ответа осуществляется в соответствии с алгоритмом на рисунке 3.2.

              Процесс морфологический анализ слов преобразует поток сегментов в лексическую модель высказывания, посредством сопоставления каждого слова с его словоизменительной парадигмой, хранящейся в морфологическом словаре и с элементом парадигмы, имеющим аналогичное текстовое представление. На этом же этапе каждое слово связывается со своим значением из семантического словаря. Морфологический и семантический словарь является частью системы управления знаний. Построение лексической модели высказывания производится в соответствии с алгоритмом на рисунке 3.4 .

              Процесс синтаксический анализ сегментов и связей между сегментами строит синтаксическую модель предложения на основе порядка слов в предложении, знаниях о семантике служебных слов, а также морфологической и семантической информации о словах. Доступ к семантической информации о служебных словах обеспечивает модуль управления знаниями. При синтаксическом анализе используются правила и ограничения, существующие в тексте на естественном языке, которые заданы синтаксическими шаблонами. Синтаксические шаблоны содержатся в накопителе данных D2.

              Синтаксическая модель является моделью ориентированного графа, вершинами в котором являются слова, а дуги - связями между ними. При разборе текста, описывающего таксономию, сначала строится структура терминов, а потом термины собираются в единую структуру предложения. Построение синтаксической модели строится в соответствии с алгоритмом на рисунке 3.7.

              Процесс семантический анализ сегментов и связей между ними преобразует поступающую синтаксическую модель таксономии в субъективную модель таксономии. Для преобразования используются семантические правила, хранящиеся в накопителе данных D3. Преобразование происходит в два этапа, сначала сверяются с все термины найденные в сегментах со знаниями о предметной области, а затем строится субъективная модель таксономии на основе анализа найденных связей. Для этого используется модель терминов и таксономии модуля управления знаниями. Построение семантической модели строится в соответствии с алгоритмом на рисунке 3.11.

              Таким образом, процесс анализа ответа испытуемого моделирует все основные этапы процесса понимания текста человеком. Процесс анализа предполагает, что на вход поступает текст, описывающий таксономию сущностей предметной области, заданной в виде сложных составных терминов. Только в этом случае на семантическом этапе анализа будет полностью построена субъективная таксономия. Это связано с тем, что синтаксические шаблоны описывают языковые конструкции, относящиеся только к описанию таксономии, а также они учитывают с специфику описываемых знаний, используемых при семантическом анализе.

              Похожие диссертации на Системный анализ текстового представления таксономии и разработка моделей для оценки профессиональных знаний с использованием тестов открытого типа