Введение к работе
Актуальность проблемы
Актуальность выбранной темы исследования обусловлена не только необходимостью создания высококачественных систем автоматического понимания речи человека, но, прежде всего, отсутствием достаточно ясного представления, как происходит процесс понимания, как его можно моделировать. Решение проблем, связанных с моделированием когнитивных процессов, должно опираться не только на лингвистические методы, но и учитывать опыт нейролингвистических исследований в этой области. Поэтому актуальность данной работы определяется еще и необходимостью преодоления лингвистических рамок и достижения более глубокого осмысления процессов понимания речи, с целью их дальнейшего моделирования.
Цель работы и задачи исследования
Основная цель исследования - определение механизмов понимания речи и построение модели понимания с использованием латентно-семантического анализа. В ходе работы решались следующие задачи:
С целью описания работы механизмов понимания речи изучить и представить результаты современных нейрофизиологических исследований восприятия речи мозгом человека и на их основе сформулировать рабочую гипотезу работы механизмов понимания.
Дать определение механизмов понимания речи с точки зрения возможности их дальнейшего моделирования.
3. На основе определения механизмов понимания речи описать модель
понимания речи, определить ее основные характеристики.
Рассмотреть методы и алгоритмы, которые могут быть применены при моделировании процессов понимания, и определить наиболее приемлемые из них в соответствии с предложенной моделью понимания речи.
Исследовать выбранный метод, показать его основные достоинства и недостатки при использовании в моделях понимания.
Материалы и методы исследования
Для моделирования процессов понимания речи предложен метод латентно-семантического анализа (ЛСА).
В основе этого метода лежат принципы факторного анализа, в частности, выявление латентных связей изучаемых явлений или объектов. При классификации / кластеризации документов этот метод используется для извлечения контекстно-зависимых значений лексических единиц при помощи статистической обработки больших текстовых корпусов. В последние годы метод ЛСА часто использовался для поиска информации (индексация документов), классификации документов, а также в других областях, где требуется выявление главных факторов из массива информационных данных.
Наиболее распространенный вариант ЛСА основан на использовании разложения диагональной матрицы по сингулярным значениям (SVD - Singular Value Decomposition). С помощью SVD-разложения любая матрица раскладывается во множество ортогональных матриц, линейная комбинация которых является достаточно точным приближением к исходной матрице.
Апробирование ЛСА произведено на базе русской речи, собранной и обработанной компанией ООО «Одитек». Автор принимал активное участие в записи речевой базы и обработке материалов.
Речевая база содержит широкополосные записи 550 русскоязычных дикторов в возрасте от 18 до 60 лет, проживающих в разных регионах России. Записи проводились в различных акустических условиях с учетом возрастных, тендерных и диалектных особенностей дикторов. Объем базы - около 160 часов речи с учётом пауз, хезитаций, речевых и неречевых помех. Корпус базы состоит из читаемой и вызванной спонтанной речи. Вызванная спонтанная речь представляет собой минирассказы на заданную тему. Количество тем - 30. Каждый респондент высказывался на 10 заданных тем.
Для записи использовано высококачественное оборудование, специально разработанное для данной речевой базы. Записи велись одновременно по четырём каналам: гарнитурный кардиоидный микрофон; микрофон сотового телефона; широкополосный микрофон, расположенный на среднем (0,5-1м) и дальнем расстоянии (2-3м). Характеристики всех каналов: широкополосный, 16 кГц, 16 бит, моно, формат записи - Intel PCM Raw Data. Перед записью каждого диктора замерялся уровень шума, который не должен превышать допустимого значения (в зависимости от акустического окружения). Для каждого акустического окружения записывался отклик розового и белого шумов, характеризующий акустические параметры окружающей обстановки. База содержит орфографическую разметку всех высказываний и специальные пометки, указывающие на наличие возможных шумов, оговорок, обрывов записи.
Обработка базы выполнялась экспертами по речевой акустике с помощью программного обеспечения, разработанного компанией «Одитек».
Из этой базы автором отобран материал, содержащий только вызванную спонтанную речь. Общий объем полученной базы спонтанной речи, содержащей 5165 высказываний 550 респондентов, что соответствует около 110 тысячам словоупотреблений, составляет более 24 часов озвученной речи с учетом пауз.
Для обработки текстового материала, моделирования первичного этапа понимания речи и его анализа автором разработано программное обеспечение. Всего создано более 30 программ. Из них: семь программ для обработки текстового материала; пять программ для реализации латентно-семантического анализа; с помощью остальных программ проводилось тестирование и анализ выбранного метода на базе спонтанной русской речи.
В качестве дополнительных программ разработаны программы для демонстрации работы ЛСА: получения матрицы весов при разных значениях количества сингулярных значений диагональной матрицы; сокращения количества термов, весовые функции которых оказались меньше заданного порога, а также сокращение термов по количеству их в каждом векторе.
Для написания программ использованы языки программирования Perl и C++, для SVD-анализа - встроенные функции Matlab 7.
Научная новизна исследования
На основании результатов современных исследований в области нейрофизиологии восприятия речи мозгом человека, приведенных в работе, дано определение механизмов понимания речи с целью их дальнейшего моделирования и впервые выдвинута гипотеза о первичном этапе понимания речевой информации. На основе данного определения механизмов понимания в качестве метода моделирования выбран латентно-семантический анализ (ЛСА).
Метод ЛСА был впервые использован при обработке русскоязычного корпуса спонтанной речи. Проведена апробация данного метода и приведены результаты тестирования. Сравнение результатов, полученных с помощью ЛСА и без применения этого метода, показало преимущество метода ЛСА. Дана оценка работы данного метода при разных условиях постановки задачи и определены возможности его применения в моделях автоматического понимания речи. Указаны основные достоинства и недостатки предложенной модели понимания речи, рассмотрены возможные пути ее усовершенствования.
Теоретическая значимость работы
Теоретическая значимость работы заключается в определении механизмов понимания речи, на основании которого предложена модель первичной обработки семантической информации. Эта модель представляет собой некий набор ситуаций, которые активируются и могут корректироваться по мере поступления новой информации. Следует отметить, что данная модель учитывает не лексические значения сегментов, а лишь их ассоциативную связность в базе, принадлежность новой информации к тому или иному ряду, состоящему из ассоциативных сегментов.
Теоретически значимыми являются и результаты исследования на корпусе текстов русской спонтанной речи, которые позволяют заключить, что метод ЛСА может использоваться при первичном семантическом анализе входящей информации.
Практическая значимость работы
Результаты этой работы могут быть использованы в области речевых технологий, в частности, в моделях автоматического распознавания и понимания речи.
Данные, полученные при исследовании ЛСА, могут быть учтены в различных областях, где требуется выявление главных факторов в большом объеме
лингвистических данных. Сам метод может быть полезным для изучения когнитивных механизмов, работающих при речевосприятии.
Основные положения, выносимые на защиту
1. Дано определение понимания речи для задач моделирования процессов
понимания: понимание - это сегментация и интерпретация входящего сигнала.
Под сегментацией входящего сигнала подразумевается вычленение части (интегральных и дифференциальных признаков) из целого. Интерпретация - оценка выделенного сегмента, т.е. отождествление сегмента с эталонами (метонимический перенос признака (пучка признаков)), находящимися в памяти, возникновение нового эталона или включение механизмов метафорического переноса (перенесение какого-либо признака сегмента на другой эталон (эталоны)). В качестве основной единицы сегментации в моделях распознавания и понимания речи выбрана фонетическая словоформа (ФС). Показана априорная необходимость базы знаний для модели понимания и описаны основные характеристики, которые должны быть присущи таким базам: снятие омонимии и автоматическая классификация информации (в том числе новой).
2. Определены основные свойства предлагаемой модели понимания речи: модель
должна представлять собой структурированный определенным образом набор
ситуаций, подобных фреймам, которые активируются и могут корректироваться
по мере поступления новой информации. Процесс понимания состоит из двух
этапов: дограмматического (или имеющего латентную грамматику, т.е. включенную в
лексические единицы) и синтаксическо-грамматического этапа, на котором
подключаются механизмы обработки синтаксиса, морфологии и др. На первом этапе
понимания учитываются не лексические значения сегментов, а лишь ассоциативная
связность сегментов в базе и принадлежность новой информации к тому или иному
ассоциативному ряду. Приписывание определенного значения сегменту и выявление
истинности этого значения относительно высказывания в целом происходят на втором
этапе. Таким образом, модель первичного этапа понимания использует алгоритм
семантического и ассоциативного соотнесения сегмента с некими эталонами и
определения его принадлежности по выбранному порогу к той или иной ситуации
(фрейму) из базы знаний.
3. Исследование модели понимания на материале спонтанной русской речи
методом ЛСА показало, что вопрос определения количества главных факторов в значительной степени определяется целями, которые стоят перед исследователем:
в том случае, если цель - выявление тем, наиболее отличающихся от других, то следует сокращать сингулярные значения диагональной матрицы приблизительно на 70%; в случае, если необходимо найти тематически близкие документы или для выявления ассоциативной лексики, резко не сокращая при этом количество факторов, то сингулярные значения следует уменьшить примерно на 20%.
Апробация работы
Результаты исследований были представлены в докладах на следующих отечественных и международных конференциях и симпозиумах: семинар, посвященный памяти В.И. Галунова: «Речевые исследования и технологии: настоящее и будущее», 2007, Санкт-Петербург; Вторая международная конференция по когнитивной науке 2006, Санкт-Петербург; XXXIII Международная Филологическая Конференция, 2005, Санкт-Петербург; Международная конференция «SpeeCom 2004» и «SpeeCom 2002», Санкт-Петербург;. XV сессия российского акустического общества 2004, Нижний Новгород; XIII сессия российского акустического общества 2003, Москва; Международная конференция «Диалог 2003», Протвино; Международная конференция «Когнитивное моделирование в лингвистике - 2002», Казань; Международный симпозиум «Акустика детской речи», 2002, Санкт-Петербург.
Материалы, касающиеся данной диссертационой работы опубликованы в четырех периодических изданиях: двух российских и двух зарубежных, в том числе три из них в рецензируемых изданиях из списка ВАКа: «Вестник СПбГУ», «Cognitive Neuroscience and Neuropsychology» и «Brain Research» (на основании системы цитирования «Web of Science», см. перечень рецензируемых научных журналов и изданий ВАК от 21 апреля 2008 г.).
Четырнадцать научных статей опубликованы в сборниках научных конференций, три из них на английском языке.
Структура и объем работы
Диссертационная работа изложена на 165 страницах машинописного текста и содержит введение, 5 глав, заключение, список литературы и приложение. Текст диссертации проиллюстрирован 9 рисунками и 7 таблицами. Библиографический указатель состоит из 116 источников, из них - 58 на русском, 52 - на английском и 6 -на французском языках.