Содержание к диссертации
Введение
Глава I. Распознавание речи как теоретическая проблема современной экспериментальной фонетики 10
1.1. Проблема распознавания речи в историко-научном и теоретическом освещении 10
1.1.1. История изучения речевых технологий в экспериментальной фонетике 10
1.1.2. Проблема автоматического распознавания речи в речевых технологиях 17
1.1.3. Лингвистические подходы к автоматическому распознаванию речи 21
1.1.4. Статистические подходы к автоматическому распознаванию речи 25
1.1.5. Автоматическое распознавание речи в фоноскопии 31
1.2. Акустические и артикуляционные свойства звуков речи в фонетической системе современного русского языка 37
1.2.1. Акустические свойства звуков речи в фонетической системе современного русского языка 37
1.2.2. Спектральный анализ акустических свойств звуков 41
1.2.3. Артикуляционные свойства звуков речи в фонетической системе современного русского языка 45
1.2.4. Спектральный анализ артикуляционных свойств звуков 48
1.2.5. Спектральный анализ звуковых последовательностей 56
1.3. Фонологическое восприятие речи как основа теории и практики автоматического распознавания речи 59
1.3.1. Теория фонемы в общей и русской фонологии 59
1.3.2. Фонетический речевой модуль (речевая сенсорная модальность) как способ обработки информации, содержащейся в звуках речи 74
Глава II. Экспериментальные модели по распознаванию звучащей русской речи: социальные, семейные, возрастные и тендерные аспекты лингвистической идентификации личности 89
2.1. Социальные, возрастные и гендерные аспекты распознавания звучащей речи и проблема лингвистической идентификации личности 89
2.1.1. Социально-культурные и социально-психологические аспекты лингвистической идентификации личности 89
2.1.2. Возрастные и гендерные аспекты лингвистической идентификации личности 98
2.2. Информационная теория восприятия речи в экспериментах по автоматическому распознаванию речи 105
2.2.1. Информационная теория восприятия речи как технологическая платформа для экспериментальных исследований по автоматическому распознаванию речи 105
2.2.2. Математическое и техническое обеспечение экспериментальных исследований по автоматическому распознаванию русской звучащей речи в социальном, возрастном и тендерном аспектах 111
2.3. Экспериментальные модели автоматического распознавания звучащей русской речи по критерию минимума информационного рассогласования 121
2.3.1. Эксперимент № 1. Распознавание речи по родственному признаку 121
2.3.2. Эксперимент № 2. Распознавание речи по тендерному признаку 131
2.3.3. Эксперимент № 3. Распознавание речи по возрастному признаку 133
Заключение 138
Библиографический список 143
Приложение 169
- Проблема автоматического распознавания речи в речевых технологиях
- Теория фонемы в общей и русской фонологии
- Возрастные и гендерные аспекты лингвистической идентификации личности
- Эксперимент № 1. Распознавание речи по родственному признаку
Введение к работе
Реферируемое диссертационное исследование посвящено описанию лингвистической идентификации личности по родственному, тендерному и возрастному признаку в экспериментальных моделях автоматического распознавания звучащей русской речи.
Мы живем в информационную эпоху, когда проблема работы с информацией (обработка, получение, хранение, преобразование и пр.) является крайне востребованной в науке и в обществе. В настоящее время для решения разнообразных практических задач широко востребованы технологии по автоматическому распознаванию речи. В отечественной и зарубежной науке сегодня научные исследования, стимулируемые практическими интересами, сконцентрированы на поиске оптимального решения проблемы автоматического распознавания и синтеза речи путем попыток внедрения новых подходов к речевым технологиям.
Актуальность настоящего исследования состоит в том, что оно находится в русле новейших передовых разработок в области автоматического синтеза и анализа русской речи на основе оригинальных отечественных технологий. Очевидна и общественная значимость указанной проблемы. В настоящее время в прикладных целях актуальным становится использование речевых технологий и прежде всего таких, как распознавание, анализ речи, автоматизированная постановка произношения и проч.
Эти технологии можно активно использовать при построении справочных систем, в ходе предварительного обучения систем распознавания и синтеза речи, в научных целях для создания различных речевых корпусов и для практических нужд. Из практических аспектов следует выделить прежде всего использование указанных технологий в практике судебной фоноскопи-ческой экспертизы для решения задач по лингвистической идентификации личности.
Совершенно очевидно, что в дальнейшем сфера применимости технологий по распознанию русской речи будет только расширяться. Ведь с по-
мощью этих технологий можно решать разнообразные идентификационные задачи по выявлению социальных, национальных, профессиональных, тендерных и возрастных особенностей человека в правоведческих, педагогических или медицинских целях.
Объектом исследования являются современные технологии по автоматическому распознанию русской устной речи, построенные на основе статистических методов (скрытых Марковских моделей).
Непосредственным предметом исследования является экспериментальное моделирование выявления родственных, тендерных и возрастных особенностей личности на основе информационной теории восприятия речи (ИТВР).
Гипотеза исследования:
— Экспериментальные исследования русской устной речи дикторов на
основе информационной теории восприятия речи, базирующиеся на стати
стическом анализе минимума рассогласования фонем, позволяют с достаточ
ной степенью надежности выявлять наличие родственных связей, тендерные
и возрастные различия дикторов.
Объект, предмет и гипотеза исследования определяют его цель — осуществить теоретическое и экспериментальное исследование проблемы лингвистической идентификации личности по родственным, тендерным и возрастным признакам на базе анализа русской устной речи.
Поставленная цель предполагает решение следующих исследовательских задач:
описать историю изучения речевых технологий в экспериментальной фонетике;
раскрыть проблему автоматического распознавания речи в исто-рико-научном и теоретическом освещении, охарактеризовав лингвистические и статистические подходы к автоматическому распознаванию речи;
дать теоретическое описание акустических и артикуляционных свойств звуков речи в русской фонетической системе;
раскрыть теоретические аспекты фонологического восприятии речи как основы теории и практики автоматического распознавания речи;
обосновать понятие фонетического речевого модуля (речевой сенсорной модальности) как способа обработки информации, содержащейся в звуках речи на базе теории фонемы;
раскрыть социальные, возрастные и тендерные аспекты распознавания звучащей речи для лингвистической идентификации личности;
охарактеризовать информационную теорию восприятия речи как технологическую платформу для экспериментальных исследований по автоматическому распознаванию речи;
подготовить и осуществить три эксперимента по выявлению родственных, тендерных и возрастных особенностей личности посредством оригинальной технологии автоматического распознавания русской устной речи;
обработать и проанализировать основные результаты экспериментов с точки зрения их соответствия заявленной гипотезе исследования.
Материалом исследования являются обработанные компьютером и оцифрованные записи русской устной речи 30 дикторов разного возраста и тендерной принадлежности, 12 из которых находятся в перекрестных родственных связях. Для записи устной речи был выбран художественный текст — русский перевод романа Стендаля «Красное и чёрное», начало которого каждый диктор читал в течение пяти минут.
Методологической основой данного исследования являются теоретические идеи акустической и перцептивной фонетики, общей фонологии и теории фонологического восприятия речи; технологической платформой исследования выступает новейшая информационная теория восприятия речи.
Методы исследования определяются общими методологическими принципами, согласно которым автоматическое распознавание речи должно опираться на лингвистические данные и моделировать восприятие речи в естественных условиях. В числе методов, использованных в данной работе,
следует назвать метод традиционного лингвистического описания, методы теории информации и теории вероятностей, а также метод эксперимента.
Научная новизна исследования состоит в том, что в работе впервые осуществлено экспериментальное исследование по выявлению родственных, тендерных и возрастных особенностей личности посредством применения современных новейших технологий автоматического распознавания русской устной речи.
Теоретическая значимость исследования состоит в теоретическом обосновании принципов экспериментального моделирования лингвистической идентификации личности по родственным, тендерным и возрастным признакам путем анализа устной речи.
Практическая значимость исследования заключается в том, что его результаты можно использовать в практике проведения судебной фоно-скопической экспертизы. Использованную нами методику можно также применять для установления национальной принадлежности говорящего по фонограммам его речи, представляющей индивидуальный «речевой портрет», в котором отражается соответствие или несоответствие произношения человека системе норм неродного языка, а также для идентификации личности по социальному, семейному, возрастному и тендерному признакам, что представляет большую ценность при получении розыскной информации для оперативных служб, следствия и суда.
Отдельные результаты исследования могут быть использованы при построении справочных систем, в ходе предварительного обучения систем распознавания и синтеза речи, в научных целях для создания различных речевых корпусов и для практических нужд, например, в практике вузовского преподавания на кафедре судебной экспертизы юридических вузов.
На защиту выносятся следующие положения:
1. Современные модели автоматического распознавания речи должны основываться на принципах естественноязыкового фонологического членения и восприятия речи.
-
Экспериментальные исследования по автоматическому распознаванию русской устной речи дают максимально надежные результаты при использовании новейшей информационной теории восприятия речи.
-
Эксперименты по автоматическому распознаванию русской устной речи на базе информационной теории восприятия речи по критерию минимума информационного рассогласования фонем позволяют осуществить адекватную лингвистическую идентификацию личности посредством выявления родственных, тендерных и возрастных особенностей.
Апробация результатов исследования. Основные положения и результаты исследования были представлены в докладах на на международных и межвузовских научных, научно-методических и научно-практических конференциях: «Студенческий гений» (Нижний Новгород, 2010, 2012), «Человек и общество в противоречиях и согласии» (Нижний Новгород, 2010, 2012), «Материалы международной научно-практической конференции, Алматы, 17-18 мая 2012» (Алматы, 2012), «Международная конференция по когнитивной науке» (Калининград, 2012), «Инновации в государстве и праве России» (Нижний Новгород 2013), «Актуальные проблемы права и экономики» (Брест, 2013), «Русский язык как государственный язык Российской Федерации в условиях полиэтнического и поликультурного региона» (Саранск, 2013), «Инновации в государстве и праве России» (Нижний Новгород, 2013), «Историческая русистика и славянское языкознание в начале XXI века: проблемы и перспективы» (Нижний Новгород, 2013). Работа обсуждалась на заседании кафедры современного русского языка и общего языкознания ННГУ им. Н.И. Лобачевского.
Структура работы. Диссертация состоит из введения, двух глав, заключения, библиографического списка и приложения. Библиографический список включает в себя 238 наименований (из них — 10 на английском языке). В Приложении приводятся основные данные по экспериментам, представленные в форме таблиц.
Объем диссертационного исследования, не считая приложения, составляет 168 с. Общий объем исследования — 190 с.
Проблема автоматического распознавания речи в речевых технологиях
Одна из ведущих проблем в области прикладных исследования звучащей речи является проблема распознавания речи в широком смысле этого слова. Как уже говорилось выше, в начале 60-х годов XX в. исследователи, работавшие в области автоматического распознавания речи, отчетливо сознавали сложность распознавания слитно произнесенных фраз, построенных на использовании больших словарей.
Было признано, что обработка слитной речи требует, во-первых, перехода от распознавания слов как целостных звуковых образов к распознаванию звуковых единиц, меньших слова (например, фонем или слогов) и, во-вторых, учета фонетических, синтаксических и семантических ограничений, определяющих возможные языковые структуры речевых сообщений. Технологический анализ проблемы показал, что для распознавания слитной речи необходим соответствующий уровень развития компьютерной техники и математического обеспечения. Первые попытки в этой области исследований были сделаны только в начале 70-х годов XX в. Наибольшее влияние на дальнейшее развитие автоматического распознавания речи оказали исследования, выполненные в 1971-1976 гг. в рамках государственной программы ARPA (Advanced Research Projects Agency), объявленной Управлением перспективных исследовательских проектов министерства обороны США. Программа работ была рассчитана на 5 лет, для чего правительством было выделено 15 млн. долларов.
Перед исследовательскими группами нескольких ведущих научных центров США была поставлена одна и та же задача: создать дикторонезави-симую систему распознавания слитной речи на основе словаря не менее чем из 1 000 слов. На распознаваемые речевые сообщения вводились синтаксические ограничения: фразы должны были принадлежать к ограниченному набору синтаксических конструкций, которые типичны для текстов (диалогов), функционирующих в конкретной области практической деятельности (например, при поиске документов в некоторой базе данных).
Цель проекта ARPA была вначале сформулирована как построение системы понимания речевых сообщений, однако реально речь шла о распознавании их языковой структуры. Теоретически поставленную перед группой ARPA задачу можно было выполнить на основе двух стратегий: 1) понизить значимость собственно фонетического (звукового) распознавания, активно используя синтаксические и семантические ограничения на возможную языковую структуру распознаваемых фраз; 2) усовершенствовать уже разработанные системы фонетического распознавания (идентификации) отдельных слов, основанные на общих методах распознавания звуковых образов.
Руководящий комитет проекта остановился на первой стратегии и рекомендовал исследовательским группам развивать распознающие системы в этом направлении. К 1976 г. комитету было предложено несколько прототи-пических работающих систем, для которых было произведено тестирование. По его результатам наилучшей была признана система HARPY, разработанная Университетом Карнеги-Меллона. Интегрированная сетевая структура распознавания предложений HARPY является расширенным вариантом сетевого представления, которое первоначально применялось при разработке известной системы распознавания слов DRAGON. Сеть в системе HARPY позволяла распознать 108 предложений длиной не более 8 слов из словаря в 1 000 слов.
Стратегия распознавания системы HARPY может быть отнесена к типу «анализ через синтез». В этой системе реализована интегрированная сетевая структура, в которой лингвистические знания (фонетические, фонологические, лексические и синтаксические) объединены в порождающую модель допустимых произношений распознаваемых фраз. Сначала строится сеть слов, создающая допустимые последовательности слов. Узлами сети являются слова (из разрешенного словаря), а любой путь в ней соответствует допустимому предложению (из разрешенного набора синтаксических конструкций). Затем каждый узел (слово) заменяется сетью произношений, представляющих возможные произносительные варианты слова (с учетом звуковых изменений на стыках слов и вариантов в беглой речи). Произношение слов описывается фонетической транскрипцией с использованием небольшого набора аллофонов. В системе HARPY аллофоны были представлены в памяти компьютера 98 различными спектральными эталонами. В конечном итоге возможное произнесение любой допустимой последовательности слов (предложения), порождаемое сетью, задается в виде последовательности ал-лофонных спектральных образцов.
Далее система HARPY работает аналогично распознавателю изолированных слов: анализируется и оценивается степень сходства ожидаемого спектрального образа всего предложения с распознаваемым речевым сигналом. Для этого сигнал преобразуется сначала в последовательность коротких квазистационарных отрезков, которые выделяются при первичном спектральном анализе распознаваемого предложения.
Методы вычисления акустического расстояния между спектральным представлением предложения, которое порождается машиной, и распозна ваемым речевым сигналом принципиально не отличаются от того, что делается при распознавании ограниченного набора слов-эталонов, хотя в целом задача, конечно, значительно усложняется.
По мнению экспертов, существенным вкладом системы HARPY в решение общей проблемы распознавания речи стало то, что она экспериментально подтвердила не только важность, но и возможность использования различных лингвистических ограничений для распознавания слитной речи. Было показано, что стратегия «анализ через синтез» с учетом лингвистических ограничений дает гораздо меньше ошибок, чем «чистое» аку-стико-фонетическое распознавание с последующим поиском и подбором слов-кандидатов из машинного словаря.
В то же время в окончательном заключении по проекту ARPA эксперты отметили, что плохое звуковое распознавание не может компенсироваться использованием широких лингвистических знаний. В системе HARPY, например, при правильном распознавании слов в 97 % случаев лишь 42 % аллофонов (в лучших вариантах распознавания) были идентифицированы правильно на основании спектральных образцов. Это значительно уступает звуковому восприятию речи человеком и может привести к серьезным ошибкам при расширении словаря и ослаблении синтаксических ограничений на структуру распознаваемых предложений.
К числу наиболее значимых результатов проекта ARPA эксперты отнесли также создание речевых баз данных, включавших значительное количество речевых высказываний, которые были записаны в сигнальном виде, затранскрибированы фонетистами и специально обработаны для получения разных характеристик: акустических, фонетических, синтаксических, семантических и диалогических.
При проектировании и создании речевых баз большое внимание было уделено разработке надежных методов получения фонетической, фонематической и просодической транскрипций, согласованных с речевым сигналом. С этого времени речевые, фонетические и текстовые базы данных стали основой развития речевых технологий.
После завершения проекта ARPA дальнейшие исследования в области автоматического распознавания речи были продолжены в рамках двух подходов: лингвистического, основанного на использовании акустико-фонетических знаний, в том числе сведений о звуковом восприятии речи человеком, и математического, базирующегося на статистической теории распознавания образов — приводится по: [Кодзасов, Кривнова 2001].
Теория фонемы в общей и русской фонологии
Восприятие речи основано не на фонетическом, а на фонематическом членении речи, которое принимает во внимание сигнификативное членение звучащей речи на смыслоразличительные элементы. «Одной из основных особенностей речи является отсутствие прямой зависимости между лингвистическими единицами и характеристиками артикуляторной, акустической и перцептивной структур, с которыми они соотносятся. Следовательно, для того, чтобы понять природу процесса речевой коммуникации, необходимо изучить специфику различных структур и форму корреляции между ними и лингвистическими единицами» [Златоустова 1997: 147]. Поэтому теория распознавания звучащей речи не может обойтись без основ лингвистической теории фонемы.
Основная задача теории фонем — определить принципы классификации наблюдаемых в потоке речи единиц, которые позволили бы отделить значимые звуковые различия от незначимых. Звуковая материя формируется и используется каждым языком по-особому, в соответствии с правилами его фонологической системы, включающей в себя подсистему сегментных средств и подсистему суперсегментных (просодических) средств. Минимальными (кратчайшими в линейном плане) структурно-функциональными звуковыми единицами в большинстве языков являются фонемы.
Как пишет И.П. Сусов, звучащая речь представляет собой с точки зрения акустической и с точки зрения артикуляционной континуум, т.е. нечленимое целое. Языковые же единицы вообще и фонемы в частности имеют дискретную природу, т.е. они достаточно чётко отграничиваются друг от друга в синтагматическом и парадигматическом отношениях. Выделимость фонем в речи опирается не на акустические или артикуляторные признаки, а на признаки структурно-функциональные, т.е. собственно языковые. Фонемная сегментация задаётся самой языковой системой [Сусов 2006].
Цепочке дискретных фонем в результате фонемной сегментации ставится в соответствие ряд звуков (фонов). Фон выступает индивидуальным, единичным представителем (репрезентантом) определённой фонемы в речи. Каждой фонеме соответствует бесконечное множество фонов. Основные функции фонем заключаются в том, что они: 1) образуют экспоненты слов и морфем; 2) обеспечивают опознавание (идентификацию) и различение (дифференциацию) языковых знаков как значимых единиц.
Каждый язык фонемного (неслогового) строя насчитывает небольшое по количеству, закрытое множество фонем. Они могут осуществлять свою идентифицирующую и дифференцирующую функцию благодаря тому, что они различаются между собой, будучи противопоставленными парадигматически.
Парадигматические особенности фонем выявляются на основе фонологических оппозиций, т.е. таких противопоставлений между фонемами, которые различают разные слова (и морфемы). Впервые типология фонологических оппозиций была разработана Н.С. Трубецким, который выделил такеи оппозиции:
1) по числу противопоставляемых членов:
- оппозиции двухчленные (бинарные), например: /d/:/t/ — дом:том;
- оппозиции трёхчленные (тернарные), например: /p/:/t/:/k/ — пот:тот:кот;
2) по числу дифференциальных признаков, служащих различению противопоставляемых фонем:
- оппозиции однопризнаковые (например: /g/:/k/, противопоставленные по признаку [звонкость]:[глухость] ([незвонкость]) — год.кот);
- оппозиции многопризнаковые, например: /t/:/z/, противопоставленные по признакам [звонкость]. [глухость] и [смычность]:[щелинность] ([несмыч-ность]) - тол:зол;
3) по отношению к системе фонем:
- оппозиции изолированные (например, нем. /УМ - lassen:Rassen, и
- пропорциональные, например: рус. /1/:/г/ = /Г/:/гУ - лов:ров = Лёв ( Лёва):рёв [Трубецкой 2000]. Вообще, многие оппозиции имеют групповой характер: так, классу смычных противопоставляются класс щелевых и класс дрожащих, классу переднеязычных противостоят классы среднеязычных и заднеязычных, классу непалатализованных класс палатализованных, классу неогублённых гласных класс огубленных (лабиализованных) и т.д. Подобные фонологические оппозиции (вслед за Н.С. Трубецким) квалифицируются как фонологические корреляции.
Звуковые различия, которые не выявляются при противопоставлениях разных фонем, квалифицируются как нефонематические (избыточные). Они учитываются при описании фонем данного языка не на уровне системы (совокупности оппозиций), а на уровне нормы и на уровне узуса, а иногда и на уровне индивидуального речевого акта.
Число фонологических оппозиций (благодаря тому, что многие из них являются пропорциональными) и, соответственно, число дифференциальных признаков фонем меньше числа самих фонем. Фонологические оппозиции выступают как те отношения, которые упорядочивают инвентарь фонем, делая его системой. Иначе говоря, совокупность фонологических оппозиций и есть структура фонематической системы.
Н.С. Трубецкой и P.O. Якобсон считали возможным к числу определений фонемы относить её квалификацию как «связки», «пучка» дифференциальных признаков. P.O. Якобсон вообще склонен был считать фонологический дифференциальный признак (ДП) элементарной единицей фонологической системы. P.O. Якобсон предложил универсальный список фонологических признаков (в акустических терминах), из которых строится та или иная фонема любого языка [Якобсон 1985].
Например, русский звук [с] имеет такое признаковое описание: /согласный, шумный, фрикативный, дентальный, глухой, непалатализованный/. Одни из признаков являются различительными (или дистинктивны- ми, дифференциальными), тогда как другие — неразличительными (недистинктив ными). Различительность признака оценивается применительно к данному сегменту и к данной позиции.
Н.С. Трубецкой указывает на следующие отличия различительных признаков от неразличительных:
1) значения различительных признаков противопоставляют смыслы, а неразличительных — нет. Это особенно хорошо демонстрируют противопоставленные по смыслу пары слов, которые различаются значениями одного и того же фонетического признака. Так, русская пара пыл—был противопоставлена глухостью/звонкостью согласных. Подобной пары не может быть в арабском языке, в котором губные смычные не противопоставлены по глухости/звонкости (имеется только звонкий);
2) значение различительного признака из контекста невыводимо, а неразличительного выводимо. Например, в паре эта [е] — эти [ё] начальные гласные не одинаковы: во втором слове язык несколько смещен в передне-верхнем направлении, что в транскрипции показано "крышкой" над гласным. Это отличие обусловлено контекстом: в слове эти за гласным следует мягкий согласный. Следовательно, оно несмыслоразличительно;
3) значения различительного признака не распределены позиционно, а неразличительного распределены по позициям. Например, в русском языке твердое [л] и мягкое [л ] противопоставлены как в начальной, так и конечной позиции слова: лук—люк, пыл — пыль [Трубецкой 2000].
Оппозиционный анализ даёт возможность не только выявить фонологически существенные черты фонем, но и установить состав (инвентарь) фонем, распределить эти фонемы по коррелятивным классам, построить на этой основе модель фонематической системы данного языка и определить место в ней каждой данной фонемы. Это место характеризуется набором ДП данной фонемы. Такой набор остаётся неизменным, инвариантным при любых реализациях той или иной фонемы в речи.
Возрастные и гендерные аспекты лингвистической идентификации личности
Точно так же мы можем постулировать существование возрастных и особенно — тендерных особенностей звучащей речи. Как пишет В.В. Наумов: «Весьма большое значение для социальной и антропологической характеристик индивида имеют возрастной и тендерный аспекты» [Наумов 2009: 66]. Одним из первых на это обратил внимание Н.С. Трубецкой: «В языковых общностях слабо или вовсе не дифференцированных в социальном отношении, исключительное значение приобретают различия по полу и возрасту» [Трубецкой 2000: 26].
Н.С. Трубецкой констатирует различия в произношении возрастных групп, имеющие место во многих языках, замечая, что «нужно быть осторожным и не смешивать условные различия с различиями, данными от природы. Когда дети заменяют тот или иной звук другим, поскольку правильное произношение его усваивается лишь со временем, в этом нет еще ничего экс-прессивнофонологического (как и во всех случаях патологических ошибок речи). Но экспрессивно-фонологический факт налицо, когда ребенок, будучи в состоянии вполне точно воспроизвести произношение взрослых, намеренно не делает этого или когда молодой человек преднамеренно остерегается воспроизводить произношение пожилых людей... с тем, чтобы только не показаться старомодным и смешным. Иной раз речь идет об исключительно тонких оттенках, таких, например, как нюансы интонации и т. п.» [Трубецкой 2000: 27].
Возрастная индикация личности только на первый взгляд может показаться простым делом, хотя не представляет труда идентифицировать по голосу, например, детей и стариков. Физиология голосовых связок, их возрастные изменения являются достаточно надежным фактором определения нижней и верхней возрастных границ. И все же одну оговорку сделать необходимо. Идентификация представителей старшего поколения по голосу не может основываться только на соответствующих данному возрасту тем-бральных параметрах, имеющих в обыденной жизни такие определения, как «дребезжаний», «надтреснутый», «кашляющий», «сухой» и т. п.
По данным В.Х. Манёрова, «с возрастом снижается жизненная емкость легких, уменьшается эластичность мышц. Поэтому старческий голос воспринимается как тихий, слабый, нечеткий, замедленный» [Манёров 1999: 9]. Основные трудности в экспертизе возрастных данных по голосу (речи) будут иметь место с представителями так называемого среднего возраста, характеризующегося, кстати говоря, в разных языковых коллективах разными диапазонами, зависящими от средней продолжительности жизни. В России, например, по данным статистики, этот показатель у мужчин составляет 59 лет, у женщин — на 5-7 лет больше. В Японии граждане 55-65 лет составляют самую многочисленную (средневозрастную) категорию населения. С одной стороны, как ни цинично это звучит, такое положение дел упрощает задачу, если необходимо провести индикацию голоса, обладатель которого относится к старшей возрастной группе, поскольку ее численность невелика. С другой, возрастают количественные характеристики средней группы. Она становится самой представительной, так как включает в себя индивидов от 35 до 50 лет.
Одной из характеристик голосовых особенностей среднего возраста можно назвать широкую тембральную вариантность представителей средней возрастной группы. Практически отсутствуют и физические ограничения голоса, имеющие место в младшей и старшей возрастных группах, тембраль-ный диапазон которых не столь широк, как в средней возрастной группе. Физиология средней возрастной группы позволяет дать описание голоса индивида по всем семи параметрам, участвующим в голосовой характеристике: громкость, темп, тембр, качество голоса, четкость артикуляции, мелодика, ударение [Наумов 2009: 68-69].
Что касается тендерной идентификации, то еще Н.С. Трубецкой указывал на различия в произношении мужчин и женщин ударного [о]. «Различие между мужским и женским произношением заключается в степени дифтонгизации [о] (у женщин она более значительна). Однако если мужчина произнесет [о] с лабиализацией, характерной для нормального женского произношения, такое произношение сразу бросается в глаза как женственное и аффектированное» [Трубецкой, 2000: 27].
В 80-90 гг. прошлого столетия проблема тендера весьма интенсивно и небезуспешно исследовалась в зарубежной и отечественной науке (социологии, экономике, лингвистике). Так, в США Э. Странд и К. Джонсон провели фонетический эксперимент, направленный на доказательство того, как восприятие людьми речи меняется в зависимости от установок относительно пола говорящего — например, использование высокого восходящего тона является проявлением осторожной позиции женщины, когда к ней подходит незнакомый мужчина и задаёт вопрос [Strand, Johnson: 1996]. Оказалось также, что произношение звука [s] может варьироваться по частоте и женщины произносят этот звук выше чем мужчинами. Более высокая частота произнесения ведет к тому, что звук /s/ в слове sin начинает звучать близко к звуку /sh/ в слове shin. [Григорян 2004: 118].
В отечественной лингвистике в работе Е.А. Земской и др. отмечается, что женское ассоциативное поле выглядит более обобщенным и «гуманистическим» (природа, животные, повседневная жизнь); ассоциативное поле мужчин включает в себя спорт, охоту, профессиональную и военную сферу. Интересно, что и друг друга представители разных полов оценивают с разных позиций: в образе современной женщины для мужчин основными оказываются черты, так или иначе связанные с ее отношениями к мужчинам; для женщин же наиболее актуальными являются ее деловые качества [Земская 1993].
Различны и эмоционально-оценочные характеристики полов: «мужчины относятся к современным женщинам сверхкритично, наделяя их в основном негативными характеристиками, женщины, напротив, чаще указывают слова, выражающие положительную эмоциональную оценку мужчин» [Кирилина 1999: 57].
А.В. Кирилина, что важно в целях нашего исследования, отмечает большой удельный вес тендерных исследований, связанных с проблемами криминалистики (Кирилина, 1999: 58). Авторы этих работ по понятным причинам сосредоточили свои усилия на диагностике и распознавании идентификационных признаков мужской и женской речи. Причем, как замечает А.В. Кирилина, «характер причин, порождающих данные различия, не рассматривается как нерелевантный» [Кирилина, 1999: 58]. Основная задача в данном случае заключается в формировании инвентаря классификационных признаков мужской и женской речи.
В одной из последних работ Р.К. Потапова вводит понятие сексо-лекта, которое, наряду с уже общепринятыми в прагмалингвистике понятиями диалекта и социолекта, должно привести к созданию «портрета» говорящего [Потапова 2000: 137]. Автор полагает, что именно сексолект «наиболее полно и адекватно отражает наличие ряда особенностей, присущих индивидууму, не только с учетом его исконного (базового) физиологического пола, но также и имитируемого противоположного пола».
Р.К. Потапова предлагает ввести в понятие «сексолект» следующие компоненты:
1) базовый сексолект (применительно к исходной половой принадлежности) с соответствующим набором артикуляционных, перцептивных и акустических коррелятов;
2) производный сексолект (применительно к имитируемому полу):
а) посредством различного рода технической имитации,
б) путем естественного голосового подражания,
в) посредством физиологической переориентации.
Составляющими сексолекта являются фонационные (голосовые), ар тикуляторные и просодические характеристики речи.
Второй уровень признаков распознавания языковой личности представлен экстралингвистическими параметрами, имеющими непосредственное отношение к физическим и психическим состояниям говорящего [Потапова 2000: 139].
Р.К. Потапова утверждает, что «телосложение связано со строением голосового аппарата и, прежде всего, гортани» и что человек, обладающий «глубоким и богатым тембром голоса (басом) — это обычно человек высокого роста с длинной шеей, длинными конечностями и удлиненной грудной клеткой» [Потапова 2000: 140].
Результаты анализа Р. К. Потаповой одной из основных характеристик не только сексолекта, но и вообще человеческого голоса, — частоты основного тона (ЧОТ) — в семи возрастных группах мужчин и женщин интересны по двум причинам: во-первых, здесь подтверждается общепринятая позиция соотношения ЧОТ у мужчин и женщин в пропорции «1:2 (118 Гц — мужчины) — (205 Гц — женщины); во-вторых, у женщин с увеличением возраста, оказывается, имеет место постепенное снижение ЧОТ [Потапова, 2000:143].
Различия между мужчинами и женщинами в супрасегментном оформлении высказывания, по данным Р. К. Потаповой, определяются тем, что: «для женской речи, как правило, при нейтральном эмоциональном состоянии характерна большая степень мелодической изрезанности (наличие больших межслоговых и внутрислоговых интервалов ЧОТ, больший мелодический диапазон, более высокий регистр, ускоренный темп). Для мужской речи данные признаки также присущи, но с противоположным знаком» [Потапова 2000: 146].
Эксперимент № 1. Распознавание речи по родственному признаку
Условия проведения эксперимента. В первом эксперименте при помощи программы ИСФАР дан анализ сходства устной речи лиц, состоящих в родственных отношениях.
Главной задачей явилась идентификация речи родственников. В эксперименте участвовали 16 дикторов, часть из которых являются родственниками, В группе существуют 12 родственных связей.
В помещении (жилой квартире), в котором проводилась запись дикторов, отсутствовали посторонние шумы. Диктор при записи держал микрофон на расстоянии тридцати сантиметров от рта. Все испытуемые дикторы имеют литературное (не диалектное или просторечное) произношение. Дефекты в их речи отсутствуют.
Для записи устной речи был выбран художественный текст — роман Стендаля «Красное и чёрное» [Стендаль: 1979, 7-10], начало которого каждый диктор читал в течение пяти минут. Темп чтения всех участников эксперимента - средний. Объём текста - около 1050 слов, включая служебные. Выбор текста был обусловлен дифференцированным набором фонем. За это время предполагалось получить максимально возможный объём аллофонов. (Это конкретная реализация фонемы. Аллофоны - группа звуков, в которых проявляется данная фонема в зависимости от места в слове, соседства с другими звуками, ударности или безударности гласного звука и проч. [Розен-таль, Теленкова: 1985,15]). Далее, после записи речи, был произведён подбор параметров программы ИСФАР для получения оптимально точных результатов исследований.
Известно, что в русской речи имеется 42 фонемы, но далеко не все они пригодны для идентификации человека.
При записях были установлены восемь наиболее информативных фонем: [а], [и],[м], [м ],[н], [н"],[о], [у]. Выбор данных фонем определился благодаря минимальным значениям возможности сходства коэффициентов информационного рассогласования (сходства фонем друг с другом). Анализируемые фонемы также показывают наибольшие различия по величине информационного рассогласования у разных дикторов.
В качестве сравнения, как одного из доказательства выбора этих восьми фонем, приведены данные о различиях фонем [с], [ш] и [ПГ].
Для этого был осуществлён эксперимент, в ходе проведения которого были сделаны записи фонем у двух дикторов (Касаткина Игоря Сергеевича, 1988 г.р. и Петровой Инны Валерьевны, 1958 г.р.), находящихся между собой в неродственных связях, а также в разных возрастных и тендерных группах. См. рисунок №1, где показано минимальное значение между рассогласованиями фонем.
Из рисунка также видно, что фонемы [с], [ш] и [irf] отличаются друг от друга незначительным информационным рассогласованием, т.е. в них больше сходства, чем различий. Данный факт также подтверждается их артикуляционными и акустическими свойствами: они являются щелевыми, переднеязычными и глухими. Всё это вместе позволяет нам судить об их неинформативности и нецелесообразности использования в экспериментах.
Данный эксперимент подтверждает мнения и предположения некоторых учёных о том, что фонемы [с], [ш] и [ЗГ] не носят индивидуального характера и использовать их при идентификации диктора нецелесообразно — см., например [Газин 2010].
На первом этапе исследовалась речь одного диктора. С помощью кластерной модели информационных речевых единиц была создана фонетическая база данных (ФБД) диктора г } на множестве из 24 основных фонем русского языка. В состав вошли следующие фонемы: [а], [в], [в ], [ж], [з], [з ], [и], [л], [л ], [м], [м ], [н], [н ], [о], [с], [с ], [у], [ф], [ф ], [X], [х ], [ш], [ы], [э].
При этом использовался критерий минимума информационного рассогласования (МИР) в метрике Кульбака-Лейблера. Известно, что критерий МИР в метрике Кульбака-Лейблера представляет большой интерес в задачах анализа речи. Прежде всего, в сфере измерения качества речи, так как результаты, полученные на основе этой метрики, сильно коррелированы с субъективными оценками близости речевых сигналов (оценка MOS, mean opinion score). Критерием информативности фонем был выбран минимум информационного рассогласования в пределах каждого отдельного фонетического кластера. В результате получили 8 информативных фонем: [а], [и], [м], [м 1, [н], [н ], [о], [у].
На втором этапе те же исследования были проведены по двум другим дикторам. Причём один из них был выбран из числа родственников первого диктора. В дополнение к предыдущему критерию МИР был добавлен критерий вероятности ошибки II - го рода. Полученные результаты подтвердили как информативность выбранных фонем, так и высокую надёжность их распознавания. Наиболее информативными в области родства и возраста оказались фонемы [а], [н], [н ] и [у].
Данный выбор 4-х фонем был сделан как наиболее лучше показывающий сходство и различие в речи дикторов, имеющих родственные и неродственные отношения. Этот фактор наглядно продемонстрирован на рисунках 1 и 2. Так, в таблице №1 показано информационное рассогласование между фонемами, выявленное у следующей пары дикторов - Грачева A.M. и Малышева Г.В., не имеющих родственных связей. На рисунке №2 показано информационное рассогласование, выявленное между фонемами отца и сына (Грачева A.M. и Грачева М.А.).
Значение информационного рассогласования между фонемами [а], [н], [н ] и [у] У родственников гораздо меньше, чем данное значение у дикторов, не имеющих родственной связи. Данные двух таблиц показывают, что среднее рассогласование по выделенным фонемам у неродственников равно 5.054725, а между родственниками - 1.9617175. Таким образом, на данном примере убедительно доказано, что, используя 4 информативные фонемы ([а], [н], [н] и [у]), можно определять родство дикторов.
Был сделан предварительный вывод о том, что самыми информативными в русском языке являются фонемы с минимальными вариациями своих контролируемых в пределах соответствующего кластера, с минимальными значениями ошибки И-го рода - перепутыванием. При этом в случае родственных отношений дикторов интегральное расстояние между списками информативных фонем минимизируется. Этот принцип может служить признаком установления родственных отношений в задачах голосовой верификации.
В экспериментальной группе существуют 12 родственных связей. После записи речи, был произведён подбор параметров программы ИСФАР для получения оптимально точных результатов исследований. Затем была проведена сегментация фонем дикторов (Рис.2).