Проект дистанционного обучения нейролингвистике

Глава 9 - Восприятие речи

9.3. Модель анализа через синтез

А.В. Венцов, В.Б. Касевич *

Назад    Наверх    Вперед


Введение

Содержание

Глоссарий

Библиография

Разработчики

Ранняя версия модели анализа через синтез, которая появилась в конце 50-х - начале 60-х годов, была не чем иным, как моторной теорией восприятия речи: анализ речевого сигнала, согласно соответствующим представлениям, осуществлялся путем восстановления, или синтезирования, породивших этот сигнал артикуляторных характеристик [Bell, 1961; Stevens, Halle, 1964]. Предполагалось, в частности, что тем самым преодолевалась трудность, связанная с высокой степенью вариабельности акустических параметров речевого сигнала; иначе говоря, принималось, что артикуляторные параметры звуков речи должны быть более стабильными, константными, нежели акустические. Впоследствии это предположение не подтвердилось.

Более поздние версии модели анализа через синтез уже не ограничивались оперированием информацией, относящейся исключительно к фонетическому аспекту речи. На первый план вышли процедуры, связанные с выдвижением гипотез относительно воспринимаемых слов с последующей верификацией этих гипотез. Синтезу в этой версии подлежали, таким образом, уже не фонемы или фонемоподобные единицы, а целостные слова, анализ же главным образом заключался в проверке того, насколько объективные характеристики речевого сигнала соответствуют выдвинутой гипотезе. И здесь одним из основных доводов выступали трудности, связанные с высокой степенью вариабельности речевого сигнала, с типичностью редукции, вплоть до нулевой, и т.п. Как пишет Д. Клатт [Klatt, 1989, р.181], эта "модель анализа через синтез ... подверглась критике с двух точек зрения: никто не предложил удовлетворительного объяснения тому, каким образом процесс начинается (т.е. откуда появляются гипотезы относительно слов); такая модель может потребовать слишком большого объема когнитивной обработки [данных] - принятия чересчур большого числа последовательных решений в единицу времени..."

Дальнейшее развитие представления, связанные с анализом через синтез, получили в работах В. Зью, Д. Хаттенлохера и др. [Huttenlocher, Zue, 1984; Zue, 1986]. Важнейшим новшеством стало положение о гиперпризнаках (robust features) типа "сильный фрикативный", "слабый фрикативный", "передний гласный", "смычный", "ударный", "безударный". В типичном случае одного такого признака достаточно для характеристики того или иного речевого сегмента, сама же модель анализа через синтез предполагает три основные стадии:

(1) предварительная сегментация акустического сигнала и приписывание сегментам гиперпризнаков;

(2) обращение к словарю для получения некоторого множества слов (как считается, не слишком большого), которые удовлетворяют данному набору гиперпризнаков;

(3) поиск слова внутри установленного множества, что осуществляется за счет более детального фонетического анализа его элементов, опять-таки с использованием принципа анализа через синтез.

Хотя В. Зью и его коллеги исходили из убеждения, что вводимые ими гиперпризнаки в значительной степени позволяют преодолеть вариабельность, неопределенность речевого сигнала благодаря своей устойчивости по отношению к контексту и относительной независимости от конкретного диктора, попытки приложения этих идей к построению реальных моделей распознавания речи оказались не слишком успешными [Huttenlocher, 1986]. Гласс и Зью предложили еще одну модификацию подхода, когда гиперпризнаки - оценка изменений в слуховом спектре (т.е. в спектральной картине на выходе слуховой модели) - используются и для сегментации, а затем вычлененным сегментам присваиваются характеристики в терминах 10 спектральных эталонов; далее полученные словарные кандидаты сопоставляются с гипотезами, основанными на языковых лексических вероятностях [Glass, Zue, 1987]. Утверждается, что данная модификация приводит к улучшению распознавания, хотя количество ошибок и сохраняющаяся степень неопределенности все еще велики.

Д. Клатт высказывает сомнение в потенциальной эффективности этой модели. Гиперпризнаки дают слишком большой разброс возможных ответов как для сегментации, так и для идентификации слов. При оперировании соответствующими правилами на материале изолированных слов множество слов, они санных в терминах гиперпризнаков, в среднем составляет 21 единицу для словаря объемом 20 тыс. слов. Но при переходе к связному звучащему тексту с фонетической неопределенностью его границ (особенно при учете внешнего сандхи) и высокой вариабельностью фонетического облика слова мощность множества слов, выделенных по гиперпризнакам, может составить миллионы элементов [Harrington, Johnstone, 1987]. (Примечание. Как можно понять, в последнем случае имеются в виду наборы не спов, а словосочетаний: одна и та же фонетическая цепочка членится на те или иные последовательности слов. В противном случае утверждение о миллионах слов-вариантов - что превышает объем обычного словаря - становится непонятным.) По мнению Д. Клатта, даже введение узкой фонетической транскрипции, учитывающей редукцию, тип реализации звуков внутри слога (и тем самым позволяющей извлекать информацию о словесных границах), едва ли позволило бы существенно снизить неопределенность, которую сопровождает использование гиперпризнаков [Klatt, 1989, р.182].

Назад    Наверх    Вперед


* А.В.Венцов, В.Б.Касевич Современные модели восприятия речи: критический обзор
Проблемы восприятия речи // Издательство Санкт-Петербургского университета, Санкт-Петербург, 1994