Проект дистанционного обучения нейролингвистике

Глава 9 - Восприятие речи

9.4.1. Введение

А.В. Венцов, В.Б. Касевич *

Назад    Наверх    Вперед


Введение

Содержание

Глоссарий

Библиография

Разработчики

Модели, подобные описанным выше, в сущности разрабатывались как альтернативные по отношению к тем представлениям, которые опирались на традиционные лингвистические концепции с их понятием дифференциального признака фонемы. Существуют и модели, непосредственно исходящие из лингвистического понятия дифференциального признака и пытающиеся "буквально" реализовать теоретические предложения, содержащиеся в трудах Р. Якобсона и его соавторов, или более поздние версии Хомского, Халле и др. ср., например, [Pisoni, Luce, 1987].

Надо сказать, однако, что соответствующие модели - по вполне понятным причинам - уделяют значительно больше внимания процедурам обработки акустического сигнала. Если собственно лингвистические описания либо вообще плохо отличают содержание дифференциального признака от акустических или акустико-артикулярных параметров, либо неопределенно говорят об акустических (акустико-артикулярных) коррелятах дифференциального признака, то в модельных представлениях фигурируют стадии, ответственные за ступенчатый переход от "сырого" акустического материала к некоторой символьной записи.

Первая такая стадия - это обычно этап слуховой обработки, или периферического анализа. По мнению Д. Клатта, результатом периферического анализа должны быть, как минимум, два вида представления: динамическая спектрограмма в координатах "время - частота - усредненная частота разрядов нейрона" (an average-firing-rate representation of the short-time spectrum) и динамический синхронный спектр (synchrony spectrum), получаемый за счет синхронной импульсации "нейронов" в некоторых частотных каналах анализатора. Предполагается, что использование в модели стадии периферического описания облегчит задачу последующих модулей, поскольку в результате инвариантные акустические характеристики фонетических признаков предстанут в "очищенном" виде, а функционально иррелевантная вариабельность будет снята[Klatt, 1989, р.183].

Следующая стадия - использование детекторов акустических параметров. Детекторы оценивают не абсолютные, а относительные признаки акустического сигнала, которые, как предполагается, характеризуются большей инвариантностью применительно как к разным контекстам, так и к индивидуальным дикторам. Детекторы акустических параметров мыслятся, вероятно, как врожденные компоненты соответствующих механизмов человека. Они определяют сравнительно простые параметры слухового представления сигнала независимо от того, речевой это сигнал или неречевой; примерами служат детекторы изменений в сигнале, детекторы спектральных переходов, спектральных пиков, формантных частот, движения формант во времени, детекторы присутствия голоса, выделения частоты основного тона, форманты назализации.

Представление речевого сигнала, выработанное на стадии периферического анализа, является объектом анализа модуля детекторов дифференциальных признаков. Некоторые авторы - см., например, [Stevens, 1986], склонны и дифференциальные признаки считать универсальными, а соответствующие детекторы, вероятно, врожденными. Однако Клатт предпочитает подход, согласно которому дифференциальные признаки носят внутриязыковый характер (что, конечно, гораздо лучше согласуется с богатейшими данными фонологических исследований). Детектор дифференциальных признаков имеет дело с набором значений, являющихся результатом работы детекторов акустических параметров; в свою очередь результат работы детектора дифференциальных признаков - это решение о том, какому дифференциальному признаку отвечает данный акустический параметр или их набор.

Предполагается, что ответ детектора носит в принципе двоичный характер: фиксируется наличие либо отсутствие признака в данный момент времени. Однако допускаются и вероятностные решения, когда информация, полученная от детекторов акустических параметров, позволяет следующему модулю оценить лишь вероятность присутствия тех или иных дифференциальных признаков в соответствующей точке временного континуума. При работе со звучащим текстом вероятностные оценки гораздо реалистичнее; уместность их использования определяется также и тем обстоятельством, что окончательные решения на ранней стадии распознавания речи затрудняют процедуры последующей коррекции, использование которых практически неизбежно в типичной ситуации неопределенности акустического сигнала.

В моделях описываемого класса работа детекторов обоих типов осуществляется параллельно, поэтому следующий этап анализа - это линеаризация. (Примечание. Здесь и далее термины "линеаризация", "линейный", "нелинейный" относятся к задаче получения описания речи в виде линейно упорядоченной последовательности символов (знаков), а не к линейности/нелинейности возможных преобразований акустического сигнала в слуховой системе, отражающей особенности амплитудных характеристик соответствующих элементов системы.) фонологического представления, которое должно принять вид последовательности экспонентов словарных единиц. Д. Клатт, говоря об этом этапе, допускает разные возможности, отчасти вслед за авторами, разрабатывающими соответствующие модели. Наиболее экономным он признает использование последовательности признаковых матриц, которые могут образовывать решетки в случае неоднозначности решений, предлагаемых детекторами. Некоторые авторы при линеаризации фонологического представления используют информацию о слогоделении, а также о внутренней структуре слога, но не вполне ясно, как именно соответствующие структуры находят свое место в модели, работающей с реальным речевым сигналом. Наконец, вслед за теориями типа аутосегментной фонологии допускается вариант представления, когда разные дифференциальные признаки относятся к разным уровням, соотносящимся по специальным правилам, а единая (единственная) цепочка дискретных линейных единиц, строго упорядоченных во времени, просто отсутствует, ср. [Stevens, 1986].

В любом случае признаковые матрицы, присутствующие в том или ином виде во всех подтипах обсуждаемой модели, характеризуются вероятностной природой; применительно к задачам линеаризации такая оценка отражает вероятность присутствия данного сегмента (обычно фонемы) в данной позиции. Обычный пример - преобразование последовательности типа [set], установленной по показаниям работы детекторов, анализирующих английскую речь, в фонологическую цепочку /aznt/: обнаруженная в сигнале назализация гласного перекодируется как информация о наличии носового согласного, степень же назализации находит свое отражение в приписывании вероятности присутствия согласного.

К сожалению, сколько-нибудь детальных сведений относительно этой очень важной проблемы - как перейти от нелинейного признакового пространства к линейным последовательностям фонологических единиц - в описаниях не содержится. Не говорится и о том, используется ли в процедурах линеаризации информация о соотнесенности формантных значений, спектральных срезов с осью времени.

Следующий этап в работе модели - обеспечение доступа к словарю: информация, полученная на выходе модуля, ответственного за линеаризацию фонологического представления, используется для поиска в пространстве словаря таких лексических единиц, которые наилучшим образом соответствовали бы полученным последовательностям признаковых матриц. Предполагается, что одновременно может использоваться информация о просодических характеристиках, а также о семантических и синтаксических ожиданиях (заметим, что источник той информации в моделях обсуждаемого типа остается неясным, а роль ее - скорее вспомогательной). Механизм действия модели на этой стадии заключается прежде всего в том, что особые процедуры должны оценивать вероятности совпадения тех или иных фонемных цепочек с экспонентами словарных единиц. Неопределенность решений в таких случаях может быть весьма значительной, особенно если учесть, что границы между словами по большей части неизвестны и, кроме того, в обрабатываемых цепочках вполне вероятны как недостающие, так и "лишние" фонемные сегменты.

Заключая обзор "признаковых" моделей, Д. Клатт пишет: "Вопросы, которые возникают в связи с полными характеристиками алгоритмов, извлекающих [из сигнала] признаки, не имеют простых ответов. Безусловно, не внушают оптимизма весьма ограниченные возможности систем распознавания, базирующихся на дифференциальных признаках, и алгоритмов их извлечения, о которых до сих пор сообщалось в литературе. Вполне возможно, что дифференциальные признаки составляют существенный аспект восприятия [речи], но едва ли стратегии их оценки будут простыми. К тому же я не думаю, что для лексического поиска окажется оптимальной последовательность признаковых матриц, которые носят характер фонологической или "широкой фонетической" записи" [Klatt, 1989, р.188].

Назад    Наверх    Вперед


* А.В. Венцов, В.Б. Касевич Современные модели восприятия речи: критический обзор
Проблемы восприятия речи // Издательство Санкт-Петербургского университета, Санкт-Петербург, 1994