Проект дистанционного обучения нейролингвистике

Глава 9 - Восприятие речи

9.4.3. Модель LAFS

А.В. Венцов, В.Б. Касевич *

Назад    Наверх    Вперед


Введение

Содержание

Глоссарий

Библиография

Разработчики

Рассматриваемая модель лексического доступа через спектры (Lexical Access From Spectra, LAFS) принадлежит Д. Клатту [Klatt, 1980; 1989]. Автор выделяет 4 положения, отличающие его модель от других систем, моделирующих восприятие речи [Klatt, 1989, р.192-193]:

(1)исходным моделируемым явлением речи выступает фонетический переход; предполагается, что любой фонетический переход может быть представлен с любой степенью точности через некоторый набор спектров, образующих последовательность, или же с помощью нескольких таких наборов, являющихся альтернативными;

(2) описанные подобным образом участки речевого сигнала непосредственно сличаются со словарными единицами; иначе говоря, каждой единице ментального лексикона должен быть сопоставлен ее спектральный эталон, хранящийся в долговременной памяти;

(3) фонетическая вариабельность гласных и согласных как внутри слова, так и на словесных границах отражается в модели с помощью декодирующей сети, в которой учтены спектральные характеристики всех возможных сочетаний данного языка;

(4) в модели используются процедуры, оценивающие функцию сходства между фонетическими (спектральными) характеристиками входного сигнала и характеристиками словарных спектральных эталонов; результатом действия процедур, основанных нa представлении о такого рода метрическом пространстве, выступает список словарных единиц, ранжированных по величине функции сходства относительно спектральных характеристик входного сигнала.

Первое из приведенных положений Д. Клатт иллюстрирует с помощью примера перехода от начального согласного [t] к гласному [а] в английском языке. Характеристики этого перехода аппроксимируются с помощью последовательности из 5 статических спектров, представляющих собой огибающую энергии в соответствующих критических полосах (static critical-band spectra). Первый из последовательности спектров отражает период паузы (т.е., артикуляторно, смычки согласного), второй - взрыва, третий - аспирации (придыхания), четвертый - момент включения голосового источника, пятый - квазистационарного участка гласного (vowel midpoint).

Декодирующая сеть, о которой говорится в третьем из приведенных положений, строится в терминах дифонов - участков речевой цепи от "центра" согласного до "центра" гласного или, наоборот, в слогах СГ или ГС соответственно - и переходов от одного дифона к другому. Каждый дифон с его внутренним переходом отражается в модели самостоятельным спектральным эталоном, при этом учитываются все варианты, возникающие в тех или иных контекстах. Если система "работает" с единицами, принадлежащими словарю, т.е. со знакомыми словами, то обращения к фонетическим признакам, равно как и к индивидуальным сегментным единицам, не происходит, все процедуры имеют дело лишь со спектральными характеристиками как таковыми.

Декодирующая сеть, выработанная для входного речевого сигнала, "налагается" на словарную сеть для оценки меры их близости. Словарная сеть генерируется в три этапа. Первый этап заключается в построении фонологических деревьев, которые отражают синтагматические цепочки фонем, образующие экспоненты словарных единиц. Эти деревья могут пересекаться, иметь общие части - поддеревья, поскольку слова могут совпадать (начальными) частями своих экспонентов, ср. [kan] в control и convert; см. также рис. 1.

Рис. 1. Этапы фонетического оформления слов limb, list, summer, sum в модели LAPS [Klatt, 1989, р.195].

А - представление экспонентов слов посредством фонологического дерева; Б - преобразование фонологического дерева в фонетическую сеть с учетом вариантов произнесения; В - преобразование фонетической сети в сеть спектральных эталонов (обозначенных условными номерами).

Следующий этап состоит в превращении фонемного дерева в фонетическую сеть, где узлами выступают уже не фонемы, а их фонетические корреляты с учетом всех возможных вариантов, в том числе и тех, которые появляются на словесных границах (рис. 1).

Наконец, третий этап заключается в том, что символам фонетической (узко-фонетической) транскрипции - именно так можно интерпретировать узлы фонетических сетей - сопоставляются последовательности спектральных эталонов, взятых из универсального словаря последних, где им условно присвоены порядковые номера (рис. 2). Именно с такой сетью, образованной последовательностью спектральных эталонов, сличается в принципе аналогичная декодирующая сеть, выработанная в результате анализа входного акустического сигнала.

Сам автор, Д. Клатт, следующим образом оценивает сравнительные достоинства и недостатки собственного подхода [Klatt, 1989, р.194-195].

Положительные стороны модели он видит в следующем:

(1) используемые процедуры не требуют предварительной сегментации, что являлось бы потенциальным источником ошибок;

(2) модель обходится без принятия решений относительно дифференциальных признаков или фонетических сегментов, что также является источником ошибок и одновременно сопряжено с утратой полезной информации о характеристиках аллофонов в различных контекстах, включая просодические;

(3) не требуется предположений, связанных с признанием инвариантности фонетических единиц; любые фонетические сегменты, их последовательности могут рассматриваться как обладающие собственной структурой;

(4) спектральные эталоны для слов могут модифицироваться в результате обучения системы, при этом перенастройка выполняется текущим образом, и результаты ее не обязательно закрепляются, т.е. опасности сверхгенерализации не возникает;

(5) оценка подобия, устанавливающая меру близости данного сегмента речевого сигнала единице словаря, едина для всей сети, ее использование основывается на понятии унифицированной функции спектрального сходства, служащей для измерения воспринимаемого "расстояния" между спектрами и допускающей вероятностное выражение;

(6) модель исключает опасность принятия ранних решений, которые затрудняли бы внесение коррекций в случае необходимости, ибо уже самое первое решение принимается применительно к отождествлению со словарной единицей. Говоря о недостатках модели, Д. Клатт отмечает, что:

(а) возможно, не удастся разработать достаточно эффективные процедуры оценки меры сходства между спектрами, чтобы они "справлялись" со всеми типами вариабельности речевого сигнала, которые можно наблюдать в реальных фонетических исследованиях;

(б) трудности могут возникнуть в связи с задачей приведения спектров к некоторому нормальному виду для преодоления вариабельности, связанной с индивидуальными особенностями разных носителей языка;

(в) некоторые типы вариабельности, такие, как разная степень распространения назализации на гласный, соседствующий с носовым согласным, можно отразить в модели лишь путем введения семейства альтернативных спектральных эталонов, но такой путь практически невыполним, если учесть огромное число степеней свободы, присущее артикуляторам, ответственным за данный процесс;

(г) трудно представить себе процессы, с помощью которых в модели можно было бы отразить все типы фонетического взаимодействия, представленные на границах слов.

В своем обзоре Д. Клатт рассматривает некоторые возможности преодоления ограниченности собственной модели, на чем мы не будем останавливаться. Отметим лишь, что и те свойства модели LAFS, которые выделяются в качестве ее достоинств, вообще говоря, не во всех своих пунктах выглядят таковыми. Скажем, отказ от сегментации представлен как средство избежания ошибок, связанных с неверным членением акустического сигнала. Но чем операция сегментации отличается от операции идентификации, которая тоже носит с неизбежностью вероятностный характер и в этом смысле равным образом связана с риском ошибки? Можно утверждать, что "удачная" сегментация - там, где она реальна, - резко повышает шансы адекватной идентификации, которая выступает конечной целью перцептивных процедур.

В целом понятно стремление Д.Клатта по существу свести весь перцептивный процесс к одной процедуре - сличению наблюдаемого спектра со спектром словарной единицы как целостного образования. Однако, если говорить о модели восприятия речи (а не о распознающей системе, не связанной требованием воспроизвести ее естественный прототип), то положение о целостности слова, его экспонента едва ли следует трактовать столь прямолинейно. Действительно, есть основания говорить об общем "фонетическом облике" слова, см. об этом [Зиндер, Касевич, 1989]. Но фонетическая целостность слова проявляется в наличии признаков, свойственных ему как таковому (акцентный контур, сингармоническая модель, признаки начала, конца, середины слова), а также в возможности достраивать до целого облик слова по части его признаков. Иначе говоря, речь должна идти о стратегиях холистского восприятия в противоположность элементаристскому, а не о спектральной картине слова в целом.

Наконец, к этому надо добавить, что если допустить практически неограниченный объем памяти и неограниченное быстродействие, то, возможно, модель типа LAFS действительно окажется в состоянии осуществлять поиск слов в словаре на основании сличения целостных спектров. Но вряд ли можно утверждать, что это будет именно модель восприятия речи человеком. Можно представить себе, что естественные системы человека прибегают к генерированию спектров, отвечающих словам, для сличения с ними спектров входного сигнала: способность такого рода предполагается тем тривиальным обстоятельством, что слушающий является потенциальным говорящим, и при таком допущении LAFS предстала бы вариантом модели анализа через синтез. Ее особенность заключалась бы в холистско-фонетической природе перцептивных процедур. Но трудно признать, что в словаре хранятся спектральные эталоны слов как таковых.

Впрочем, само это положение тоже не вполне ясно. С одной стороны, в изложении Д. Клатта содержатся утверждения о том, что модель как будто бы осуществляет сличение спектра сигнала со спектром целостного слова. С другой стороны, детали описания указывают, скорее, на то, что речь идет о спектральных характеристиках таких явлений - смычка, взрыв, аспирация и т.п., которые вполне можно истолковать в качестве коррелятов "обычных" дифференциальных признаков. В этом случае основное отличие модели LAFS от других заключается, пожалуй, в достаточно последовательном неразличении того, что традиция противопоставляет как фонологические и фонетические аспекты звуковой стороны языка и речи. Например, в описании английского слога [ta] используется признак "придыхательность" (см. выше), который для английской системы не является фонологическим, дифференциальным. (Примечание. В то же время не приходится отрицать, что в определенных условиях восприятия речи лридыхательность действительно может приобретать роль перцептивного сигнала глухости согласного.)

В модели LAFS фонемы практически не играют какой бы то ни было роли в перцептивном процессе (хотя, надо заметить, модель содержит подсистему SCRIBER, основная задача которой - посегментный анализ незнакомых слов).

Назад    Наверх    Вперед


* А.В. Венцов, В.Б. Касевич Современные модели восприятия речи: критический обзор
Проблемы восприятия речи // Издательство Санкт-Петербургского университета, Санкт-Петербург, 1994