Проект дистанционного обучения нейролингвистике

Глава 9 - Восприятие речи

9.4.2. Модель LAFF

А.В. Венцов, В.Б. Касевич *

Назад    Наверх    Вперед


Введение

Содержание

Глоссарий

Библиография

Разработчики

Некоторые недостатки "признаковых" моделей ставит своей целью преодолеть другая модель, которая также оперирует дифференциальными признаками, но с использованием иных стратегий. Это так называемая модель лексического доступа через признаки (Lexical Access From Features, LAFF), разрабатываемая главным образом К. Стивенсом [Stevens, 1986].

Основные особенности обсуждаемой модели заключаются в следующем. Используемые признаки трактуются как универсальные и бинарные. Каждому признаку сопоставлены некоторые акустические корреляты, поиск которых в речевом сигнале осуществляется а пределах отрезков, определяемых независимо. Так, если модель "имеет дело" со слоговым пиком, то для этого отрезка оцениваются корреляты признаков "высокий", "низкий", "задний", "сгубленный", "напряженный", "назальный", "несжатогортанный (spread glottis)", "сжатогортанный (constricted glottis)"; если же вместо слогового пика представлены отрезки, характеризующиеся резкими спектральными изменениями, шумовыми составляющими, то вступают в дело другие признаки со своими коррелятами - "непрерывный", "сонорный", "согласный", "звонкий", "яркий (strident)", "корональный", "передний", "распределенный", "боковой". Поиск акустических коррелятов признаков, таким образом, заранее сориентирован на участки речевого сигнала, отвечающие некоторым требованиям; возможны и такие участки, которые, не отвечая соответствующим критериям, вообще не анализируются (don't-care regions).

Таблица 1. Исходная признаковая матрица для словарного описания экспонента слова pawn

Таблица 2. Признаковая матрица экспонента слова pawn, модифицированная для облегчения сопоставления с набором признаков, полученным действием перцептивной модели

Признаки в принципе не группируются таким образом, чтобы в итоге получались единицы, упорядоченные во времени. Иначе говоря, этап линеаризации здесь отсутствует. Лексический поиск осуществляется посредством прямого сравнения признаковых матриц, полученных путем обработки акустического сигнала, с аналогичными матрицами, характеризующими лексические единицы в словаре. При этом предполагается, что в самом словаре лексическим единицам (их экспонентам) сопоставлены модифицированные варианты матриц, специально предназначенные для облегчения сравнения. В таблицах показано, как отличается исходная признаковая матрица английской словарной единицы pawn (табл. 1) от ее же варианта, используемого для сравнения с ним набора признаков, полученного действием перцептивной модели (табл. 2) [Klatt, 1989].

Как можно видеть, в модифицированной "квазиперцептивной" (предположительно ориентированной на восприятие) матрице не проставлены значения признаков, которые можно считать перцептивно иррелевантными. Кроме того, данный вариант матрицы призван не только дать сам набор признаков, но и указать на то, "где" следует искать акустические корреляты этих признаков. Так, признак "несжатогортанный" указывает на придыхательность начального сегмента в слове pawn, но придыхание акустически реализуется после раскрытия смычки согласных и перед началом включения голосового источника при переходе к гласному, поэтому знак "плюс", отвечающий данному признаку, помещается между столбцами для [р] и [э]. Аналогичным образом, наличие/отсутствие звонкости, как и придыхания, оценивается лишь в контексте отрицательного значения признака "сонорность", что и объясняет расположение в матрице соответствующих знаков. Местоположение знака "плюс" для признака "назальность" между столбцами для [э] и [п] связано с тем, что в звучащем тексте носовой согласный может быть реализован в виде назализации конечной фазы предшествующего гласного.

Значения признаков, принадлежащие одному и тому же столбцу матрицы, образуют особый уровень (tier), и полное описание складывается в результате взаимодействия разных уровней. Можно сказать, что тем самым отсутствие информации о временных соотношениях дискретных единиц в составе экспонента лексической единицы в известной степени компенсируется внутриматричными указаниями на положение акустических ключей (коррелятов), ответственных за те или иные признаки, относительно исходной речевой волны. (Мы воздерживаемся от обсуждения самой используемой системы признаков).

Предполагается, что поиск в словаре осуществляется путем прямого сличения набора признаков, извлеченного из акустического сигнала, с модифицированной "квазиперцептивной" матрицей, которая выступает присловной характеристикой каждой единицы а составе словаря. Используется также дополнительная информация о сравнительных весах разных признаков. Обращение к признаку, которому приписан меньший перцептивный вес, приводит к повышению "стоимости" решения при том, что в модель встроен механизм, отбирающий решения, самые низкие по "стоимости". Впрочем, детальные разработки, касающиеся такого рода механизмов, пока отсутствуют.

По мнению Д. Клатта, к сильным сторонам модели LAFF, разрабатываемой К. Стивенсом, принадлежит именно то, что он обходится без сложных процедур линеаризации фонологического представления, да и вообще по существу без разграничения представлений разного уровня абстрактности. Кроме того, в идеале процедуры, предусмотренные данной моделью, должны обеспечить ситуацию, когда детекторы признаков без промежуточных перекодировок дают непосредственно те характеристики, на основании которых осуществляется лексический поиск в словаре; детекторы в этом случае оценивают некоторые инварианты отношений между параметрами, а также те или иные количественные соотношения.

В то же время модель далеко не снимает общие трудности, связанные с самим понятием признака (в частности, вопрос о взаимозависимости признаков, об использовании правил взаимодействия акустических ключей и др.). Недостатками, с точки зрения Клатта, следует считать также отказ от вероятностных оценок в пользу оценок по принципу "да/нет" или наряду с ними, равно как и общую картину, при которой оказывается, что описание звуковой стороны лексических единиц применительно к речевосприятию является менее абстрактным по сравнению с тем же описанием, ориентированным на речепорождение.

Суммируя обсуждение модели LAFF, Д. Клатт отмечает, что К. Стивенс предпринял радикальный отход от традиционных представлений, связанных с использованием признаков в моделях восприятия речи.

Результатом явилось радикальное упрощение перцептивных процедур, при использовании которых небольшого набора признаков достаточно для перехода от акустического речевого сигнала к словарным единицам языка. Однако существующие системы распознавания вряд ли обещают достижение этой цели в ближайшем будущем на путях, предполагаемых моделью LAFF [Klatt, 1989, р.191-192].

Добавим, со своей стороны, что надежда на простые решения, которые обеспечивали бы эффективную идентификацию языковых единиц по небольшим наборам признаков, может оказаться вполне реалистичной, если поиск осуществляется в критически ограниченном (за счет использования просодической информации, синтаксических и семантических ожиданий и т.п.) подпространстве словаря.

Что касается гетерогенности систем представления для звукового аспекта порождения и восприятия речи, то Д. Клатт безусловно прав, когда склоняется к более традиционным взглядам, согласно которым обе стороны речевой деятельности - речепорождение и речевосприятие - обслуживаются одной и той же системой фонологических единиц. Однако это относится именно к фонологическим системам, прежде всего, к системам фонем. Если же говорить о фонологическом представлении языковых единиц (их экспонентов) и под степенью абстрактности понимать реально степень подробности, необходимой для реализации перцептивных или же моторных задач, то ситуация будет существенно иной. При восприятии речи, особенно в условиях информационно насыщенной среды, сильно сужающей поле выбора, может оказаться достаточным и весьма примитивный набор признаков - т.е. экспоненту лексической единицы в целом достаточно будет приписать сколь угодно простую фонологическую характеристику, в этом смысле предельно абстрактную (ср., например, достаточность признака назальности для идентификации слова нет в условиях, когда поле поиска сужено до выбора между да и нет). В то же время при порождении речи описание звуковой стороны языковой единицы всегда будет максимально подробным (если не считать автоматических коррекций в силу коартикуляции и т.п., которые могут реализовываться, в терминах Бернштейна, по "принципу цепочки"): говорящий не может "опустить" какую бы то ни было характеристику звукового оформления, предписанную системой и нормой [Касевич, 1983].

Иначе говоря, уровень подробности (абстрактности?) записи словарных единиц в моделях порождения и восприятия речи действительно может различаться в зависимости от аспекта речевой деятельности - речепорождения или речевосприятия, но меньшая степень детализированности ассоциируется с восприятием, а не порождением речи (ср. выше).

Назад    Наверх    Вперед


* А.В. Венцов, В.Б. Касевич Современные модели восприятия речи: критический обзор
Проблемы восприятия речи // Издательство Санкт-Петербургского университета, Санкт-Петербург, 1994