Проект дистанционного обучения нейролингвистике

Глава 9 - Восприятие речи

9.4.7. Модель с использованием логики размытых (нечетких) множеств

А.В. Венцов, В.Б. Касевич *

Назад    Наверх    Вперед


Введение

Содержание

Глоссарий

Библиография

Разработчики

В настоящей модели, основным автором которой является Д. Массаро [Massaro, 1987], большое внимание (пожалуй, большее, чем в прочих моделях) удепяется формальному механизму, с помощью которого осуществляется переход от акустических признаков, обнаруживаемых в речевом сигнале, к сегментным единицам (фонемам или слогам). Особенностью модели является также использование не только акустической, но и визуальной информации (наблюдаемых губных артикуляций и т.п.).

Процедуры, описываемые Д. Массаро и его соавторами, относятся только к фонетической (в широком смысле) стороне языка и речи. Выделяются две основные стадии перцептивного процесса. На первой, как и во многих других моделях, в акустическом речевом сигнале детектируются акустические признаки. На второй с помощью установленной метрики оценивается степень близости данного акустического признака к его прототипическому, эталонному значению, ассоциированному с теми или иными фонемами (слогами). Указанная степень близости принимает вид числа в интервале от 0 до 1, т.е. от полного несовпадения до идеального совпадения; иначе говоря, используется логика размытых, или нечетких множеств, согласно которой вместо ответа "да/нет" на вопрос о принадлежности данного элемента некоторому множеству мы оцениваем меру принадлежности множеству (при вероятностной трактовке, принимаемой, впрочем, не всеми, - вероятность вхождения элемента в множество). Численное выражение меры близости выступает истинностным значением (вместо значений "истинно" и "ложно" в двузначной логике). Перемножая истинностные значения, соответствущие данным акустическим признакам, мы получаем ранг предпочтительности: величину, определяющую близость набора признаков тому идеальному, эталонному их комплексу, который отвечает той или иной фонеме или слогу. Деление истинностных значений на сумму рангов предпочтительности для всех фонем (или слогов) языка дает квазивероятностную оценку каждого из решений относительно идентичности фонемы (слога), принимаемого моделью.

Модель Массаро обнаружила достаточно высокую эффективность на материале, сильно ограниченном, впрочем, качественно и количественно (некоторые типы английских открытых слогов). Д. Клатт приводит фактические примеры, по его мнению, демонстрирующие материал, плохо поддающийся обработке процедурами Массаро [Клатт, 1987; 1989]. Опыты с синтезированной речью показывают, что акустические признаки, для мужского голоса обычно ответственные за назализацию - увеличение полосы частот, соответствующей F1, и возрастание интенсивности 1-й гармоники, для женского голоса оказываются связанными с фарингализацией (breathiness), характеризующейся специфическим шумом в частотной области выше 2 кГц. Но в английском языке (Д. Клатт обсуждает эксперименты выполненные на материале английского языка) нет фарингализованных фонем, следовательно, отсутствует прототип, эталон относительно которого оценивалась бы фарингализация. Таким образом, указанное реальное соотношение признаков с поправкой на пол диктора не может быть учтено в модели Массаро.

Тем не менее в целом модель Массаро, по мнению Д. Клатта, превосходит все существующие модели, пользующиеся обращением к признакам и сегментным единицам [Klatt, 1989, р.209].

Назад    Наверх    Вперед


* А.В. Венцов, В.Б. Касевич Современные модели восприятия речи: критический обзор
Проблемы восприятия речи // Издательство Санкт-Петербургского университета, Санкт-Петербург, 1994