Проект дистанционного обучения нейролингвистике

Глава 9 - Восприятие речи

9.4.4. Моделирование слуха

А.В. Венцов, В.Б. Касевич *

Назад    Наверх    Вперед


Введение

Содержание

Глоссарий

Библиография

Разработчики

Первоначально модели этого класса ограничивались лишь уровнем первичного спектрального анализа речевого сигнала. При их разработке использовались результаты психоакустических (психофизических) экспериментов, полученные методами маскировки. Очевидно, что параметры таких моделей отражали как особенности собственно периферического спектрального анализатора слуховой системы, так и алгоритмы принятия решений испытуемыми. Вряд ли целесообразно использовать подобные модели в качестве блока первичного анализа сигнала в полной функциональной модели восприятия речи: некоторые процедуры обработки сигнала окажутся учтенными в модели дважды - и в характеристиках первичного анализатора, и в правилах принятия решений.

С этой точки зрения более адекватными представляются модели, основанные на данных нейрофизиологии и учитывающие гидромеханические характеристики "улитки" внутреннего уха. Подобного рода модель в течение почти двух десятилетий разрабатывается и используется для анализа экспериментальных сигналов в лаборатории физиологии речи Института физиологии им. И.П.Павлова РАН [Чистович и др., 1986]. В ней, помимо характеристик "улитки", учтены эффекты двухтонового подавления и периферической кратковременной адаптации. Последующая обработка полученного с помощью модели представления речевого сигнала включает сегментацию (структура и параметры блока выбраны на основе психоакустических данных) и выделение локальных (по частоте) параметров спектра.

Аналогичные модели используются многими зарубежными исследователями. Некоторые из них расширены за счет введения блоков, воспроизводящих дальнейшие преобразования сигнала: латеральное торможение [Shamma, 1988] и получение синхронного спектра [Sachs, 1982; Seneff, 1988]. В последние годы (видимо, благодаря значительному увеличению мощности персональных ЭВМ) появились модели с элементами "нейронных сетей", воспроизводящие функциональные свойства не только "улитки" и волосковых клеток, но и нейронов кохлеарных ядер [Visual Representations..., 1993], что существенно расширяет возможности моделей в плане выделения признаков для первичного субъективного описания сигналов.

Спектральное представление сигнала на выходе таких моделей характеризуется тем, что в области первой форманты выделяются изолированные гармоники, особенно для женских голосов с высокой частотой основного тона. При использовании традиционного описания сегментов речевого потока в терминах формантных частот это создает дополнительную проблему оценки положения первой форманты по амплитудам соответствующих гармоник. Однако результаты психоакустических исследований [Чистович, Шупляков, 1971] показывают, что при восприятии гласных за первую форманту слушатель принимает именно максимальную гармонику в соответствующей частотной области.

Назад    Наверх    Вперед


* А.В. Венцов, В.Б. Касевич Современные модели восприятия речи: критический обзор
Проблемы восприятия речи // Издательство Санкт-Петербургского университета, Санкт-Петербург, 1994