Проект дистанционного обучения нейролингвистике

Глава 9 - Восприятие речи

9.4.6. Модель взаимной активации

А.В. Венцов, В.Б. Касевич *

Назад    Наверх    Вперед


Введение

Содержание

Глоссарий

Библиография

Разработчики

Эта модель, известная больше под названием TRACE, принадлежит Дж. Элману и Дж. Мак-Клелланду [Elman, McClelland, 1986; Frauenfelder, Peelers, 1990]. В некоторых важных отношениях основные принципы, на которых базируется данная модель, напоминают о концепциях, известных по фонологической литературе; в частности, можно усмотреть некоторые аналогии с теорией стратификационной фонологии С. Лэма [Lamb, 1970; 1972; Касевич, 1983].

Структура модели TRACE представляет собой иерархически устроенную сеть, узлами которой выступают дифференциальные признаки, фонемы и слова. Признаки многозначны, каждому из значений признака соответствует детектор обнаружения соответствующих акустических параметров. Все признаки, фонемы, слова могут находиться в состоянии активации той или иной степени, которая в модели оценивается условным интервалом от -0,3 до 1. Внутри этих пределов степень активации каждой конкретной единицы определяется ее взаимодействием с другими единицами как того же, так и других уровней, а активация дифференциальных признаков - главным образом параметрами входного акустического сигнала. Сила, с которой одна единица воздействует на другую, повышая или понижая ее активированность активированностью собственной, зависит от связи между ними, также оцениваемой количественно; сила этой связи для каждой индивидуальной пары (например, "признак Q - фонема X", "фонема Х - фонема Y") принадлежит к числу (перенастраиваемых) параметров модели.

Для входного акустического сигнала определяется квантование на элементарные временные отрезки; для каждого такого отрезка модель устанавливает значения всех признаков. Принимается, что фонеме отвечает последовательность из шести элементарных отрезков, однако признаковая информация о каждой фонеме интегрируется относительно каждых трех элементарных отрезков, что обеспечивает перекрытие "фонемных отрезков" во времени, предположительно моделируя процессы коартикуляции.

Признаковый узел, пришедший в состояние возбуждения (активированности) в силу воздействия акустического сигнала, приводит в то же состояние все обладающие им фонемы; например, обнаружение в сигнале "звонкости" активирует все звонкие фонемы. В свою очередь, активируются слова, экспоненты которых содержат ту или иную фонему; уровень их активированности зависит от степени активации фонемы и силы связи между данной фонемой и словом. Возможно и обратное, когда слово, активированное в силу действия каких-то факторов высших уровней, например, высокой частотности, активирует соответствующие фонемы.

Важной особенностью модели TRACE является использование не только возбуждения, активации, но и торможения (lateral inhibition). Например, если детектор, специализированный на выявлении признаков гласных, фиксирует наличие характеристики переднего гласного, то в интервале, отвечающем длительности предшествующего согласного, подавляется ("тормозится") функционирование всех детекторов установления места образования, кроме тех, что специализированы на опознании согласных перед передними гласными. Одно слово может подавлять уровень активированности другого. Длинные слова имеют более высокие шансы на распознавание, поскольку, обладая более высоким суммарным уровнем активации, успешнее подавляют "соперничающие" единицы.

Фонема или слово оказываются идентифицированными, когда уровень их возбуждения принимает значение, превосходящее степень активированности всех других фонем или слое для данного временного отрезка речевого потока. Предлагаются количественные формулы, по которым вычисляется вероятность выбора той или иной единицы при данных параметрах системы и входного сигнала.

Модель TRACE не предусматривает специальной процедуры сегментации; принимается, что начало слова может соответствовать любой идентифицированной фонеме, так что система исследует вероятности поступления на вход нового слова в каждой "фонемной" точке речевой цепи. Такой подход, по мнению К. Фаулер, с которым следует согласиться, является неэкономным и вообще едва ли реалистичным [Fowler, 1991, Р.179].

Модель TRACE принадлежит к числу наиболее разработанных, имеются компьютерные версии, в той или иной степени воплощающие принципы этой модели. Тщательное исследование Э. Бард [Bard, 1990] как будто бы свидетельствует об избыточности механизма торможения, без использования которого модель дает те же результаты.

Близка к TRACE модель динамической сети Д. Норриса [Norris, 1990], использующая, подобно квазинейронным сетям, понятие промежуточных (hidden) единиц. Норрис опирается на работу М. Джордана, в которой моделируются процессы порождения речи. В системе Джордана имеются входные узлы, или единицы планирования (plan units), которые соединены с промежуточными узлами, а уже последние соединены с выходными. Помимо этого, выходные узлы связаны с текущими узлами (state units); последние отражают текущее состояние системы и тоже обладают связями с промежуточными узлами. Соответственно состояние системы на выходе определяется активацией не только со стороны входа (через посредство промежуточные узлов), но также предыдущими ее состояниями, информацию о которых хранят текущие узлы. В варианте Норриса планирующие узлы Джордана берут на себя функцию входа, который осуществляет прием акустической информации, выходом же выступают идентифицированные лексические единицы.

Важной особенностью этой модели Норриса является ее способность к самообучению и учету временных параметров, что требуется, в частности, при изменении темпа речи.

Назад    Наверх    Вперед


* А.В. Венцов, В.Б. Касевич Современные модели восприятия речи: критический обзор
Проблемы восприятия речи // Издательство Санкт-Петербургского университета, Санкт-Петербург, 1994