Проект дистанционного обучения нейролингвистике

Глава 9 - Восприятие речи

9.4.12. Заключение

А.В. Венцов, В.Б. Касевич *

Назад    Наверх    Вперед


Введение

Содержание

Глоссарий

Библиография

Разработчики

Как можно видеть, многие модели, и прежде всего кортежные, делают акцент на работе со словарем: распознавание слова - это отождествление входного сигнала с той или иной единицей словаря. Такой подход, во многом базирующийся на нисходящих - "сверху вниз" - процедурах, полностью оправдан. Однако К. Фаулер, рецензируя коллективную работу "Cognitive models of speech perception", справедливо замечает, что ни в одной из рассматриваемых там моделей не представлен "a front end", т.е. "компонент, в котором признаки, фонемы или какие-либо другие единицы извлекались бы из сырого акустического сигнала..." [Fowler, 1991, р.183]. Она же указывает, что нельзя не учитывать процессы усвоения языка, когда распознаются новые слова, добавляясь к еще только формирующемуся словарю (то же можно сказать о словах, новых для взрослого носителя языка).

Здесь фактически присутствуют две проблемы. Первая - это выделение психоакустических процедур, которые лишь поставляют материал - еще достаточно "сырой" - для принятия фонологических решений. Никакие стратегии обращения к словарю невозможны с использованием самих по себе результатов работы соответствующего модуля. Вторая проблема - различение фонологических и лексических решений. Из признания важности обращения к словарю никак не следует, что распознавание слов невозможно помимо словаря: безусловно, возможно и в ряде случаев необходимо фиксирование структурированных фонологических последовательностей, которым сопоставлены либо не сопоставлены (когда это новое, незнакомое слово) определенные значения.

К сожалению, в очень содержательных, богатых экспериментальными данными и тонкими наблюдениями работах, посвященных проблемам идентификации слов (кроме уже обсуждавшихся, можно упомянуть статьи [Becker, 1980; Cairns, Hsu, 1980; Forster, 1981; Gordon, Caramazza, 1985; Seidenberg, Tanenhaus, 1986], недостаточно четко трактуется центральное понятие лексического доступа, доступа к словарю, лексической идентификации (lexical access). Предлагаются понятия постлексического (post-access) механизма, различаются предлексические процессы, сам лексический доступ и постлексические процессы, см., например, [Seidenberg, Tanenhaus, 1986, р.138-139], где под предлексическими процессами понимается "анализ сенсорных стимулов". Однако важно сознавать, что анализ сенсорных стимулов вообще не может иметь отношения к лексике, он лишь дает, как, в сущности, уже говорилось, описание сигнала в некоторой метрике. Когда авторы кортежных моделей говорят о сравнении цепочек фонем с "сенсорным входом", тем более, когда говорят о "словах ментального лексикона с той же ... сенсорной последовательностью" [Tyier, Wessels, 1983, р.409], это нельзя трактовать иначе, как недоразумение. В словаре лексем заведомо невозможны единицы сенсорного уровня, а "сенсорный вход" не несет фонологической информации как таковой.

Идентификация слова может быть лишь двух видов:

(а) фонологическая, когда устанавливается звуковая последовательность, соответствующая правилам данного языка (при акустическом сигнале, вырожденном в той или иной степени, мы можем иметь дело с классом словоподобных единиц, между которыми надлежит сделать выбор, или же со звуковой цепочкой, не полностью идентифицированной с фонологической точки зрения),

(б) полная идентификация, когда речевая последовательность акустических событий отождествляется в итоге с некоторой словарной единицей, и таким образом, воспринятому, идентифицированному слову приписывается фонологической, грамматической, семантической и иной информации ровно столько, сколько "имеет" в словаре конкретного носителя языка данная единица.

Реалистичной представляется точка зрения тех исследователей, которые предполагают наличие множественных источников информации, среди которых может быть и тип начальной подцепочки, и тип подцепочки конечной, и акцентный контур слова [Касевич и др., 1990b; Slowiaczek, 1990], и ударный гласный, и гиперпризнаки, отражающие способ артикуляции [Pisoni, 1985]. Пизони и его соавторы показали, в частности, что на материале словаря в 125 тыс. слов использование начальной и конечной подцепочек для формирования класса поиска дает примерно одинаковые результаты [Pisoni, 1985].

Положение о множественности источников информации, отказ от поиска какой-то единственной процедуры, обеспечивающей доступ к словарю, носит принципиальный характер.

Именно на сочетании представлений об относительной автономности различных блоков модели, их иерархическом соотношении и систематическом взаимодействии основан подход авторов настоящей монографии.

Что же карается моделей, рассмотренных выше, то ни одна из них, конечно, не претендует на полное воспроизведение процесса восприятия речи, ибо ни одна не дает системы формализованных правил преобразования речевого сигнала на всех этапах его обработки в слуховой системе - от исходных акустических параметров до символьного представления. Некоторые из этих моделей являются, скорее, специализированными инженерными системами, предназначенными для решения ограниченного круга задач, связанных с автоматическим распознаванием речи.

Вместе с тем каждая содержит элементы, которые гипотетически могли бы быть частью такой естественной системы и могут быть использованы при создании полной функциональной модели восприятия речи. Эти элементы (уровни обработки, блоки, модули, субмодули) образуют две большие группы, различающиеся функционально:

(1) элементы, осуществляющие переход от акустического (внешнего) представления речевого сигнала к субъективному (внутреннему) параметрическому представлению;

(2) элементы, производящие на основании полученного внутреннего представления описание сигнала в терминах единиц того языка, носителями которого являются говорящий и слушающий.

Обработка сигнала в блоках первой группы производится только "снизу вверх", и ее принципы, по-видимому, одинаковы для любых акустических сигналов. Блоки второй группы связаны между собой перекрестными прямыми и обратными связями, обработка в них производится не только "снизу вверх", но и "сверху вниз", т.е. используются процедуры анализа и "анализа через синтез".

Таким образом, правила, по которым внешнее представление сигнала преобразуется во внутреннее, и соответственно структура этого представления определяются только анатомо-морфологическим строением соответствующих отделов слуховой системы. Принципы же создания символьного описания сигнала (принятия решений о дискретных языковых единицах) зависят также от свойств обрабатываемого сигнала и прижизненно складывающихся связей в высших отделах мозга. Собственно говоря, именно здесь и может быть проведена граница, разделяющая полную функциональную модель восприятия речи на две достаточно независимые подмодели. Казалось бы, эта относительная независимость обеспечивает возможность их раздельного исследования и разработки алгоритмов для последующего включения в модель. Однако на практике это оказывается невозможным, так как по вполне понятным причинам мы лишены прямого доступа к внутреннему представлению сигнала в естественной системе восприятия речи.

С этим связана едва ли не главная проблема, возникающая при разработке и практической реализации полной модели - проблема адекватного ее тестирования, т.е. проверки заложенных в модель алгоритмов на их соответствие тому, что имеет место в реальной естественной системе. Оказывается, что практически ни один из элементов модели не может быть исследован, реализован и тестирован изолированно от целостной модели всей системы.

Еще одна серьезная проблема, которую большинство авторов описанных выше моделей стараются обойти тем или иным способом, - это проблема сегментации непрерывного речевого потока на последовательность дискретных отрезков, поддающихся описанию в терминах языковых единиц разного уровня.

Назад    Наверх    Вперед


* А.В. Венцов, В.Б. Касевич Современные модели восприятия речи: критический обзор
Проблемы восприятия речи // Издательство Санкт-Петербургского университета, Санкт-Петербург, 1994