Проект дистанционного обучения нейролингвистике

Глава 9 - Восприятие речи

9.4.5. Квазинейронные модели

А.В. Венцов, В.Б. Касевич *

Назад    Наверх    Вперед


Введение

Содержание

Глоссарий

Библиография

Разработчики

Первые попытки построения квазинейронных моделей (не применительно к восприятию речи) появились уже в конце 40-х годов [Неbb, 1949], интерес к ним особенно усилился начиная с 60-х годов [Rosenblatt, 1962]. Авторы этих моделей стремились к своего рода бионической адекватности моделей, т.е. к воплощению в моделях именно тех принципов, которые лежат в основе работы человеческого мозга и, шире, нервной системы человека (или других живых существ, в зависимости от решаемой задачи). Исходя из того, что для мозга характерны специализированные структуры, а также не менее характерна способность к обучению - формированию новых функциональных структур, квазинейронные системы старались конструировать таким образом, чтобы использовались либо предпрограммированные для тех или иных целей простые механизмы, либо структуры, способные к самообучению по особым алгоритмам. На развитие соответствующих представлений сильно повлияли и результаты в области искусственного интеллекта, согласно которым мозг достаточно плохо приспособлен к выполнению логических операций, обладает сравнительно низким быстродействием, но в то же время функционирует весьма эффективно в решении задач, связанных с параллельной обработкой больших массивов информации, с операциями классификации и сравнения.

Первые квазинейронные модели, основанные на алгоритмах самообучения, оказались способными лишь к классификации некоторых простых структур по признакам сходства между ними [Rosenblatt, 1962]. В логико-математических терминах это означает, что такого рода модели были эффективны лишь в обучении отношениям, описываемым с помощью первопорядковых предикатов.

Применительно к материалу, с которым имеет дело система восприятия речи, Д. Клатт приводит целый ряд примеров, когда логики первопорядковых предикатов недостаточно; в данном случае это означает, что одинаковые признаки могут потребовать разной интерпретации, а разные - одинаковой, если учесть контекст того или иного рода. В числе примеров, которые представлены в виде таблицы [Klatt, 1989, р.204, табл.1], фигурируют следующие:

- десинхронизация шумового и голосового источника, служащая признаком разграничения звонких и глухих смычных, почти одинакова для слогов [ра] и [gi]; иначе говоря, интерпретация акустического "ключа" для одного признака - звонкости - требует учета значений других признаков, в данном случае - места образования;

- коартикуляционное огубление [s] перед губными гласными в речи мужчин создает акустический эффект, который делает спектральные характеристики [s°] примерно такими же, как у [s] перед негубными гласными в речи женщин; таким образом, учитывая коартикуляционный эффект при классификации согласных, необходимо одновременно принимать во внимание еще один фактор - пол диктора;

- спектр взрыва [g] перед передними гласными близок к спектру взрыва [d] перед сгубленными гласными, т.е. и здесь собственные признаки согласных при их группировке предполагают обращение к идентичности последующего гласного;

- по правилам теории "локуса" начальная частота формантного перехода от шумного согласного к гласному определяется не только типом самого согласного, но и типом последующего гласного;

- величины формант для гласных обнаруживают зависимость от длительности последних, что, в свою очередь, существенным образом связано с позицией соответствующего слова во фразе и другими факторами; иначе говоря, и в данном случае классификация, группировка гласных по их формантным величинам требует механизма, который помогал бы "отстроиться" от возмущений, вносимых влиянием синтаксической позиции, просодического выделения с целью эмфазы и т.д.


К примерам Д. Клатта, часть из которых мы привели в силу их достаточной красноречивости, можно было бы добавить, конечно, еще многие (например, близость спектральных характеристик [а] между мягкими и [с] между твердыми в русском языке) . По существу, здесь - на материале построения моделей нового типа - речь идет о старых проблемах, которые известны столь же давно, сколь существует фонология: фонетически разные сегменты могут быть тождественными фонологически (функционально) и наоборот.

В квазинейронных моделях, разрабатываемых как самообучающиеся системы, одним из формальных средств, которые предназначены для преодоления "первопорядковой ограниченности", выступает введение так называемых промежуточных единиц (hidden units). Содержательно использование промежуточных единиц означает появление в модели элементов внутреннего представления отображаемых явлений: если в ранних версиях, которые осуществляли группировку тех или иных явлений, объектов путем их прямого сличения (фактически - наложения), вход и выход были соединены непосредственно, то здесь вход и выход опосредованы промежуточным отображением на код внутренних для модели единиц. (Примечание. Нетрудно видеть в этих представлениях сходство с эволюцией бихевиористских моделей в психологии: если в раннем, ортодоксальном бихевиоризме поведение описывалось схемой "стимул - реакция", то в необихевиоризме связь реакции со стимулом опосредована внутренними промежуточными переменными, отражающими состояние (в широком смысле) организма.)

Таблица 1.
Матрица истинности для операции строгой дизъюнкции (1- "истинно", 0- "ложно").

Вход Выход
00->0
01->1
10->1
11->0

Простейшую модель с использованием промежуточных единиц Д. Румельхарт, Дж. Хинтон и Р. Уильямс демонстрируют на формальном аналоге операции строгой дизъюнкции, т.е. исключающего "или" [Rumelhart, 1988]. Авторы со ссылкой на работу М. Минского и С. Пейперта о перцептронах [Minsky, Papert, 1969]отмечают, что при формальной обработке обычной матрицы истинности для строгой дизъюнкции средствами самообучающейся модели, которая "умеет" только группировать структуры по их внешнему сходству, результат оказывается парадоксальным: структуры, обладающие наименьшим сходством, должны получить одинаковое отображение и наоборот (табл. 1).

Введение всего одной промежуточной единицы, как на рис. 1, дает работающую систему, которая воспроизводит функционирование "реле", реализованного в квазинейронной сети и основанного на отношении строгой дизъюнкции. Поясним работу этой системы [Rumelhart, 1988, р.319-320].

Рис. 1. Модель операции строгой дизъюнкции с использованием промежуточного узла (промежуточной единицы) [Rumelhart, 1988].

Числа, помещенные а кружочках, отражают условные величины, функционирующие в качестве пороговых; так, пороговое значение 0,5 для выходного узла системы (логически отвечающего истинностному значению строгой дизъюнкции) означает, что он активируется, срабатывает (логически - приобретает значение "истинно"), когда общий уровень активации, передающейся выходному узлу в силу активации входных узлов и/или промежуточного (промежуточной единицы), превышает +0,5. Численные величины на стрелках схемы указывают на веса, задающие уровень активации соответствующих узлов сети.
Таким образом, когда активируется, "включается" (логически - приобретает значение "истинно") любой из входных узлов, что дает количественно уровень в +1, активируется и выходной узел (принимает значение "истинно"). Когда же в состоянии активации находятся оба входных узла, они соединяются с выходом через промежуточный узел. В этом случае "уровень возбуждения", достигающий выходного узла, не превышает порогового (1,5-2 или 1,5-2+1+1, если допустить параллельную, минуя промежуточную единицу, связь входных узлов с выходными). Иначе говоря, в указанных условиях выходной узел не активируется, или, в логических терминах, ему соответствует значение "ложно".
Такого же типа схемы, только, разумеется, значительно более сложные, используются в квазинейронных моделях восприятия речи. Сущность их заключается в том, что самообучающаяся система учится соотносить с входными сигналами функционально, поведенчески адекватные реакции с учетом многообразных зависимостей значимости этих сигналов от контекста и прочих факторов. Стабилизировавшаяся система такого рода функционирует в многопризнаковом пространстве, для которого она устанавливает достаточно сложную систему импликативных связей ("если X, то У"), оцениваемых к тому же количественно через придание им соответствующих весов.
Д. Клатт отмечает, что подход авторов квазинейронных моделей не слишком отличается от известного по статистическим моделям распознавания образов [Klatt, 1989]. Это, по-видимому, некоторое преувеличение, ибо статистические модели в типичном случае не прибегают ни к алгоритмам самообучения, ни к внутреннему представлению сигнала, что существенно для моделей квазинейронного типа.

Назад    Наверх    Вперед


* А.В. Венцов, В.Б. Касевич Современные модели восприятия речи: критический обзор
Проблемы восприятия речи // Издательство Санкт-Петербургского университета, Санкт-Петербург, 1994