Проект дистанционного обучения нейролингвистике

Глава 9 - Восприятие речи

9.5.2. Современные модели восприятия и образования речи

Ю.И. Кузьмин *

Назад    Наверх    Вперед


Введение

Содержание

Глоссарий

Библиография

Разработчики

Наиболее общие представления о процессах образования и восприятия речи сформировались под влиянием следующего допущения. Исследователи явно или не явно исходили из того, что субъективное описание речевых сообщений должно, по крайней мере в общих чертах, соответствовать лингвистическому их описанию. Отсюда вытекало, что человек при восприятии речи должен последовательно выделять (распознавать) фонемы и морфемы, определенные грамматические классы слов, определенные синтаксические конструкции и т.п. Соответственно в процессе порождения речи нервная система человека должна генерировать те же самые описания речевого сообщения в обратной последовательности - от формулировки смысла и синтаксической структуры фразы до артикуляторной ее реализации. Таким образом, каждый из этих процессов представлялся членимым на ряд стадий, каждая из которых осуществляет определенную обработку сигнала, обеспечивающую переход от одного его описания к другому, более подробному или более сжатому.

Тем самым определялись и цели научных изысканий. Исследователи ставили перед собой задачу выяснить те процедуры (алгоритмы), которые обеспечивают переход от реального потока речи к последовательности фонем, отображающих звуковую его структуру, от последовательности фонем к последовательности слов или морфем и т.д. Правда, некоторые различия в формулировках задач всегда имели место и были связаны с разногласиями относительно того, какие элементы используются человеком на том или ином функциональном уровне. В частности, в качестве распознаваемых звуковых элементов исследователи рассматривали как фонему, так и слог. При этом разные специалисты отдавали предпочтение фонеме или слогу в зависимости от того, какие из этих элементов считались более удобными для последующего грамматического анализа предложений, и в зависимости от того, какая организация приписывалась исходному акустическому сигналу и порождающему этот сигнал артикуляторному процессу.

Тем не менее, при некоторых разногласиях относительно единиц восприятия специалисты сходились в том, что речевой сигнал в процессе звукового анализа дискретизируется и отображается в виде последовательности однотипных элементов (элементов одного порядка сложности), а также в том, что алфавит этих элементов должен быть ограниченным.

Еще одна общая идея сводилась к тому, что информация о звуковом составе воспринятого речевого сообщения, представленная в "виде цепочки слогов или фонем, может непосредственно передаваться в систему речеобразовання, обеспечивая возможность повторения слов и фраз без смыслового их анализа. Иными словами, пофонемное (послоговое) описание сигнала рассматривалось как звено, связывающее систему распознавания речи с артикуляторной системой. (Другим таким общим звеном всегда считалось смысловое описание сообщений).

Можно выделить два поколения моделей восприятия и образования речи, которые до сих пор считаются некоторыми исследователями вполне приемлемыми Модели, которые мы относим к первому поколению, базировались на дополнительном предположении, согласно которому речевой сигнал уже на физическом уровне распадается на звуки (или слоги), которые реализуются независимо друг от друга в процессе речеобразования и распознаются независимо друг от друга в процессе восприятия речи. В соответствии с этим допущением процессы восприятия и образования речи представлялись следующим образом. Предполагалось, что при восприятии речи слуховая система на каком-то своем уровне членит акустический сигнал на отрезки, соответствующие фонемам или слогам. Далее полученные сегменты текущим образом сортируются на предусмотренные их классы. При этом исследователи рассматривали два возможные способа классификации сегментов - процедуру, основанную на выделении некоторых акустических признаков фонем, таких как частота формант и т. п., и процедуру, основанную на выделении обобщенных фонетических признаков, характеризующих такие их свойства как способ образования, место образования и т.д.

Артикуляторный процесс в соответствии с той же системой представлений сводился к последовательному осуществлению артикуляторных позиций, соответствующих фонемам, или звукам, или же эти позиции рассматривались как результат одновременной реализации более элементарных двигательных актов - артикуляторных жестов, соответствующих дифференциальным признакам фонем.

Необходимость пересмотреть изложенные весьма упрощенные модели стала очевидной по мере изучения артикуляторного процесса и процессов фонетического анализа речевых сигналов человеком, а также по мере развития акустических исследований, связанных, в частности, с проблемой автоматического анализа и синтеза речи. Исследования артикуляторного процесса показали, что звуки речи реализуются не строго последовательно. Особое значение в этом процессе имеют упреждающие артикуляции, благодаря которым некоторые позиции, характерные для данного звука, осуществляются на протяжении предшествующего звука или ряда предшествующих звуков. Один только этот факт уже не позволял рассматривать звуки речи (фонемы) как элементарные информации, управляющие артикуляторным процессом. Другим существенным эффектом оказалась зависимость артикуляторных характеристик любого звука от его позиции в слове и в структуре фразы, а также наличие редукций, обусловленных влияниями тех же и некоторых других факторов. Естественно, аналогичные эффекты были выявлены также при анализе акустического потока речи.

При изучении восприятия речи были обнаружены следующие особенности этого процесса. Прежде всего было показано, что человек при распознавании звуков речи использует ту информацию, которая расположена на соседних участках сигнала и связана с явлениями коартикуляции. Во-вторых, была показана роль контекста при фонетической интерпретации акустического сегмента. В частности, было показано, что один и тот же сегмент может восприниматься по-разному в зависимости от конкретного звукового окружения. Более того, некоторые звуки и, в частности, смычные согласные вообще не воспринимаются как речевые сигналы, будучи предъявленными вне контекста. Наконец, было показано, что фонетические свойства многих звуков зависят от изменений акустического сигнала во времени, причем слушатели, оценивая скорость соответствующих изменений, учитывают некоторые интегральные характеристики речи, такие как темп.

На базе перечисленных данных возникла новая система представлений о процессах восприятия и образования речи, новые схемы этих процессов, которые можно назвать моделями второго поколения.

Основная суть этих представлений может быть сформулирована следующим образом. Звуковой анализ речевого сигнала при восприятии речи осуществляется текущим образом без предварительного членения акустического потока на отрезки. В ходе анализа сигнала слуховая система выделяет в нем признаки, соответствующие тому или иному звуку или же группе звуков. При этом окончательное решение о звуке принимается не сразу, а только в те моменты, когда полученная информация (совокупность выделенных признаков) позволяет определить данный звук полностью, или же тогда, когда детектируется присутствие признака, характерного для контрастирующего звука. Детальное описание такой процедуры можно найти в работе [Бондарко и др., 1968].

Соответствующие изменения в модели речеобразования можно свести к следующему. Учитывая реальную структуру артикуляторного процесса (прежде всего - явления коартикуляции) исследователи отказались от идеи о том, что фонемы являются непосредственными сигналами, управляющими артикуляциями. Вместо этого было принято, что информация о звуковом составе фразы, представленная в виде цепочки фонем, служит лишь источником сведений для формирования артикуляторной программы - некоторого более подробного описания последовательности артикуляторных событий [Чистович и др., 1965]. Можно было бы отметить, что модель восприятия речи, изложенная выше, не позволяет устранить многие, так сказать, технические трудности. Например, какой-то изъян модели можно усмотреть в том, что она не устраняет необходимости предварительного членения акустического сигнала на звуковые сегменты, хотя авторы модели стремились упразднить этот процесс. Действительно, полезным признаком ряда звуков является реальная их длительность, а это диктует необходимость выделения границ измеряемых отрезков. Аналогичные недостатки и противоречия можно выявить при попытках детализировать модель речеобразования. В частности, можно отметить, что эта модель не содержит разумного обоснования явлений коартикуляции.

Однако существуют и более серьезные возражения против изложенной интерпретации речевого процесса. Мы объединим эти возражения в четыре основных группы.

Во-первых, модель недостаточно учитывает характерные для речи контекстуальные влияния - зависимость характеристик конкретного звука от непосредственного звукового окружения и от позиции в слове и во фразе, а также роль так называемых динамических признаков. Как было оказано, информация о каждом звуке распределена в акустическом сигнале на протяжении ряда сегментов. При этом многие звуки вообще не могут быть опознаны вне контекста, а некоторые другие не могут быть определены без дополнительной информации об интегральных характеристиках речи. Это относится и к фонетическим признакам, и к признакам ударенности, а в некоторых языках - к признакам долготы гласных, которые трудно считать как сегментными, так и просодическими [Лийв, 1962]. Если учесть все эти закономерности, алгоритм распознавания фонем окажется сходным с алгоритмом распознавания более крупных единиц, по крайней мере, порядка слова.

Другую группу составляют эффекты, показывающие, что человек может опознать слово при отсутствии достаточной информации о звуковом его составе. Если учесть характерные для речи редукции [Зиндер, 1981], такая ситуация оказывается достаточно обычной. При фонемном анализе речи отсутствие информации о конкретных звуках может быть компенсировано только путем обращения к словарю, т.е. к информации о звуковом составе слова в целом. Однако, судя по всему, данные о фонемной принадлежности редуцированных звуков отсутствуют и в словаре. Кроме того, если слово может быть опознано без достаточной информации о звуках, последующая реконструкция составляющих его фонем оказывается лишней процедурой.

В-третьих, модель пофонемного анализа речи не может объяснить ряд особых эффектов, из которых мы упомянем только наиболее существенные. Прежде всего, это данные о временных задержках при идентификации звуков и слогов в потоке речи. Как было показано во многих экспериментах, задержки опознания единиц разной размерности (звуков, слогов) мало отличаются друг от друга [Savin, Bever, 1970]; при этом задержки опознания звуков зависят от структуры слогов и слов, в которые они входят. Естественно, при текущем распознавании фонем как самостоятельных единиц, такие эффекты не должны были бы иметь места. Необходимость распознавания более крупных единиц вытекает также из данных о восприятии прерывистой речи.

Наконец, модели описанного типа плохо стыкуются с моделями других речевых процессов и плохо объясняют закономерности становления речи у детей. В частности, при описании детской речи мы вынуждены оперировать не фонемами, а в лучшем случае позиционными их вариантами или даже группами звуков. При этом дети, как известно, не способны выделять в слове ни звуки, ни слоги [Слобин, Грин, 1976]. Отметим, что взрослые безграмотные люди также не способны выполнять такие задания. Таким образом, дискретизация речевого сигнала на звуки оказывается особым процессом, становление которого связано с освоением письменной речи.

Все перечисленные факты делают весьма правдоподобной идею о том, что слова в процессе их восприятия распознаются в каком-то смысле целостно. Однако эта идея остается недостаточно популярной. Дело в том, что целостное восприятие понимается обычно как восприятие с применением некоторых акустических эталонов, внутренняя структура которых в моделях такого типа не определяется. Вследствие этого существующие модели целостного восприятия не позволяют решить ряд проблем, которые находят то или иное решение в моделях посегментного анализа речи. Прежде всего, они не позволяют понять, каким образом упорядочен лексикон эталонов в долговременной памяти, а это в свою очередь не позволяет понять характер возможных ошибок. Во-вторых, делается неясным, могут ли эталоны (звуковые образы слов) подвергаться каким-то преобразованиям для получения производных форм. В-третьих, становится непонятным процесс звукового анализа бессмысленных слов. Наконец, в моделях такого типа утрачивается соответствие между процессами образования и восприятия речи.

Все оказанное диктует необходимость какого-то компромисса между моделями целостного описания звуковой структуры слов и моделями посегментного их описания. Ниже мы сформулируем такую компромиссную модель, которая, на наш взгляд, устраняет недостатки как того, как и другого подхода.

Назад    Наверх    Вперед


* Ю.И. Кузьмин Модели нормального процесса речи и механизмы речевых нарушений// Механизм речевого процесса и реабилитация больных с речевыми нарушениями. - М., 1989.