Вы находитесь на сайте журнала "Вопросы психологии" в восемнадцатилетнем ресурсе (1980-1997 гг.).  Заглавная страница ресурса... 

88

 

ДИСКУССИИ И ОБСУЖДЕНИЯ

 

К ПРОБЛЕМЕ РАСПОЗНАВАНИЯ ЭМОЦИОНАЛЬНОГО КОНТЕКСТА ЗВУКОВОЙ РЕЧИ

 

А. X. ПАШИНА

 

Проблема различения видов эмоционального переживания человека на основе акустических характеристик речи представляет интерес как в теоретическом плане, так и для решения различных прикладных задач. Особое значение решение этой проблемы имеет для задачи определения объективного состояния человека по звучанию его голоса в различных сферах деятельности, в частности в экстремальных условиях, когда говорящий находится вне пределов видимости.

В настоящее время удается с некоторой степенью надежности опознавать по голосу состояния повышенной напряженности и тревожности или спокойствия и эйфории [6], [9], [10]. Для более адекватной оценки состояния говорящего такая грубая дифференцировка недостаточна, поскольку каждое из этих состоянии в равной мере может быть отнесено к нескольким конкретным состояниям субъекта поведения. Но, например, при разработке диалоговых систем «человек—машина» особенно важен учет всей гаммы эмоциональных состояний.

Анализ эмоционального состояния говорящего базируется на двух составляющих звуковой речи: вербальной (семантической) и невербальной (экстра лингвистической). В экстремальных ситуациях часто случается так, что ориентация на смысловую сторону сообщения при определении состояния говорящего затруднена, так как именно она в первую очередь страдает из-за разнообразных технических помех, возникающих в таких ситуациях.

Даже из обыденного опыта известно, что экстралингвистические компоненты звуковой речи могут указать на состояние говорящего вне зависимости от семантической стороны сообщения. Известно, что, опираясь на невербальный компонент, слушатель иногда вносит существенные коррекции в смысле данного сообщения. Особенно ярко это проявляется в ситуации рассогласования вербального и невербального поведения в процессе общения. В этом случае, как правило, в большей степени оказывается доверие последнему [15].

В экспериментах с разрушением семантической составляющей речевого сообщения было показано, что сохранившаяся экстралингвистическая информация позволяет с большей степенью надежности установить пол и личность говорящего [8]. Было интересно выявить, насколько возможно определить вид эмоционального переживания, передаваемого диктором в речевом сообщении, на основе восприятия только экстралингвистической информации, содержащейся в данном сообщении. С. этой целью мы сравнивали возможность слушателя определять эмоциональный контекст звуковой речи в двух ситуациях: а) при восприятии ее в естественном звучании, т. е. когда присутствуют и семантический, и экстралингвистический компонент; б) при восприятии инвертированного звучания,

 

89

 

когда исключается понимание смысла речевого сообщения.

 

МЕТОДИКА

 

В эксперименте был использован метод инверсии записи звуковой речи во времени, что достигалось протяжкой магнитной ленты в обратном направлении. Можно считать, что данный прием разрушал смысловое содержание произносимых одним и тем же диктором фраз, поскольку ни один из испытуемых в субъективном отчете не мог воспроизвести ни слова из прослушанных фраз. Наряду с этим данный прием изменял развертывание во времени интонационного контура звуковых сообщений, но сохранял их частотные и темпо-ритмические параметры [8], [9].

Материалом для прослушивания служили магнитофонные записи трех речевых фраз, произнесенных профессиональным актером. Каждая из фраз произносилась по 10 раз с различными эмоциональными окрасками: радость, печаль, гнев, страх и — для контроля — нейтрально. В каждой фразе каждый эмоциональный контекст в случайном порядке встречался дважды. Сначала аудиторам предъявлялись все фразы с естественным звучанием (ситуация Н), затем — те же фразы, но с другим порядком предъявления, в инвертированной записи (ситуация И). После прослушивания фразы, окрашенной в один из перечисленных эмоциональных контекстов (ЭК), слушатели должны были опознать эмоцию и указать, насколько они уверены в своем решении, используя 5-балльную шкалу. Максимальная уверенность оценивалась в 5 баллов, минимальная — в 1.

В эксперименте приняли участие 23 испытуемых обоего пола (студенты, инженеры, научные сотрудники) в возрасте от 18 до 55 лет. Качество распознавания ЭК прослушиваемых фраз оценивалось по двум показателям: по вероятности правильного распознавания (процент правильно опознанных фраз от 30 фраз, предъявленных к прослушиванию) и коэффициенту уверенности (в баллах). Оба показателя рассчитывались отдельно для каждого испытуемого, кроме того, определялись средние значения этих показателей по группе испытуемых в целом в обеих ситуациях. Расчеты производились отдельно для каждой эмоции и по сумме всех ЭК относительно общего числа предъявленных фраз. Результаты, полученные в двух ситуациях прослушивания, были сопоставлены по вероятностям правильных опознаваний ЭК.

 

РЕЗУЛЬТАТЫ ЭКСПЕРИМЕНТОВ

 

При сопоставлении вероятностей правильного опознавания, усредненных по всем ЭК, было обнаружено, что восприятие инвертированных во времени фраз в целом приводит к некоторому снижению процента правильного распознавания. Так, в ситуации Н в среднем по группе испытуемых ЭК был правильно определен с вероятностью 74,4±12,7 процента от общего числа предъявленных фраз. Средний по группе коэффициент уверенности составил 3,9±0,19 балла. При прослушивании фраз с разрушенной семантической составляющей вероятность правильного опознавания ЭК составила 66,2±10,5 процента при среднем коэффициенте уверенности 3,71 ±0,95 балла. Индивидуальный разброс по сумме эмоций составил от 46,7±24,7 до 80,0±9,1 процента.

Соотношение вероятностей опознавания нейтрального контекста составило соответственно 92,0±13,9 (коэффициент уверенности 4,58±0,45) для ситуации Н и 50,8±27,4 (коэффициент уверенности 3,34±1,24) для ситуации И.

В экспериментах В. П. Морозова [4], [5], проведенных на испытуемых обоего пола и разного возраста, было показано, что в среднем по огромной выборке испытуемых правильное распознавание ЭК по голосу говорящего составляет от 65 до 75 % от общего числа предъявленных к распознаванию фраз. Следовательно, средняя вероятность распознавания эмоций при прослушивании испытуемыми нормально звучащих фраз сопоставима с верхней границей среднестатистической нормы, а при прослушивании

 

90

 

инвертированной записи этих фраз — с нижней границей нормы. Из этого следует, что содержащаяся в звуковой составляющей речевых сообщений экстралингвистическая информация достаточна для того, чтобы с довольно высокой степенью точности и уверенности определить ЭК дикторской речи.

На рис. 1, А представлены средние по группе испытуемых вероятности правильного опознавания ЭК при восприятии нормально звучащих (черные столбики) и инвертированных во времени (заштрихованные столбики) фраз. Можно видеть, что вероятность правильного опознавания ЭК в ситуации Н снижается в ряду «страх — печаль — гнев — радость». Сопоставление значений этих показателей обнаружило наличие достоверных различий  только между вероятностями распознавания страха и радости (p < 0,01 по t-критерию Стьюдента). Сопоставление вероятностей распознавания других ЭК в пределах ситуации Н достоверных различий не выявило. Значение вероятности опознавания нейтрального контекста достоверно отличается от значений этого показателя, полученных при восприятии фраз с ЭК печали, гнева и радости (p < 0,01).

При восприятии инвертированных фраз лучше остальных опознается эмоция страха (см. рис. 1, А — заштрихованные столбики). Различия вероятности его определения с правильными оценками всех остальных эмоциональных контекстов достоверны (p < 0,01). Далее значения правильных оценок убывают в ряду «гнев — радость — печаль». Достоверных различий между ними не обнаружено. Вероятность определения нейтрального контекста в этой ситуации достоверно отличается только от вероятности правильного опознавания эмоций страха и гнева.

 

 

Рис. 1. Вероятность правильного узнавания эмоциональных контекстов и коэффициент уверенности при прослушивании нормально звучащих и инвертированных во времени фраз. Усредненные значения по 23 испытуемым. Светлые столбики — ситуация Н, заштрихованные — ситуация И. Вертикальные линии — среднеквадратические отклонения.

 

Сопоставление результатов по каждому эмоциональному контексту между ситуациями Н и И показало, что в целом по группе испытуемых восприятие инвертированной записи фраз (после прослушивания их в нормальном звучании) привело к снижению процента правильного опознавания по всем эмоциональным контекстам, за исключением эмоции страха. Но достоверные различия отмечены только для оценок правильного распознавания  печали (p < 0,05) и нейтрального контекста (p < 0,01).

При повторном прослушивании инвертированного варианта фраз (10 испытуемых) число правильных оценок не изменилось у двух испытуемых, двое показали незначительное ухудшение результатов. Шесть аудиторов показали увеличение правильных оценок по всем эмоциональным контекстам от 10 до 18 %.

Что касается коэффициентов уверенности, то в ситуации И (в среднем по группе испытуемых) этот показатель также меньше, чем в ситуации Н (рис. 1, Б), как и вероятность правильного опознавания. Однако он значительно выше при правильных определениях,

 

91

 

чем при ошибочных, при которых средние значения по группе испытуемых составляют 2,75 — в ситуации Н и 2,70 — в ситуации И. Эти цифры подтверждают, на наш взгляд, не случайный характер правильных оценок, данных при восприятии эмоциональных контекстов в ситуации И.

Таким образом, если судить по соотношению правильных оценок, наблюдаемых в разных ситуациях прослушивания эмоционально окрашенных и нейтральных фраз, то можно заключить, что элиминация семантики и изменение временной перспективы интонационного контура усложняют в основном опознавание нейтрального контекста и печали. В меньшей степени разрушение смысла фраз влияет на опознавание гнева и радости и вообще не влияет на распознавание эмоции страха. Рис. 2 демонстрирует, какова успешность распознавания конкретного ЭК при ориентации слушателя только на экстралингвистическую составляющую речевого сообщения.

Интерес представляет и тот факт, что более высокая степень вероятности правильного определения для большинства аудиторов (вне зависимости от ситуации предъявления) характерна для эмоции страха. Как видно из рисунка, 100 % правильных определений страха в ситуациях Н и И показали 13 и 9 испытуемых соответственно. И только трое в ситуации Н и один в ситуации И определили эту эмоцию с вероятностью менее 50 %. В то же время при распознавании эмоции радости 100 % правильных узнаваний в ситуации Н дали только два слушателя и в ситуации И — четыре. 20 слушателей (по сумме ситуаций) при прослушивании фраз с ЭК «радость» показали менее 50 % правильных определений.

 

 

Рис. 2. Гистограммы распределении выборки испытуемых по значениям вероятностей правильного узнавания эмоционального контекста при восприятии нормальных звучащих и инвертированных во времени фраз.

По ординате: число испытуемых, показавших данный процент правильного опознавания данного эмоционального контекста. По абсциссе: вероятность правильного определения данного эмоционального контекста (%).

 

Правомерен вопрос: чем объясняются различия успешности распознавания страха и успешности распознавания остальных ЭК, которые особенно проявились в ситуации И. Нам представляется возможным предположить следующее. В результате изменения временной перспективы фразы динамика ее акустического паттерна (в частности, распределение по фразе фронтов нарастания и спада интонации и динамика уровня звукового давления) для одних эмоций (например, для страха) изменяется незначительно в силу симметричности этого паттерна [4]. Для других ЭК этот паттерн не симметричен (например, гнев). Исходя из этого, можно объяснить те специфические ошибки, которые, как правило, допускали испытуемые в ситуации И. Например, чаще всего фразу с эмоциональной окраской гнева испытуемые принимали за радость, и наоборот. По-видимому, акустический паттерн фразы с эмоциональной окраской гнева при прослушивании ее в нормальном звучании сходен с акустическим паттерном фразы,

 

92

 

окрашенной в радость, при прослушивании ее в инвертированном варианте, и наоборот. Симметричность акустического паттерна фраз с ЭК страха обеспечивает одинаково успешное распознавание этой эмоции как при прослушивании нормально звучащих фраз, так и в случае прослушивания инвертированной записи этих фраз. Однако сопоставление вероятностей правильного распознавания одного и того же ЭК между ситуациями Н и И показало, что одни испытуемые лучше определяют конкретную эмоцию в ситуации Н, другие, наоборот, в ситуации И, третьи — одинаково успешно (или с одинаково низкой вероятностью) в обеих ситуациях. Например (табл.), 10 испытуемых опознали гнев в среднем на 44,1 % лучше в ситуации Н, по сравнению с ситуацией И. 5 слушателей определили с одинаковым успехом этот ЭК, а 8 — в среднем на 37,5 % дали лучшие оценки в ситуации И.

Таблица

 

Распределение числа аудиторов по соотношению показателей правильных оценок эмоциональных контекстов при нормальном и инвертированном предъявлении фраз

 

Эмоциональный контекст

I

II

III

Число слушателей

 

ΔХ

Число слушателей

Число слушателей

 

ΔХ

«Печаль»

15

46,6

3

5

- 45,0

«Гнев»

10

44,1

5

8

- 37,5

«Радость»

9

26,8

9

5

-30,0

«Страх»

7

29,0

9

7

- 24,5

«Нейтральный»

21

46,2

2

 

Примечание. I - количество правильных оценок при прослушивании нормально звучащих фраз больше, чем при прослушивании инвертированных фраз; II - равное количество правильных оценок, данных при прослушивании фраз в ситуациях Н и И; III - количество правильных оценок при прослушивании инвертированных во времени фраз больше, чем при прослушивании нормально звучащих фраз; ΔХ - среднее по группе испытуемых значение разницы между вероятностями правильных опознаваний в ситуациях Н и И.

 

На рис. 3 приведены результаты опознавания конкретных ЭК в двух ситуациях прослушивания для четырех испытуемых. Можно видеть, что испытуемый Е. с высокой точностью опознал все ЭК в ситуации Н и с той же вероятностью страх, гнев и радость — в ситуации И. В отличие от него вероятность распознавания всех ЭК испытуемой П. ниже среднестатистической нормы в обеих ситуациях прослушивания. Вообще результаты показали наличие широкого спектра межиндивидуальных различий в наборах предпочтительно узнаваемых эмоций. Тот факт, что вероятность опознавания ЭК у некоторых слушателей в ситуации И равна или даже превосходит вероятность распознавания их в ситуации Н, по-видимому, говорит о том, что эти испытуемые обладают выраженной способностью наиболее тонко дифференцировать ЭК на основе анализа экстралингвистической информации звуковой речи.

 

 

Рис. 3. Индивидуальные данные вероятностей правильного опознавания исследованных эмоциональных контекстов в двух ситуациях восприятия для четырех испытуемых (Е-ов, Г-ин, П-ва и К-ов). Обозначения — как на рис. 1.

 

93

 

Таким образом, результаты экспериментов показали, что разрушение семантической составляющей звуковой речи (в связи с чем слушатели должны были ориентироваться только на экстралингвистический компонент) не влияет драматически на возможность распознавания ее эмоционального контекста. Соотношение вероятностей правильных распознаваний разных эмоций при этом меняется, что, возможно, связано с неодинаковым изменением акустической картины одной и той же речевой фразы в зависимости от модальности ее ЭК, с одной стороны, и с различными способностями испытуемых ориентироваться на экстралингвистический компонент звуковой речи — с другой.

Выяснение принципиальной возможности надежного распознавания ЭК звуковой речи (другими словами, видов эмоционального переживания человека по его голосу) имеет весьма существенную практическую важность. Как указывалось выше, особую ценность эти сведения имеют при оценке объективного состояния человека в экстремальных ситуациях, когда исключена возможность со стороны наблюдателя ориентироваться на вербальный компонент речевого сообщения в силу каких-либо технических помех или на другие характеристики поведения, такие, как мимика, жестикуляция и т. д.

Результаты настоящих экспериментов, как, впрочем, и данные литературы относительно особенностей определения эмоционального состояния человека по другим невербальным характеристикам поведения, требуют от исследователя ответов на весьма существенные и в теоретическом, и в практическом плане вопросы. Так, представляется важным выяснить, какой фактор является определяющим в процессе опознавания той или иной эмоции при восприятии потока звуковой речи; почему одни эмоции узнаются лучше конкретным слушателем, а другие хуже; чем обусловлена разница между испытуемыми в успешности распознавания ЭК.

Детальный сопоставительный анализ интонационной структуры эмоциональных и нейтральных фраз показал, что эмоциональная окраска достигается за счет сложного взаимодействия частотных, динамических и темпоральных характеристик речевого потока. При этом выражение каждой эмоции в речевом высказывании характеризуется специфическим для нее набором признаков [4], [7], [9]. Но только ли сам по себе набор признаков, отличающий один ЭК от другого, определяет успешность различения одной эмоции от другой одним и тем же человеком? Показано, что набор признаков может варьировать от диктора к диктору, в то же время ни один из признаков в отдельности не может быть решающим при определении ЭК речевого сообщения [7], [9]. К тому же, если судить по субъективным отчетам испытуемых, для разных испытуемых информативными для распознавания одной и той же эмоции могут быть различные совокупности признаков.

Результаты экспериментов показали, что для каждого конкретного испытуемого в данных условиях эксперимента существует свой «предпочтительный» набор ЭК из числа предъявленных к распознаванию, который он определяет с большей вероятностью по сравнению с другими эмоциями. Этот набор у одного испытуемого может включать одну-две модальности, у другого — три и более, т. е. с очевидностью проявляется принцип избирательности восприятия эмоциональной информации. Объяснить этот факт возможно, исходя из представления о том, что в субъективном опыте различных индивидуумов могут присутствовать «эталоны» одних эмоций и отсутствовать «эталоны» других [1], [2], [3], [15] или, по крайней мере, они могут быть представлены в неодинаково выраженной степени. Другими словами, человек может принципиально воспринять только то, что в онтогенезе сформировалось и отразилось в структуре его памяти как субъективный опыт [14]. Существует представление, что различия между аудиторами в успешности распознавания ЭК звуковой речи детерминированы степенью развитости у них «эмоционального слуха» [4]. В отличие от музыкального,

 

94

 

эмоциональный слух рассматривается как способность слушателя в процессе прослушивания речевого или музыкального (вокального) сообщения воспринимать информацию особого рода, а именно информацию об эмоциональном контексте сообщения. Подразумевается, что в основе эмоционального слуха индивидуума лежат врожденные задатки, на которые в процессе онтогенеза накладывается определенный субъективный опыт [4], т. е. формируются «эталоны» [1], [2], [3], [15] того репертуара эмоций, к которому индивидуум предрасположен в генетическом плане и с которыми он встретился в реальной жизни. Не вызывает сомнения, что субъективный опыт, наложенный на врожденные предпосылки, обусловливает богатство эмоциональной сферы человека, содержание которой лежит в основе межиндивидуальных различий, в частности касающихся способности к распознаванию эмоций. В этом плане представляет интерес факт, полученный в настоящих экспериментах и  в экспериментах Е. В. Фетисовой [13]. Повторное прослушивание нормально звучащих фраз и их инвертированной записи в пределах одного с основным экспериментом дня или спустя некоторое время показало неоднозначные результаты в успешности распознавания ЭК. Из 18 человек, принявших участие в этих экспериментах, четверо показали сходные с первоначальными в процентном отношении результаты, четверо ухудшили и десять испытуемых повысили вероятность правильного распознавания на 10—18 %. Если рассматривать факт увеличения процента правильного распознавания как следствие некоторого обучения, то можно предположить, что способность к распознаванию эмоций (эмоциональный слух) может быть улучшена (или даже развита) в результате определенных тренировок. В соответствии с этим можно было бы говорить об активном формировании на любой стадии онтогенеза субъективных «эталонов» многообразного «эмоционального мира», от наличия которых в конечном счете зависит степень адекватности отражения объективной реальности. Однако на тот факт, что несколько испытуемых показали худшие по сравнению с первоначальными результаты, мы должны также обратить внимание.

Известно, что на успешность распознавания испытуемым эмоций, проявляющихся в других видах невербального поведения, влияет ряд специфических состояний опознающей личности, характеризующих ее в момент участия в экспериментах. Среди них можно отметить уровень ситуативной тревожности, модальность собственного эмоционального состояния испытуемого на момент эксперимента [2], [3], и т. д. Из этого, вероятно, следует, что в разные моменты (дни) жизни индивида вероятность опознавания эмоций как разных модальностей, так и одной и той же, будет не одинаковой в зависимости от динамики состояния опознающей личности.

Насколько постоянны параметры эмоционального слуха человека, зависят ли они от специфики переживаемых индивидом состояний — это задача наших следующих экспериментов.

 

ВЫВОДЫ

 

1. Распознавание эмоционального контекста звуковой речи на основе восприятия только экстралингвистической составляющей происходит с достаточно высокой степенью надежности и уверенности. В этом случае вероятность распознавания эмоционального контекста в среднем по группе испытуемых составляет 66,2±10,5 процента, что сопоставимо с нижней границей среднестатистической нормы.

2. Показаны значительные межиндивидуальные различия в способности распознавать эмоциональный контекст по экстралингвистической составляющей звуковой речи. Минимальное значение вероятности правильного опознавания по сумме эмоций, предъявленных к опознаванию, составило 46,7±24,7 процента, максимальное — 80,0±9,1 процент. Отмечен широкий спектр межиндивидуальных различий в числе эмоциональных контекстов, распознаваемых с большей вероятностью, и их модальности.

 

95

 

3. При повторном прослушивании эмоционально окрашенных фраз наблюдается разнонаправленная динамика значений вероятности правильного распознавания эмоциональных контекстов по сравнению с результатами, полученными в основном эксперименте. Часть испытуемых ухудшила свои показатели, часть не изменила, а часть показала увеличение процента правильных опознаваний. Этот факт приводит к необходимости поиска детерминант, обусловливающих специфику избирательного извлечения эмоциональной информации из речи говорящего.

 

1. Бажин Е. Ф., Коренева Т. В. О возможностях узнавания эмоций по интонационным характеристикам речи // Вопросы психологии познания людьми друг друга и общения. Вып. 2. Краснодар, 1978.

2. Бодалев А. А. Восприятие и понимание человека человеком. М., 1982.

3. Лабунская В. А. Невербальное поведение. Ростов-на-Дону, 1986.

4. Морозов В. П. Эмоциональный слух человека // Журн. эволюц. биохим. и физиол. 1985. Т. 21. № 6.

5. Морозов В. П., Дмитриева Е. С., Зайцева К. А., Карманова В. Ю., Суханова Н. В. Возрастные особенности восприятия человеком эмоций в речи и пении // Журн. эволюц. биохим. и физиол. 1983. Т. 19.

6. Никонов А. В. К вопросу о возможности непрерывной оценки эмоционального состояния человека-оператора во время полета по его речевым сообщениям // Речь и эмоции: Материалы симпозиума 11—14 ноября 1974 г. Л., 1975.

7. Нушикян Э. А. Типология интонации эмоциональной речи. Киев; Одесса, 1986.

8. Пашина А. X., Морозов В. П. Опознавание личности по голосу на основе его нормального и инвертированного во времени звучания // Психол. журн. 1990. Т. 11. № 3. С. 70 – 78.

9. Рамишвили Г. С. Автоматическое опознавание говорящего по голосу. М., 1981.

10. Речь и эмоции: Материалы симпозиума. 11—14 ноября 1974 г. Л., 1975.

11. Русалова М. Н. Экспериментальное исследование эмоциональных реакций человека. М., 1979.

12. Симонов И. В. Эмоциональный мозг: физиология, нейроанатомия, психология эмоций. М., 1981.

13. Фетисова Е. В. Феномен эмоционального слуха как показатель художественной одаренности. (В печати)

14. Швырков В. Б. Психофизиологическое изучение структуры субъективного отражения // Психол. журн. 1985. Т. 6. № 3. С.22 – 37.

15. Frijda N. Recognition of emotion // Advances in Exp. Soc. Psychol. 1969. V. 4. Р. 167—223.

 

Поступила в редакцию 29. V 1989 г.