Для всех говорящих, за исключением, пожалуй, самых лучших чревовещателей, произнесение речи сопровождается видимыми мимическими движениями. Поскольку речь – это больше, чем просто звук, исследователи поставили перед собой задачу выяснить точную визуальную информацию, которую люди ищут при распознавании гласных звуков.
"Важный и широко обсуждаемый вопрос в нашей области касается того, что мы делаем в речи – что является объектом восприятия?" сказал ведущий автор Мэтью Масаполло, который проводил исследование в качестве постдокторанта в Университете Брауна и сейчас работает в Бостонском университете. "Другой вопрос, который обсуждается, заключается в том, является ли обработка речи особенной и отличной от других видов слуховой обработки, поскольку это не чисто акустический сигнал."
Решение этих вопросов улучшило бы научное понимание того, как мы воспринимаем речь, сказал Масаполло. Это, в свою очередь, может применяться к разработке более понятных онлайн-аватаров и физических роботов и даже может улучшить компьютерное распознавание человеческой речи и улучшить устройства связи для слабослышащих.
По словам Масаполло, несмотря на то, что в ходе множества исследований выяснялось, какие слышимые особенности речи важны, гораздо меньше исследователей изучали, какие визуальные компоненты важны, несмотря на свидетельства таких интуитивных явлений, как чтение по губам, о том, что вид речи тоже имеет значение.
В ходе серии экспериментов в Университете Брауна и Макгилла в Монреале, опубликованных в Журнале экспериментальной психологии: человеческое восприятие и производительность, Масаполло и его коллеги обнаружили, что, когда люди воспринимают речь, они внимательно следят за формой и движением губ. Если какой-либо из этих сигналов отсутствует, их способность различать гласные звуки значительно ухудшается.
"Полученные данные демонстрируют, что взрослые чувствительны к наблюдаемым формам и моделям движений, которые возникают, когда человек разговаривает," сказал Масаполло, который работал исследователем в лаборатории старшего автора Джеймса Моргана, коричневого профессора когнитивных, лингвистических и психологических наук.
Использование различий в восприятии речи
Ранее в этом году Масаполло накрыл стол для нового исследования, когда он и соавторы Линда Полька и Люси Менар показали в журнале Cognition, что люди демонстрируют то же самое "направленная асимметрия" в визуальном восприятии гласных, что они делают, когда слышат гласные: они лучше умеют различать две версии "оо" звук, как в слове "свободный," если сначала возникает менее четко сформулированная версия, а затем – более экстремальная версия. Если порядок будет изменен, вероятность того, что они их различят, будет гораздо меньше – по виду или звуку. Хотя эти направленные эффекты могут показаться причудливым инстинктом, они отражают универсальное предпочтение гласных, получаемых с помощью экстремальных артикуляционных маневров. Текущие исследования направлены на раскрытие того, какие характерные особенности или свойства крайних гласных приводят к этим асимметриям восприятия.
Оказывается, эта асимметрия проявляется между французским и английским языками, что проявляется в двуязычной речи многих канадцев. Когда они говорят по-французски, их артикуляция "оо" производится с более заметным выступом губ и расположением языка, чем при воспроизведении того же гласного звука в английском языке.
В новом исследовании Масаполло понял, что эта асимметрия в производстве и восприятии гласных дает прекрасную возможность определить, какие визуальные особенности имеют значение для различения тонких речевых различий. Он разработал и провел пять экспериментов, чтобы точно выяснить, какая визуальная информация имеет отношение к этой асимметрии.
В первом, с помощью аспирантки Брауна и соавтора Лорен Франклин, он применил технологию отслеживания взгляда, чтобы измерить, куда смотрели добровольцы-студенты Брауна, когда смотрели видео, на которых двуязычная канадская женщина снимает "оо" звучит как на французском, так и на английском языках. Безусловно, люди смотрели на рот, например, гораздо больше, чем на глаза.
Но как насчет рта имело значение? Чтобы определить, было ли важно движение, а не просто конкретное положение, в следующем эксперименте учащимся был представлен неподвижный кадр, а не видео. Во втором эксперименте добровольцы из McGill пытались различить "оо" речь с использованием неподвижных изображений одного и того же говорящего. Результаты показали, что без сигнала движения асимметрия французско-английского или англо-французского порядка больше не возникала, что позволяет предположить, что движение является ключевым компонентом этого инстинкта восприятия гласных.
В следующих трех экспериментах команда продолжила исследовать, какие визуальные аспекты восприятия речи имеют значение среди групп студентов-добровольцев Брауна или Макгилла. В третьем эксперименте испытуемые видели не лицо, а набор из четырех точек в ромбовидном узоре, которые двигались так же, как губы говорящего. Когда оратор поджала губы, чтобы "оо," точки сдвинулись ближе друг к другу, например. Гипотеза Масаполло заключалась в том, что положение и движение могут иметь значение вместе, даже если лицо на самом деле не представлено. В этом эксперименте люди вернулись к демонстрации асимметрии, предполагая, что он был на правильном пути.
Четвертый эксперимент был точно таким же, но точечный узор был повернут на 45 градусов по часовой стрелке, показывая больше квадрата, чем ромба. Здесь асимметрии не было, что позволяет предположить, что ориентация точек для представления говорящего рта имеет значение. В пятом эксперименте движение было представлено фигурой восемь, которая двигалась в сторону, аналогично губам говорящего. Там тоже, не имея даже основной формы рта, люди не проявляли инстинктивной асимметрии восприятия гласных. Простого движения без формы и положения рта было недостаточно.
"В целом складывается картина: асимметрия восприятия, по-видимому, вызывается оптическими стимулами, которые отображают как движение губ, так и конфигурационную информацию," авторы написали.
По мнению Масаполло, результаты демонстрируют, что зрение вносит определенный вклад в восприятие речи.
"Результаты настоящего исследования показывают, что информация, которую мы рассматриваем в речи, носит мультимодальный и, возможно, жестовый характер," Масаполло сказал. "Наша система восприятия, похоже, одинаково обрабатывает слуховую и визуальную речевую информацию."