Preview

Дискурс

Расширенный поиск

Распознавание эмоций по речи: человек против компьютера

https://doi.org/10.32603/2412-8562-2019-5-5-136-152

Полный текст:

Аннотация

Введение. В исследовании рассмотрены восприятие эмоций в речи и распознавание эмоций по речи на основании одних только интонационных свойств. Обсуждаются теоретические проблемы определения просодии, интонации и эмоции, а также классификации эмоций. Приводится обзор акустических и перцептивных характеристик, обнаруживающихся в речи в различных эмоциональных состояниях. Также рассматриваются технические подходы к распознаванию эмоций по речи в свете последних экспериментов по автоматической классификации эмоциональной речи.

Методология и источники. Нами выбрана распространенная классификация "большая шестерка", типичная для решения технических задач, и дополнена такими эмоциями, как отвращение и стыд. В условиях акустической лаборатории была создана база данных эмоциональной русской речи. Далее мы провели эксперимент по восприятию эмоциональной речи, используя экспериментальную среду ПО Praat.

Результаты и обсуждение. Выявлены возможности кросс-культурного распознавания эмоций, так как участники эксперимента из финской и международной групп распознали около половины образцов правильно. Тем не менее, носители русского языка, судя по всему, безошибочно различают больший процент эмоций. Влияние знания иностранных языков, музыкального образования и пола участников на результаты эксперимента недостаточно ярко выражены. Нами проведен анализ наиболее часто путаемых эмоций, таких как стыд и печаль, удивление и страх, злоба и отвращение, а также случаев, когда эмоционально окрашенная речь принималась за нейтральную.

Заключение. Данная работа может внести свой вклад в психологические исследования, проясняя некоторые вопросы классификации эмоций и гендерный аспект эмоциональности; лингвистику, предоставляя новые данные для просодических и сравнительных языковых исследований; языковые технологии, углубляя понимание возможных трудностей при построении систем распознования эмоций.

Об авторах

Ш. Вернер
Университет Восточной Финляндии
Финляндия

Штефан Вернер – доктор филологических наук (2000), профессор университета Восточной Финляндии

FI-80100 Йоэнсуу



Г. К. Петренко
Санкт-Петербургский государственный электротехнический университет «ЛЭТИ» им. В. И. Ульянова (Ленина)
Россия

Петренко Георгий Кириллович – ассистент кафедры иностранных языков

ул. Профессора Попова, д. 5, Санкт-Петербург, 197376



Список литературы

1. Российская социологическая энциклопедия / под ред. Г. В. Осипова. М .: НОРМА-ИНФРА-М, 1999. URL: http://sociologicheskaya.academic.ru/1401/ (дата обращения: 03.11.2015).

2. Ильин Е. П. Эмоции и чувства. 2-е изд., перераб. и доп. СПб.: Питер, 2013.

3. Seppnen, T., Toivanen, J. and Vyrynen E. Mediateam speech corpus: a first large finnish emotional speech database // Proceed. of XV International Conf. of Phonetic Science, vol. 3, Barcelona, Spain, 3–9 aug. 2003, pp. 2469–2472.

4. El Ayadi M., Kamel M. S., Karray F. Survey on speech emotion recognition: Features, classification schemes, and databases // Pattern Recognition. 2011. Vol. 44. Iss. 3. P. 572–587. DOI: https://doi.org/10.1016/j.patcog.2010.09.020.

5. Галунов В. И. О возможности определения эмоционального состояния говорящего по речи // Речевые технологии. 2008. № 1. С. 60–66.

6. Брызгунова Е. А. Интонация // Русская грамматика / гл. ред. Н. Ю. Шведова. М.: Наука, 1980. Т. 1. С. 96–122.

7. Darwin C. The Expression of the Emotions in Man and Animals. NY: D. Appleton & Company, 1897.

8. Ostwald P. F. Acoustic Manifestations of Emotional Disturbance // Disorders of Communication. 1964. XLII. P. 450–465.

9. Williams C. E., Stevens K. N. Emotions and speech: Some acoustical correlates // The Journal of the Acoustical Society of America. 1972. Vol. 52. № 4. P. 1238–1250.

10. Boersma P. Praat, a system for doing phonetics by computer // Glot International. 2002. Vol. 5. Iss. 9/10. P. 341–345.

11. Nash R. Intonational Interference in the Speech of Puerto Rican Bilinguals, an Instrumental Study Based on Oral Readings of a Juan Bobo Story. San Juan: Inter American Univ., 1968.

12. Светозарова Н. Д. Интонационная система русского языка. Л.: Изд-во ЛГУ, 1982.

13. DiCanio C., Hatcher R. On the non-universality of intonation: Evidence from Triqui // The Journal of the Acoustical Society of America. 2018. Vol. 144. Iss. 3, DOI: https://doi.org/10.1121/1.5068494 (дата обращения: 15.09.2019).

14. Петренко Г. К., Шумков А. А. Речь и музыка: точки соприкосновения. СПб.: Изд-во СПбГЭТУ «ЛЭТИ», 2014.

15. Автоматическое распознавание эмоций по речи с использованием метода опорных векторов и критерия джина / М. В. Хитров, А. Г. Давыдов, А. В. и др. // Речевые технологии. 2012. № 4. С. 34–43.

16. Манеров В. Х. Экспериментально-теоретические основы социальной идентификации и интерпретации говорящего: автореф. дис. ... д-ра психол. наук / РГПУ. СПб.,1993.

17. Леонтьев А Н. Потребности, мотивы и эмоции. М.: МГУ, 1971.

18. Восприятие речи. Вопросы функциональной асимметрии мозга / И. А. Вартанян, В. И. Галунов, Е. С. Дмитриева и др. Л.: Наука, 1988.

19. Вартанов А. В., Косарева Ю. И. Эмоции человека и обезьян: субъективное шкалирование вокализаций // Вестн. Моск. ун-та. Сер. 14. Психология. 2015. № 2. С. 93–109. DOI: 10.11621/vsp.2015.02.93.

20. Розалиев В. Л. Построение модели эмоций по речи человека // Изв. ВолгГТУ. 2007. Вып. 3. № 9 (35). C. 65–68.

21. Ververidis D., Kotropoulos C. Emotional Speech Recognition: Resources, Features, and Methods // Speech Communication. Vol. 48. Iss. 9. P. 1162–1181. DOI: 10.1016/j.specom.2006.04.003.

22. Fayek H. M., Lech M., Cavedon L. Evaluating deep learning architectures for Speech Emotion Recognition // Neural Networks. 2017. Vol. 92. P. 60–68. DOI: 10.1016/j.neunet.2017.02.013.

23. Сидоров К. В., Филатова Н. Н. Анализ признаков эмоционально окрашенной речи // Вестн. ТвГТУ. 2012. № 20. С. 26–31.

24. Features extraction and selection for emotional speech classification / Z. Xiao, E. Dellandrea, W. Dou et al. // IEEE Conference on Advanced Video and Signal Based Surveillance, Como, Italy, 5–16 Sept. 2005. P. 411–416. DOI: 10.1109/AVSS.2005.1577304.

25. Fewzee P., Karray F. Dimensionality Reduction for Emotional Speech Recognition // International Conference on Privacy, Security, Risk and Trust (PASSAT), International Conference on SocialCom, IEEE, Sept. 03–05, 2012. Amsterdam, Netherlands. P. 532–537. DOI: 10.1109/SocialCom-PASSAT.2012.83.

26. Брестер К. Ю., Семенкин Е. С., Сидоров М. Ю. Система автоматического извлечения информативных признаков для распознавания эмоций человека в речевой коммуникации // Программные продукты и системы. 2014. № 4 (108). URL: http://cyberleninka.ru/article/n/sistema-avtomaticheskogo-izvlecheniya-informativnyh-priznakov-dlya-raspoznavaniya-emotsiy-cheloveka-vrechevoy-kommunikatsii (дата обращения: 15.07.2019).

27. Eyben F., Wöllmer M., Schuller B. OpenSMILE – The Munich Versatile and Fast Open-Source Audio Feature Extractor // Proceedings of the 18th ACM international conference on Multimedia, oct. 25–29, 2010. Firenze, Italy. P. 1459–1462. DOI: 10.1145/1873951.1874246.

28. Emotional Prosody Speech and Transcripts LDC2002S28 / M. Liberman, K. Davis, M. Grossman end al. Web Download. Philadelphia: Linguistic Data Consortium. 2002.

29. USC-SFI MALACH Interviews and Transcripts English LDC2012S05 / Ramabhadran B., Gustman S., Byrne W. et al. (2012). Philadelphia: Linguistic Data Consortium. DVD.

30. A Database of German Emotional Speech / F. Burkhardt, A. Paeschke, M. Rolfes end al. // 9th European Conference on Speech Communication and Technology, Lisboa, Sept. 4–8. 2005. P. 1–4.

31. Makarova V., Petrushin V., RUSLANA: a database of Russian emotional utterances, 7th International Conference on Spoken Language Processing, ICSLP2002 – INTERSPEECH 2002, URL: https://www.researchgate.net/publication/221491469_RUSLANA_a_database_of_Russian_emotional_ utterances/ (дата обращения: 23.06.2018).

32. Can Prosody Aid the Automatic Classification of Dialog Acts in Conversational Speech? / E. Shriberg, R. Bates, A. Stolcke et al. language and speech. 1998. Vol. 41 (3–4). P. 443–492.

33. Coleman J. Introducing Speech and Language Processing. Cambridge: Cambridge Univ. Press, 2005.

34. Dickinson M., Brew C., Meurers D. Language and Computers. Hoboken, NJ: John Wiley & Sons, 2012.

35. Durand J., Gut U., Kristoffersen G. The Oxford handbook of corpus phonology. Oxford: Oxford Univ. Press, 2014.

36. Hirst D., Di Cristo A. (ed.), Intonation Systems: A Survey of Twenty Languages. Cambridge: Cambridge Univ. Press, 1998.

37. Rueckert L. Gender Differences in Empathy / in D. J. Scapaletti (ed.) // Psychology of Empathy. NY.: Nova Science Publishers, 2011. P. 221–234.

38. Palmer H. E. English Intonation with Systematic Exercises. Cambridge: Heffer, 1924.


Для цитирования:


Вернер Ш., Петренко Г.К. Распознавание эмоций по речи: человек против компьютера. Дискурс. 2019;5(5):136-152. https://doi.org/10.32603/2412-8562-2019-5-5-136-152

For citation:


Werner S., Petrenko G.N. Speech Emotion Recognition: Humans vs Machines. Discourse. 2019;5(5):136-152. https://doi.org/10.32603/2412-8562-2019-5-5-136-152

Просмотров: 46


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2412-8562 (Print)
ISSN 2658-7777 (Online)