Учёные улучшили распознавание эмоций по голосу с помощью искусственного интеллекта
Технология может повысить качество работы контакт-центров, работая в режиме реального времени
Создана модель на основе искусственного интеллекта для распознавания эмоций человеческой речи, достигшая высокой взвешенной точности 74,6% на одном из наиболее сложных для проверки функционала модели датасетов IEMOCAP (Interactive EmotionalDyadic Motion Capture). Разработку, AI-модельCross-AttentionFeatureFusionforSpeechEmotionRecognition (CA-SER), представили исследователи лаборатории искусственного интеллекта ПАО Сбербанка, Института AIRI и МФТИ.
Сначала система детектирует важные характеристики речи, а затем добавляет к ним данные о звуках голоса (например, их громкость и тональность). Эти два типа информации объединяются с помощью специального механизма, эффективно соединяя общие характеристики речи с её детальными особенностями, что помогает точнее определять эмоции говорящего человека.
Этот инструмент решает проблему несоответствия чистых аудиоданных, на которых обучены SSL-модели, и эмоциональных датасетов с различной интонацией и интенсивностью. Разработка, как заверяют создатели, будет полезна в системах автоматического взаимодействия с человеком — в голосовых чат-ботах, кол-центрах, а также в приложениях цифрового мониторинга психологического здоровья и других областях, где нужно анализировать эмоции в режиме реального времени.
Исходный код модели доступен в открытом программном обеспеченииOpensource, поэтому исследователи и другие учёные могут использовать инструмент в своих исследованиях, чтобы провести дополнительные эксперименты для проверки обобщаемости модели на другие языки и датасеты, повысить её универсальность и применимость в реальных условиях. Так, модель можно обучать на русскоязычных эмоциональных корпусах и затем применять в голосовых помощниках и контакт-центрах.
Читать все комментарии