Исследователи из НИУ ВШЭ разработали уникальный инструмент для обучения нейросетей распознаванию человеческих эмоций, открывая новые горизонты для лингвистики в эпоху искусственного интеллекта.
«Большие языковые модели могут улавливать скрытые паттерны, которые мы, может быть, чувствуем на подсознательном уровне, но не можем формализовать», — отмечает Анастасия Колмогорова, заведующая Лабораторией языковой конвергенции НИУ ВШЭ — Санкт-Петербург. Новый датасет, включающий видеофрагменты с разметкой по шести базовым эмоциям, позволяет нейросетям учиться распознавать эмоции, анализируя текст, аудио и видео.
Удивительно, но исследование опровергло устоявшееся мнение о приоритете интонации в понимании эмоций. Оказалось, что люди наиболее точно распознают эмоции при чтении текста и просмотре полного видео, тогда как анализ только аудио или видео без звука показал худшие результаты. Анализ выявил, что злость лучше «читается» по тексту (72,9%), радость и удивление — по интонации, а страх — наиболее «вербальная» эмоция, распознаваемая по тексту и аудио в 87% случаев.
Инструмент уже нашел применение в реальных проектах: от анализа отзывов посетителей музеев до создания эмпатичного чат-бота для Эрмитажа. «Сейчас достаточно показать нейросети несколько десятков качественных образцов из нашего датасета», — подчеркивает Колмогорова, говоря о снижении потребности в огромных размеченных выборках и вычислительных ресурсах.
Разработанный словарь также позволяет оценивать качество существующих систем распознавания эмоций. Исследование показало, что текстовые модели демонстрируют наилучшую точность, в то время как анализ мимики — наименьшую. Датасет доступен исследовательскому сообществу, и команда планирует расширять его, изучая смешанные эмоции.