

В сфере e-learning мы уже начали привыкать к диалоговым тренажерам на базе больших языковых моделей (когда ты общаешься с ИИ-собеседником голосом, как с реальным человеком, проигрываешь какой-то кейс, а в конце получаешь развернутую ОС по диалогу).
Писал про эту тему несколько раз: пример диалогового тренажера с симулятором ПО и первый опыт разработки ИИ-тренажера.
Очень классный и эффективный инструмент, который позволяет прокачивать не только знания, но и УМЕНИЕ общаться!
Но нам же всегда хочется большего, хочется сделать эффективный инструмент еще полезнее, правда?
Такой продукт классно оценивает логику работы, технику продаж, адекватно реагирует на ваши слова, но с эмоциями не работает совсем. ИИ и сам общается без эмоций, обычным дежурным спокойным голосом, и ваши эмоции не понимает.
Конечно, он по смыслу догадывается, что, если вы сказали: «Добро пожаловать» — это было сказано доброжелательно, а «ПОШЕЛ ВОН ОТСЮДА!» — явно с какой-то долей негатива. НО, во-первых, далеко не факт, что смысл ваших слов совпадает с невербаликой (бывает же такое, что говорят: «рады вас видеть», а на лице «написано», что всё с точностью наоборот, или фраза вообще может быть сказана без эмоций — бубнеж себе под нос), во-вторых — далеко не всегда в словах есть реальные маркеры, по которым можно понять, какие эмоции использует человек.
Иными словами, в таких продуктах есть фундаментальный изъян: они оценивают, что говорит человек, но полностью игнорируют, как он это делает.
Инструмент Hume AI переносит фокус на невербалику: ИИ сам говорит с эмоциями и «понимает» эмоции собеседника.
Инструмент очень интересный, пост получился объемным.
Полная версия ТУТ.
В шапке пример работы сервиса в плейграунде* (диалог по выбору тура, оценка эмоций по голосу и оценка эмоций по видео).
*сервис умеет говорить на русском, но в плейграунде, очевидно, серьезный системный промпт, который дает директивную инструкцию разговаривать на английском.
Тезисы ниже:
— Голос ИИ больше не «читалка»: ИИ анализирует тембр, темп и интонацию (более 50 эмоциональных состояний) и сам отвечает с нужной эмоцией — от заинтересованности до ответной агрессии.
— Чтение эмоций по лицу: Через камеру система считывает микромимику, фиксируя сомнения или фальшь, которые голос может не выдать.
— Глубокая обратная связь: Теперь можно разобрать не только скрипт, но и невербалику: почему у сотрудника «дрогнул голос» на вопросе о цене или почему его улыбка выглядела как усмешка. Да и просто понять, как он говорит: ярко и эмоционально, или бубнит что-то себе под нос.
— Сложность внедрения: Это не просто «подключить API». Нужно прописывать «эмоциональную партитуру» диалога и уметь обрабатывать огромные потоки данных (Big Data) от сервиса (есть инструменты «из коробки», которые облегчают задачу).
А как вы считаете: стоит ли игра свеч или «эмоциональная аналитика» — это пока избыточная игрушка для e-learning?
Алексей Миляев и команда сообщества Digital Learning