EVA-Bench: сквозной фреймворк для оценки голосовых агентов
ServiceNow AI
EVA-Bench предоставляет сквозную оценку голосовых агентов через симуляцию аудиодиалогов между ботами. Вводятся составные метрики EVA-A (выполнение задачи + качество речи) и EVA-X (поток разговора + тайминг смены реплик), а также бенчмарк из 213 сценариев в трёх корпоративных доменах. Оценка 12 систем показывает, что ни одна не превосходит остальных по обеим метрикам, а медианный разрыв между пиковой и стабильной производительностью составляет 0.44.
Почему это важно
Голосовые агенты переходят в корпоративное production, однако строгой сквозной оценки до сих пор не существовало. EVA-Bench устанавливает методологию и выявляет тревожные пробелы в надёжности. 116 upvotes на HF Daily (14 мая).
Важность: 4/5
116 upvotes на HF Daily (+1 доп.); первый строгий сквозной фреймворк оценки голосовых агентов