EVA-Bench: сквозной фреймворк для оценки голосовых агентов

ServiceNow AI

исследования офиц. + СМИ 2 ист. ~1 мин

EVA-Bench предоставляет сквозную оценку голосовых агентов через симуляцию аудиодиалогов между ботами. Вводятся составные метрики EVA-A (выполнение задачи + качество речи) и EVA-X (поток разговора + тайминг смены реплик), а также бенчмарк из 213 сценариев в трёх корпоративных доменах. Оценка 12 систем показывает, что ни одна не превосходит остальных по обеим метрикам, а медианный разрыв между пиковой и стабильной производительностью составляет 0.44.

Почему это важно

Голосовые агенты переходят в корпоративное production, однако строгой сквозной оценки до сих пор не существовало. EVA-Bench устанавливает методологию и выявляет тревожные пробелы в надёжности. 116 upvotes на HF Daily (14 мая).

Важность: 4/5

116 upvotes на HF Daily (+1 доп.); первый строгий сквозной фреймворк оценки голосовых агентов

Источники

официальный arXiv: EVA-Bench