evaluation — AI Digest

15 мая EVA-Bench: сквозной фреймворк для оценки голосовых агентов ServiceNow AI research
18 мая SOOHAK: фронтирные LLM решают сложную математику, но не распознают неразрешимые задачи research
19 июн OpenAI публикует Deployment Simulation: предсказание поведения модели до релиза OpenAI research
18 мая Judge Circuits: механистическое объяснение непоследовательности LLM-as-judge по форматам research
14 июн EvoArena: LLM-агенты набирают лишь 40% в динамически изменяющихся средах MIT / NUS / Salesforce research
14 июн WeaveBench: агенты компьютерного использования проваливаются на гибридных задачах GUI+CLI — 41% успешных выполнений Microsoft Research research
1 мая AutoResearchBench — бенчмарк автономного поиска научной литературы для AI-агентов BAAI research
12 июн EvoArena: LLM-агенты набирают лишь 39,6% на бенчмарке динамически меняющихся сред MIT research
19 июн Коллапс предпочтений мультимодального оценщика: кросс-модальное заражение в циклах самоэволюции агентов research