#evaluation
- EVA-Bench: сквозной фреймворк для оценки голосовых агентов ServiceNow AI research
- SOOHAK: фронтирные LLM решают сложную математику, но не распознают неразрешимые задачи research
- OpenAI публикует Deployment Simulation: предсказание поведения модели до релиза OpenAI research
- Judge Circuits: механистическое объяснение непоследовательности LLM-as-judge по форматам research
- EvoArena: LLM-агенты набирают лишь 40% в динамически изменяющихся средах MIT / NUS / Salesforce research
- WeaveBench: агенты компьютерного использования проваливаются на гибридных задачах GUI+CLI — 41% успешных выполнений Microsoft Research research
- AutoResearchBench — бенчмарк автономного поиска научной литературы для AI-агентов BAAI research
- EvoArena: LLM-агенты набирают лишь 39,6% на бенчмарке динамически меняющихся сред MIT research
- Коллапс предпочтений мультимодального оценщика: кросс-модальное заражение в циклах самоэволюции агентов research