benchmark — AI Digest

2 июн Microsoft Build 2026: запуск семейства моделей MAI для GitHub Copilot без зависимости от OpenAI Microsoft models-llm
7 мая xAI выпустила Grok 4.3 с контекстом 1M токенов, снижением цен на 40–60% и улучшенными результатами в агентных бенчмарках xAI models-llm
13 мая SenseNova-U1: open-source унифицированное мультимодальное понимание и генерация через NEO-unify SenseTime research
15 мая MulTaBench: бенчмаркинг мультимодального табличного обучения с текстом и изображениями Technion research
15 мая EVA-Bench: сквозной фреймворк для оценки голосовых агентов ServiceNow AI research
18 мая ExploitBench: Claude Mythos Preview и GPT-5.5 автономно создают настоящие браузерные эксплойты Anthropic research
17 июн VibeThinker-3B достигает показателей frontier-уровня на бенчмарках рассуждений через curriculum RL WeiboAI research
10 мая AI Co-Mathematician от Google DeepMind достигает 48% на FrontierMath Tier 4 Google DeepMind research
13 мая Baidu выпускает ERNIE 5.1 при 6% отраслевых затрат на предобучение и входит в мировой топ-10 поиска Baidu models-llm
13 мая RubricEM: мета-RL с декомпозицией политики под руководством рубрик за пределами верифицируемых наград Google research
18 мая SOOHAK: фронтирные LLM решают сложную математику, но не распознают неразрешимые задачи research
19 июн ENPIRE: агенты кодирования ИИ замыкают цикл физических робототехнических исследований без участия человека NVIDIA / Carnegie Mellon University / UC Berkeley research
14 июн MaxProof: модель MiniMax превышает пороги золотых медалей IMO и USAMO в формальной математике MiniMax research
8 мая AI Co-Mathematician: Google DeepMind достигает 48% на FrontierMath Tier 4 Google DeepMind research
16 мая MemLens: бенчмарк мультимодальной долгосрочной памяти для моделей визуального языка NVIDIA research
18 мая Judge Circuits: механистическое объяснение непоследовательности LLM-as-judge по форматам research
19 мая CiteVQA: бенчмарк атрибуции доказательств для надёжной document intelligence (178 апвоутов на HF) Peking University / Shanghai Artificial Intelligence Laboratory research
19 мая MMSkills: переиспользуемые мультимодальные скиллы для универсальных визуальных агентов (105 апвоутов на HF) Shanghai Jiao Tong University research
2 июн Crafter: мультиагентный фреймворк для генерации редактируемых научных иллюстраций — +16 пунктов над базовыми моделями (103 апвоута на HF) Tsinghua University research
14 июн EvoArena: LLM-агенты набирают лишь 40% в динамически изменяющихся средах MIT / NUS / Salesforce research
14 июн WeaveBench: агенты компьютерного использования проваливаются на гибридных задачах GUI+CLI — 41% успешных выполнений Microsoft Research research
17 июн Исследование Anthropic: успех в агентном программировании определяется экспертизой в предметной области, а не навыками программирования Anthropic research
30 апр Programming with Data: test-driven data engineering для самоулучшающихся LLM OpenDataLab research
1 мая AutoResearchBench — бенчмарк автономного поиска научной литературы для AI-агентов BAAI research
8 мая GigaChat сдаёт инженерную аттестацию в Московском энергетическом институте Sber industry
11 мая Soohak: 64 математика создали исследовательский бенчмарк, который ставит frontier LLM в тупик Seoul National University research
12 июн EvoArena: LLM-агенты набирают лишь 39,6% на бенчмарке динамически меняющихся сред MIT research
7 мая Исполняемые мировые модели для ARC-AGI-3: подход агента программирования без игровой специфики research
13 мая Learning, Fast and Slow: двойная весовая архитектура для непрерывной адаптации LLM research
8 июн SubtleMemory: бенчмарк выявляет систематические провалы агентов в тонком реляционном запоминании research
8 июн VideoKR: обучающий корпус из 315K примеров для знание- и рассуждение-интенсивного понимания видео Yale University research
9 июн SWE-Explore: бенчмарк, выявляющий исследование репозитория как ключевое ограничение в агентах для написания кода Shanghai Jiao Tong University research
19 июн StylisticBias: 15 визуальных атрибутов объясняют 80% социальных предубеждений в мультимодальных LLM research