#benchmark
- Microsoft Build 2026: запуск семейства моделей MAI для GitHub Copilot без зависимости от OpenAI Microsoft models-llm
- xAI выпустила Grok 4.3 с контекстом 1M токенов, снижением цен на 40–60% и улучшенными результатами в агентных бенчмарках xAI models-llm
- SenseNova-U1: open-source унифицированное мультимодальное понимание и генерация через NEO-unify SenseTime research
- MulTaBench: бенчмаркинг мультимодального табличного обучения с текстом и изображениями Technion research
- EVA-Bench: сквозной фреймворк для оценки голосовых агентов ServiceNow AI research
- ExploitBench: Claude Mythos Preview и GPT-5.5 автономно создают настоящие браузерные эксплойты Anthropic research
- VibeThinker-3B достигает показателей frontier-уровня на бенчмарках рассуждений через curriculum RL WeiboAI research
- AI Co-Mathematician от Google DeepMind достигает 48% на FrontierMath Tier 4 Google DeepMind research
- Baidu выпускает ERNIE 5.1 при 6% отраслевых затрат на предобучение и входит в мировой топ-10 поиска Baidu models-llm
- RubricEM: мета-RL с декомпозицией политики под руководством рубрик за пределами верифицируемых наград Google research
- SOOHAK: фронтирные LLM решают сложную математику, но не распознают неразрешимые задачи research
- ENPIRE: агенты кодирования ИИ замыкают цикл физических робототехнических исследований без участия человека NVIDIA / Carnegie Mellon University / UC Berkeley research
- MaxProof: модель MiniMax превышает пороги золотых медалей IMO и USAMO в формальной математике MiniMax research
- AI Co-Mathematician: Google DeepMind достигает 48% на FrontierMath Tier 4 Google DeepMind research
- MemLens: бенчмарк мультимодальной долгосрочной памяти для моделей визуального языка NVIDIA research
- Judge Circuits: механистическое объяснение непоследовательности LLM-as-judge по форматам research
- CiteVQA: бенчмарк атрибуции доказательств для надёжной document intelligence (178 апвоутов на HF) Peking University / Shanghai Artificial Intelligence Laboratory research
- MMSkills: переиспользуемые мультимодальные скиллы для универсальных визуальных агентов (105 апвоутов на HF) Shanghai Jiao Tong University research
- Crafter: мультиагентный фреймворк для генерации редактируемых научных иллюстраций — +16 пунктов над базовыми моделями (103 апвоута на HF) Tsinghua University research
- EvoArena: LLM-агенты набирают лишь 40% в динамически изменяющихся средах MIT / NUS / Salesforce research
- WeaveBench: агенты компьютерного использования проваливаются на гибридных задачах GUI+CLI — 41% успешных выполнений Microsoft Research research
- Исследование Anthropic: успех в агентном программировании определяется экспертизой в предметной области, а не навыками программирования Anthropic research
- Programming with Data: test-driven data engineering для самоулучшающихся LLM OpenDataLab research
- AutoResearchBench — бенчмарк автономного поиска научной литературы для AI-агентов BAAI research
- GigaChat сдаёт инженерную аттестацию в Московском энергетическом институте Sber industry
- Soohak: 64 математика создали исследовательский бенчмарк, который ставит frontier LLM в тупик Seoul National University research
- EvoArena: LLM-агенты набирают лишь 39,6% на бенчмарке динамически меняющихся сред MIT research
- Исполняемые мировые модели для ARC-AGI-3: подход агента программирования без игровой специфики research
- Learning, Fast and Slow: двойная весовая архитектура для непрерывной адаптации LLM research
- SubtleMemory: бенчмарк выявляет систематические провалы агентов в тонком реляционном запоминании research
- VideoKR: обучающий корпус из 315K примеров для знание- и рассуждение-интенсивного понимания видео Yale University research
- SWE-Explore: бенчмарк, выявляющий исследование репозитория как ключевое ограничение в агентах для написания кода Shanghai Jiao Tong University research
- StylisticBias: 15 визуальных атрибутов объясняют 80% социальных предубеждений в мультимодальных LLM research