agents — AI Digest

30 апр GLM-5V-Turbo: нативная foundation-модель для мультимодальных агентов Z.ai research
7 мая xAI выпустила Grok 4.3 с контекстом 1M токенов, снижением цен на 40–60% и улучшенными результатами в агентных бенчмарках xAI models-llm
8 мая Anthropic запускает Claude Managed Agents: Dreams, Outcomes, мультиагентная оркестрация Anthropic tools
12 мая Google анонсировала Gemini Intelligence для Android с автоматизацией задач между приложениями Google tools
15 мая EVA-Bench: сквозной фреймворк для оценки голосовых агентов ServiceNow AI research
19 мая Google I/O 2026: Gemini 4, Jules V2, Firebase Studio GA, Android XR и Aluminium OS Google DeepMind models-llm
20 мая Gemini 3.5 Flash Released at Google I/O 2026: Frontier Coding + Agentic at Flash Speed Google DeepMind models-llm
2 июн Alibaba выпускает Qwen3.7-Plus: мультимодальный агент с поддержкой зрения, рассуждений и автономного выполнения задач Alibaba / Qwen models-llm
8 июн NVIDIA Nemotron 3 Ultra: открытая модель 550B MoE теперь доступна для агентных задач NVIDIA models-llm
18 июн GitHub Copilot App стал общедоступным GitHub tools
30 апр Yandex Commerce Protocol: первые ретейлеры запускают продажи через Алису AI Yandex industry
30 апр Mistral Workflows: public preview Temporal-движка для enterprise AI-оркестрации Mistral tools
30 апр Recursive Multi-Agent Systems: общение агентов в latent space Stanford University research
2 мая Eywa: фреймворк гетерогенного взаимодействия между LLM-агентами и научными foundation-моделями University of Illinois at Urbana-Champaign research
6 мая Anthropic запускает десять шаблонов ИИ-агентов для финансового сектора с интеграцией Microsoft 365 Anthropic tools
6 мая Roo Code объявляет о закрытии 15 мая и переходе к облачному агенту Roomote Roo Code tools
7 мая MiniMax Hailuo 2.3 запущена с Media Agent и генерацией видео в пакетном режиме на 50% дешевле MiniMax video
9 мая ByteDance выпускает Doubao-Seed-2.0-lite — первую омни-модальную модель в серии Seed ByteDance models-llm
10 мая AI Co-Mathematician от Google DeepMind достигает 48% на FrontierMath Tier 4 Google DeepMind research
11 мая Claude Code v2.1.139–v2.1.140: Agent View в режиме research preview и команда /goal Anthropic tools
13 мая Claude Platform на AWS достигает общей доступности Anthropic tools
13 мая RubricEM: мета-RL с декомпозицией политики под руководством рубрик за пределами верифицируемых наград Google research
14 мая Anthropic запускает Claude для малого бизнеса Anthropic tools
14 мая Notion запускает Developer Platform 3.5 с External Agents API, Workers и CLI Notion tools
19 мая Anthropic приобретает Stainless — стартап по SDK и MCP-инструментарию, которым пользовались OpenAI и Google Anthropic industry
20 мая Google Launches Gemini Spark: 24/7 Personal AI Agent in Google AI Ultra Google tools
20 мая Google Launches Antigravity 2.0: Agent-First Dev Platform with Desktop App, CLI, and Managed Agents API Google tools
20 мая Code as Agent Harness: Survey Positions Code as the Substrate for Executable Agent Systems (159 HF upvotes) Multi-institution (42 authors) research
20 мая SkillsVote: Lifecycle Governance of Agent Skills — Collection, Recommendation, Evolution (219 HF upvotes) Memtensor Research Group / IAAR-Shanghai research
4 июн Microsoft запускает Scout: всегда активный Autopilot AI-агент для Microsoft 365 Microsoft tools
6 июн OpenAI выпускает Lockdown Mode для блокировки эксфильтрации через prompt injection в ChatGPT OpenAI tools
12 июн OpenAI приобретает немецкий стартап Ona для развития постоянных облачных агентов Codex OpenAI industry
16 июн NVIDIA SkillSpector: сканер безопасности с открытым кодом для скиллов AI-агентов NVIDIA tools
18 июн OpenAI запускает Scheduled Tasks в ChatGPT и прекращает поддержку Pulse OpenAI tools
19 июн AWS Summit New York 2026: общая доступность Bedrock AgentCore, iOS-предпросмотр Kiro и анонс AWS Context Amazon tools
19 июн OpenAI публикует Deployment Simulation: предсказание поведения модели до релиза OpenAI research
19 июн ENPIRE: агенты кодирования ИИ замыкают цикл физических робототехнических исследований без участия человека NVIDIA / Carnegie Mellon University / UC Berkeley research
8 мая Automated Weak-to-Strong Researcher: AI-агенты превосходят людей в исследованиях по alignment Anthropic research
10 мая Anthropic устраняет агентическое поведение шантажа у Claude с помощью «Teaching Claude Why» Anthropic research
6 июн MLEvolve: самоэволюционирующий мультиагентный LLM-фреймворк для автоматического поиска алгоритмов машинного обучения research
11 июн Kwai Keye-VL-2.0: открытая мультимодальная MoE-модель 30B с контекстом 256K для длинного видео Kwai research
17 июн JoyAI-VL-Interaction: открытая VLM на 8B для взаимодействия в реальном времени с автономным управлением очередью речи JD.com research
6 мая Ctx2Skill: фреймворк самосовершенствования для автономного обнаружения навыков из контекста в LLM research
7 мая GitHub Copilot в VS Code, апрельские релизы: BYOK-ключи моделей, шаринг вкладок браузера, запись в терминал GitHub tools
7 мая AWS MCP Server достиг общей доступности с полным доступом к API и средствами аудита IAM Amazon Web Services tools
7 мая GitHub MCP Server: сканирование секретов в GA и сканирование зависимостей в публичном превью GitHub tools
8 мая Google DeepMind публикует годовой отчёт о результатах AlphaEvolve Google DeepMind research
8 мая AI Co-Mathematician: Google DeepMind достигает 48% на FrontierMath Tier 4 Google DeepMind research
9 мая OpenSearch-VL: открытый рецепт обучения мультимодальных агентов поиска Tencent Hunyuan research
9 мая ARIS: автономные ML-исследования с помощью состязательного взаимодействия мульти-агентов Shanghai Jiao Tong University research
14 мая LangChain запускает LangSmith Engine (публичная бета) и SmithDB на Interrupt 2026 LangChain tools
16 мая SDAR: агентное обучение с подкреплением через самодистилляцию для многоходовых агентов Zhejiang University / Meituan research
16 мая MemLens: бенчмарк мультимодальной долгосрочной памяти для моделей визуального языка NVIDIA research
19 мая MMSkills: переиспользуемые мультимодальные скиллы для универсальных визуальных агентов (105 апвоутов на HF) Shanghai Jiao Tong University research
2 июн Crafter: мультиагентный фреймворк для генерации редактируемых научных иллюстраций — +16 пунктов над базовыми моделями (103 апвоута на HF) Tsinghua University research
2 июн GrepSeek: обучение поисковых агентов для прямого взаимодействия с корпусом через команды оболочки (93 апвоута на HF) University of Massachusetts Amherst research
6 июн Детерминированный горизонт: теоретико-информационное доказательство ограничений расширенного CoT и необходимости использования инструментов research
8 июн Агентные трансформеры доказуемо обучаются поиску в глубину через обучение с подкреплением Carnegie Mellon University / Ohio State University research
11 июн Claude Code v2.1.172–v2.1.173: вложенные суб-агенты до 5 уровней глубины Anthropic tools
11 июн Arbor: автономное ML-исследование через уточнение дерева гипотез NLPIR Lab research
11 июн DeNovoSWE: генерация полного репозитория с нуля — рост с 5.8% до 47.2% на синтетических обучающих данных AweAI Team research
14 июн Moonshot AI открывает тестирование Kimi Work: десктопный агент с роем из 300 субагентов и WebBridge Moonshot AI tools
14 июн EvoArena: LLM-агенты набирают лишь 40% в динамически изменяющихся средах MIT / NUS / Salesforce research
14 июн WeaveBench: агенты компьютерного использования проваливаются на гибридных задачах GUI+CLI — 41% успешных выполнений Microsoft Research research
14 июн InterleaveThinker: RL-пайплайн «планировщик+критик» для перемежающейся генерации текста и изображений CUHK Multimedia Lab research
16 июн FastContext: специализированный субагент-исследователь сокращает использование токенов агентами по коду на 60% Microsoft / Shanghai Jiao Tong University research
18 июн Cursor 3.7: облачные dev-окружения и субагенты /in-cloud Cursor tools
19 июн Google DeepMind публикует AI Control Roadmap: эшелонированная защита от рассогласованных агентов кодирования Google DeepMind research
28 апр Firefly AI Assistant — Public Beta Adobe image
1 мая AutoResearchBench — бенчмарк автономного поиска научной литературы для AI-агентов BAAI research
5 мая OpenClaw 2026.5.3: плагин для передачи файлов и надёжность кроссплатформенного обмена сообщениями tools
11 мая AutoTTS: LLM-агенты автоматически открывают стратегии test-time scaling за $40 research
6 июн Сбер представил мультиагентного бизнес-ассистента на базе GigaChat для корпоративного банкинга на ПМЭФ 2026 Sber industry
12 июн InterleaveThinker: RL-фреймворк для агентной генерации чередующегося текста и изображений research
12 июн EvoArena: LLM-агенты набирают лишь 39,6% на бенчмарке динамически меняющихся сред MIT research
12 июн FORT-Searcher: фреймворк обучающих данных, устойчивых к «срезанию углов», для агентов глубокого поиска research
11 мая Alibaba интегрирует Qwen AI с Taobao для сквозного агентного шопинга Alibaba industry
13 мая Alibaba интегрирует Qwen AI с Taobao для запуска агентных разговорных покупок Alibaba industry
28 апр Claude Code v2.1.121 Anthropic tools
28 апр Codex CLI rust-v0.126.0-alpha.8 OpenAI tools
2 мая Апрельское обновление GitHub Copilot для Visual Studio 2026 года приносит агентные сценарии GitHub tools
4 мая Intern-Atlas: граф эволюции методологий из 1 млн статей как исследовательская инфраструктура для AI-учёных research
6 мая OpenClaw 2026.5.4: голосовой мост Google Meet через Gemini и аудио с учётом backpressure tools
6 мая HeavySkill: интернализация «тяжёлого мышления» как обучаемого агентного навыка через RL research
7 мая Cursor 3.3: разбивка использования контекста для диагностики агентов Cursor tools
7 мая LongSeeker: эластичная оркестрация контекста для агентов долгосрочного поиска Shanghai Jiao Tong University research
7 мая Исполняемые мировые модели для ARC-AGI-3: подход агента программирования без игровой специфики research
8 мая Claude Code v2.1.133: хуки уровня усилия, настройка baseRef для worktree и ключи политик администратора Anthropic tools
8 мая OpenClaw v2026.5.5: 60+ исправлений ошибок на платформах обмена сообщениями и у AI-провайдеров tools
9 мая Direct Corpus Interaction: переосмысление поиска для агентных систем TIGER-Lab research
12 мая NanoResearch: совместная эволюция навыков, памяти и политики для персонализированной AI-автоматизации исследований Shanghai AI Lab research
13 мая OpenClaw v2026.5.12-beta: вложение сессий субагентов и 20 ходов пинг-понга между агентами tools
8 июн SubtleMemory: бенчмарк выявляет систематические провалы агентов в тонком реляционном запоминании research
9 июн SWE-Explore: бенчмарк, выявляющий исследование репозитория как ключевое ограничение в агентах для написания кода Shanghai Jiao Tong University research
10 июн SearchSwarm: обучаемое делегирование для LLM-агентов в долгосрочных исследовательских задачах research
11 июн OpenCode v1.17.1–v1.17.3: восстановление аутентификации, права суб-агентов, лаунчер для Linux SST tools
16 июн Память реконструируется, а не извлекается: графовая память улучшает запоминание у LLM-агентов на 23% National University of Singapore research
19 июн Changelog GitHub Copilot от 18 июня: MAI-Code-1-Flash расширяется, AGENTS.md появляется в code review GitHub tools
19 июн Коллапс предпочтений мультимодального оценщика: кросс-модальное заражение в циклах самоэволюции агентов research
28 апр Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond HKUST/NUS/Oxford/NTU research
10 мая Яндекс запускает AI-агента Алисы для поиска записей о ветеранах ВОВ в российских архивах Yandex tools
20 мая Sber Opens Testing of GigaCowork: No-Code AI Agent Management Platform for Enterprises Sber tools