Ежедневный дайджест
15 пунктов · ~15 мин · Неделя 2026-W25
Обязательно к прочтению (1)
Zhipu AI выпускает открытые веса GLM-5.2: 753B MoE с контекстом 1M токенов под лицензией MIT
Zhipu AI / Z.aiZ.ai (бывшая Zhipu AI) опубликовала полные веса GLM-5.2 под лицензией MIT на HuggingFace 17 июня 2026 года. Модель представляет собой 753B-параметрическую архитектуру mixture-of-experts с контекстным окном в 1 миллион токенов, оптимизированную для долгосрочного кодирования и агентных задач. Региональные ограничения отсутствуют. На Code Arena модель занимает второе место в мире среди открытых моделей, уступая лишь закрытым лидерам.
Стоит знать (7)
Alibaba запускает Qwen-Robot Suite: три базовые модели для воплощённого ИИ и робототехники
Alibaba / QwenКоманда Qwen от Alibaba объявила о Qwen-Robot Suite 16 июня 2026 года. Набор включает три специализированные базовые модели: Qwen-RobotNav (автономная навигация), Qwen-RobotManip (управление роботизированной рукой на различном оборудовании) и Qwen-RobotWorld (видеомодель мира для предсказания физических сценариев). Suite достиг лидирующих результатов на десятках робототехнических бенчмарков и вошёл в пилотное тестирование с корпоративными клиентами Alibaba Cloud.
OpenAI публикует Deployment Simulation: предсказание поведения модели до релиза
OpenAIOpenAI представила исследование Deployment Simulation — метода, воспроизводящего деидентифицированные пользовательские разговоры через модель-кандидат для предсказания её производственного поведения до релиза. Анализ 1,3 миллиона разговоров на моделях от GPT-5 Thinking до GPT-5.4 позволил достичь медианной мультипликативной ошибки 1,5x при прогнозировании поведенческих метрик и обнаружить «calculator hacking» — новый вид рассогласования — до выхода в продакшн.
ENPIRE: агенты кодирования ИИ замыкают цикл физических робототехнических исследований без участия человека
NVIDIA / Carnegie Mellon University / UC BerkeleyENPIRE — фреймворк с замкнутым циклом, в котором агенты кодирования ИИ (Codex, Claude Code, Kimi Code) проводят полный цикл робототехнических исследований на реальном оборудовании: сброс сцен, запуск экспериментов, проверка результатов и перезапись политик до успешного завершения. При тестировании задач с контактным взаимодействием, включая вставку видеокарты и работу с нейлоновыми стяжками, система достигла pass@8 = 99% без участия человека. Новые метрики MRU и MTU количественно оценивают эффективность физических авто-исследований.
Google DeepMind публикует AI Control Roadmap: эшелонированная защита от рассогласованных агентов кодирования
Google DeepMindGoogle DeepMind опубликовала детальный AI Control Roadmap, описывающий защиту внутренних систем от потенциально рассогласованных AI-агентов кодирования. Фреймворк рассматривает рассогласованный ИИ как внутреннюю угрозу и применяет эшелонированную защиту, сочетающую меры кибербезопасности со специфическим для ИИ мониторингом. Команда проанализировала более миллиона траекторий агентов кодирования для построения систем мониторинга в реальном времени и обнаружила, что большинство помеченных поведений объясняется неверной интерпретацией агентом задачи, а не враждебными намерениями.
AWS Summit New York 2026: общая доступность Bedrock AgentCore, iOS-предпросмотр Kiro и анонс AWS Context
AmazonНа AWS Summit New York (17–18 июня 2026 года) Amazon объявила о переходе Bedrock AgentCore в общую доступность с управляемыми базами знаний, нативными коннекторами данных, Smart Parsing для многоформатных документов и встроенным веб-поиском. Kiro — агентная IDE AWS на основе спецификаций — получила нативное iOS-приложение в закрытом предпросмотре для мониторинга и управления агентными сессиями. AWS Context был представлен как сервис графа знаний для агентного поиска. Среди прочих анонсов — AWS DevOps Agent для автономного тестирования релизов и инстансы EC2 G7 с GPU NVIDIA Blackwell.
xAI выпускает Grok Imagine Video 1.5: первое место в Video Arena Leaderboard по цене $4.20/мин
xAIxAI выпустила Grok Imagine Video 1.5 в общем доступе 17 июня 2026 года, заняв первое место в таблице лидеров Image-to-Video Arena с ростом Elo на +52. Модель генерирует нативный синхронизированный звук; режим 'fast' создаёт 6-секундные клипы в 720p примерно за 25 секунд. Цена — $4.20/мин, что на 86% дешевле Sora 2 по $30/мин. Доступна на grok.com/imagine, iOS, Android и через Imagine API.
Kling AI выпускает 3.0 Turbo и 3.0 Omni: быстрые превью и 4K-редактирование с консистентностью персонажей
KuaishouKuaishou выпустила два дополнения к семейству Kling 3.0 17 июня 2026 года. Kling 3.0 Turbo — режим быстрого предпросмотра, генерирующий клипы длительностью 1–15 секунд в разрешении 480p/720p для быстрой творческой итерации перед финальным рендером. Kling 3.0 Omni расширяет пайплайн редактирования до видео длительностью 3–15 секунд с 4K-вводом/выводом, добавляет покадровое управление раскадровкой, функцию 'Reference to Video' для сохранения консистентности персонажа и фона на основе многоракурсных референсов, а также перенос движения и голоса из существующих видеоклипов.
Справочно (7)
OpenAI: GPT-5.5 Instant Health Intelligence достигает уровня фронтирных моделей и теперь доступен бесплатно
OpenAIOpenAI опубликовала обновление 18 июня 2026 года, показывающее, что производительность GPT-5.5 Instant в медицинской сфере теперь соответствует фронтирным моделям на HealthBench Professional при снижении проблем с фактологической точностью на 71% по сравнению с GPT-5.3 Instant. Врачи-эксперты оценивали ответы модели в 3 500 клинических сценариях по точности и качеству коммуникации. Модель доступна всем бесплатным пользователям ChatGPT.
StylisticBias: 15 визуальных атрибутов объясняют 80% социальных предубеждений в мультимодальных LLM
Контролируемый бенчмарк из ~25 000 фотореалистичных изображений — ~50 вариаций на атрибут для базового лица при фиксированной идентичности — показывает, что возраст и тип телосложения доминируют в предубеждениях на уровне идентичности в MLLM, тогда как стиль одежды создаёт наибольшие сдвиги на уровне атрибутов. На шести MLLM и 25 сценариях социальных суждений ~15 атрибутов объясняют ~80% вариации предубеждений. Принята на воркшопы ICML 2026.
Коллапс предпочтений мультимодального оценщика: кросс-модальное заражение в циклах самоэволюции агентов
Исследование посвящено распространению кросс-модального смещения оценщика в циклах самоэволюции агентов с использованием LLM в роли судей. Фреймворк MM-EPC показывает, что при оценке GPT-4o модели DeepSeek-chat по нескольким модальностям одна стратегия может монополизировать почти половину сигнала вознаграждения — «кросс-модальное заражение». Кросс-модельная оценка является основным фактором риска; самооценка демонстрирует практически полный иммунитет. Подтверждено примерно 35 000 API-вызовами.
Claude Code v2.1.183: защитные ограничения автоматического режима для деструктивных git- и инфраструктурных команд
AnthropicClaude Code v2.1.183 (19 июня 2026 года) добавляет в автоматический режим ограничения, блокирующие деструктивные git-операции — `git reset --hard`, `git checkout -- .`, `git clean -fd`, `git stash drop` — если пользователь явно не просил удалить локальные изменения. `git commit --amend` блокируется для коммитов, не созданных агентом в текущей сессии, а команды уничтожения инфраструктуры (`terraform destroy`, `pulumi destroy`, `cdk destroy`) блокируются при отсутствии явного указания конкретного стека. Новая настройка `attribution.sessionUrl` позволяет не добавлять ссылки на сессию claude.ai в коммиты и PR.
Changelog GitHub Copilot от 18 июня: MAI-Code-1-Flash расширяется, AGENTS.md появляется в code review
GitHubChangelog GitHub от 18 июня 2026 года включает: MAI-Code-1-Flash (5B-параметрическая модель кодирования Microsoft) теперь доступна в Copilot CLI, приложении GitHub Copilot и Copilot Chat — помимо дебюта на Build 2026. Code review получает поддержку файлов AGENTS.md на уровне репозитория, позволяя командам документировать соглашения по работе с агентами так, чтобы инструменты ревью их учитывали. Обнаружение дублирующихся задач вышло в публичный предварительный просмотр. PR, созданные Copilot, теперь можно найти через поиск по `author:`.
Ollama v0.30.10: модели Cohere Command A и North на Apple Silicon через MLX
OllamaOllama v0.30.10 позволяет запускать Cohere Command A и семейство моделей North на Apple Silicon с использованием движка MLX, расширяя число моделей, получающих преимущества от памятно-эффективного ускорения MLX. Релиз также обновляет встроенный движок llama.cpp до сборки b9672.
llama.cpp b9716: мультимодальный батчинг InternVL, CUDA col2im и исправление SSE для Nginx
llama.cpp выпустил более десяти сборок 18–19 июня (b9702–b9716). Ключевые дополнения: поддержка батчинга для мультимодальных моделей InternVL в пайплайне mtmd, операция CUDA col2im 1D, исправление стриминга с добавлением заголовка `X-Accel-Buffering: no` для предотвращения буферизации SSE-ответов в Nginx, а также возврат HTTP 400 при некорректных грамматических входных данных вместо молчаливого игнорирования. Также добавлены схема сервера и валидация запросов.