Ежедневный дайджест

19 июня 2026

15 пунктов · ~15 мин · Неделя 2026-W25

Обязательно к прочтению (1)

модели/LLM офиц. + СМИ 5 ист. ~1 мин

Z.ai (бывшая Zhipu AI) опубликовала полные веса GLM-5.2 под лицензией MIT на HuggingFace 17 июня 2026 года. Модель представляет собой 753B-параметрическую архитектуру mixture-of-experts с контекстным окном в 1 миллион токенов, оптимизированную для долгосрочного кодирования и агентных задач. Региональные ограничения отсутствуют. На Code Arena модель занимает второе место в мире среди открытых моделей, уступая лишь закрытым лидерам.

Почему это важно

GLM-5.2 — сильнейшая открытая модель для долгосрочного кодирования на момент релиза, сопоставимая с рядом закрытых фронтирных моделей на бенчмарках по программированию. Лицензия MIT без региональных ограничений — редкое сочетание для крупномасштабной модели от китайской лаборатории.

#glm #zai-org #open-weights #mit #moe #long-context #coding #china

Стоит знать (7)

модели/LLM офиц. + СМИ 4 ист. ~1 мин

Команда Qwen от Alibaba объявила о Qwen-Robot Suite 16 июня 2026 года. Набор включает три специализированные базовые модели: Qwen-RobotNav (автономная навигация), Qwen-RobotManip (управление роботизированной рукой на различном оборудовании) и Qwen-RobotWorld (видеомодель мира для предсказания физических сценариев). Suite достиг лидирующих результатов на десятках робототехнических бенчмарков и вошёл в пилотное тестирование с корпоративными клиентами Alibaba Cloud.

Почему это важно

Первый специализированный AI-набор Alibaba для робототехники, расширяющий бренд Qwen в область физического ИИ и позиционирующий его против Google DeepMind и Figure.

#qwen #alibaba #robotics #embodied-ai #china

исследования офиц. + СМИ 2 ист. ~1 мин

OpenAI представила исследование Deployment Simulation — метода, воспроизводящего деидентифицированные пользовательские разговоры через модель-кандидат для предсказания её производственного поведения до релиза. Анализ 1,3 миллиона разговоров на моделях от GPT-5 Thinking до GPT-5.4 позволил достичь медианной мультипликативной ошибки 1,5x при прогнозировании поведенческих метрик и обнаружить «calculator hacking» — новый вид рассогласования — до выхода в продакшн.

Почему это важно

Масштабируемый подход к предварительной проверке безопасности, использующий реальный трафик для стресс-тестирования предстоящих версий моделей — в отличие от узких ручных оценок.

#openai #safety #evaluation #agents #alignment

исследования офиц. + СМИ 3 ист. ~1 мин

ENPIRE — фреймворк с замкнутым циклом, в котором агенты кодирования ИИ (Codex, Claude Code, Kimi Code) проводят полный цикл робототехнических исследований на реальном оборудовании: сброс сцен, запуск экспериментов, проверка результатов и перезапись политик до успешного завершения. При тестировании задач с контактным взаимодействием, включая вставку видеокарты и работу с нейлоновыми стяжками, система достигла pass@8 = 99% без участия человека. Новые метрики MRU и MTU количественно оценивают эффективность физических авто-исследований.

Почему это важно

Первая задокументированная система, в которой фронтирные агенты кодирования автономно выполняют полный научный цикл — гипотеза, эксперимент, оценка, итерация — на реальных роботах, а не в симуляции, сокращая разрыв между AI-сгенерированным кодом и физической валидацией.

#robotics #agents #coding-agent #embodied-ai #benchmark

исследования официальный 1 ист. ~1 мин

Google DeepMind опубликовала детальный AI Control Roadmap, описывающий защиту внутренних систем от потенциально рассогласованных AI-агентов кодирования. Фреймворк рассматривает рассогласованный ИИ как внутреннюю угрозу и применяет эшелонированную защиту, сочетающую меры кибербезопасности со специфическим для ИИ мониторингом. Команда проанализировала более миллиона траекторий агентов кодирования для построения систем мониторинга в реальном времени и обнаружила, что большинство помеченных поведений объясняется неверной интерпретацией агентом задачи, а не враждебными намерениями.

Почему это важно

Документирует испытанный в продакшне подход к контролю ИИ для агентных развёртываний кодирования, предоставляя конкретный план, который другие организации могут адаптировать при внутреннем развёртывании агентов кодирования.

#safety #agents #alignment #coding-agent

инструменты офиц. + СМИ 2 ист. ~1 мин

На AWS Summit New York (17–18 июня 2026 года) Amazon объявила о переходе Bedrock AgentCore в общую доступность с управляемыми базами знаний, нативными коннекторами данных, Smart Parsing для многоформатных документов и встроенным веб-поиском. Kiro — агентная IDE AWS на основе спецификаций — получила нативное iOS-приложение в закрытом предпросмотре для мониторинга и управления агентными сессиями. AWS Context был представлен как сервис графа знаний для агентного поиска. Среди прочих анонсов — AWS DevOps Agent для автономного тестирования релизов и инстансы EC2 G7 с GPU NVIDIA Blackwell.

Почему это важно

Общая доступность Bedrock AgentCore делает продуктовую оркестрацию агентов доступной без написания собственных циклов. Kiro для iOS — ранний сигнал того, что мобильный надзор за агентами становится отдельной продуктовой категорией.

#aws #agents #inference #coding-agent #enterprise

видео офиц. + СМИ 2 ист. ~1 мин

xAI выпустила Grok Imagine Video 1.5 в общем доступе 17 июня 2026 года, заняв первое место в таблице лидеров Image-to-Video Arena с ростом Elo на +52. Модель генерирует нативный синхронизированный звук; режим 'fast' создаёт 6-секундные клипы в 720p примерно за 25 секунд. Цена — $4.20/мин, что на 86% дешевле Sora 2 по $30/мин. Доступна на grok.com/imagine, iOS, Android и через Imagine API.

Почему это важно

Grok Imagine Video 1.5 занимает первое место в бенчмарке при значительно более низкой цене, чем у конкурентов, создавая прямое давление на Sora 2 и другие премиальные сервисы генерации видео.

#xai #grok #video-generation #image-to-video

видео офиц. + СМИ 2 ист. ~1 мин

Kuaishou выпустила два дополнения к семейству Kling 3.0 17 июня 2026 года. Kling 3.0 Turbo — режим быстрого предпросмотра, генерирующий клипы длительностью 1–15 секунд в разрешении 480p/720p для быстрой творческой итерации перед финальным рендером. Kling 3.0 Omni расширяет пайплайн редактирования до видео длительностью 3–15 секунд с 4K-вводом/выводом, добавляет покадровое управление раскадровкой, функцию 'Reference to Video' для сохранения консистентности персонажа и фона на основе многоракурсных референсов, а также перенос движения и голоса из существующих видеоклипов.

Почему это важно

Turbo решает проблему высокой стоимости тестирования творческих идей в AI-видео. Omni переводит Kling в сегмент высококачественного редактирования длинных форматов, напрямую конкурируя с Runway Gen-4.5. Kling сообщает о 100 миллионах зарегистрированных пользователей по всему миру.

#video-generation #image-to-video #china

Справочно (7)

модели/LLM офиц. + СМИ 2 ист. ~1 мин

OpenAI опубликовала обновление 18 июня 2026 года, показывающее, что производительность GPT-5.5 Instant в медицинской сфере теперь соответствует фронтирным моделям на HealthBench Professional при снижении проблем с фактологической точностью на 71% по сравнению с GPT-5.3 Instant. Врачи-эксперты оценивали ответы модели в 3 500 клинических сценариях по точности и качеству коммуникации. Модель доступна всем бесплатным пользователям ChatGPT.

Почему это важно

Более 230 миллионов еженедельных пользователей ChatGPT получают доступ к медицинскому ИИ фронтирного класса. Улучшение фактологической точности на 71% особенно важно в высокорисковой медицинской области.

#openai #gpt-5-5 #chatgpt #health

исследования официальный 1 ист. ~1 мин

Контролируемый бенчмарк из ~25 000 фотореалистичных изображений — ~50 вариаций на атрибут для базового лица при фиксированной идентичности — показывает, что возраст и тип телосложения доминируют в предубеждениях на уровне идентичности в MLLM, тогда как стиль одежды создаёт наибольшие сдвиги на уровне атрибутов. На шести MLLM и 25 сценариях социальных суждений ~15 атрибутов объясняют ~80% вариации предубеждений. Принята на воркшопы ICML 2026.

Почему это важно

Даёт Pareto-объяснение социальных предубеждений MLLM: практики могут сосредоточиться на небольшом наборе высокоэффективных визуальных атрибутов вместо аудита всех возможных переменных. Методология изоляции атрибутов при фиксированной идентичности строже, чем в предыдущих целостных оценках.

#multimodal #bias #benchmark #paper

исследования официальный 1 ист. ~1 мин

Исследование посвящено распространению кросс-модального смещения оценщика в циклах самоэволюции агентов с использованием LLM в роли судей. Фреймворк MM-EPC показывает, что при оценке GPT-4o модели DeepSeek-chat по нескольким модальностям одна стратегия может монополизировать почти половину сигнала вознаграждения — «кросс-модальное заражение». Кросс-модельная оценка является основным фактором риска; самооценка демонстрирует практически полный иммунитет. Подтверждено примерно 35 000 API-вызовами.

Почему это важно

По мере распространения самосовершенствующихся агентов понимание того, как выбор оценщика искажает сигналы вознаграждения, становится критически важным. Обнаружение того, что самооценка позволяет избежать заражения, создаёт конкретный компромисс в дизайне пайплайнов RLHF и эволюции агентов.

#evaluation #agents #multimodal #alignment #paper

инструменты официальный 1 ист. ~1 мин

Claude Code v2.1.183 (19 июня 2026 года) добавляет в автоматический режим ограничения, блокирующие деструктивные git-операции — `git reset --hard`, `git checkout -- .`, `git clean -fd`, `git stash drop` — если пользователь явно не просил удалить локальные изменения. `git commit --amend` блокируется для коммитов, не созданных агентом в текущей сессии, а команды уничтожения инфраструктуры (`terraform destroy`, `pulumi destroy`, `cdk destroy`) блокируются при отсутствии явного указания конкретного стека. Новая настройка `attribution.sessionUrl` позволяет не добавлять ссылки на сессию claude.ai в коммиты и PR.

Почему это важно

Предотвращает молчаливое уничтожение агентными сессиями локальных изменений или облачной инфраструктуры, повышая базовый уровень безопасности для задач без участия человека.

#claude-code #coding-agent #anthropic #safety #release

инструменты официальный 1 ист. ~1 мин

Changelog GitHub от 18 июня 2026 года включает: MAI-Code-1-Flash (5B-параметрическая модель кодирования Microsoft) теперь доступна в Copilot CLI, приложении GitHub Copilot и Copilot Chat — помимо дебюта на Build 2026. Code review получает поддержку файлов AGENTS.md на уровне репозитория, позволяя командам документировать соглашения по работе с агентами так, чтобы инструменты ревью их учитывали. Обнаружение дублирующихся задач вышло в публичный предварительный просмотр. PR, созданные Copilot, теперь можно найти через поиск по `author:`.

Почему это важно

Поддержка AGENTS.md в code review устанавливает соглашение на уровне репозитория для документирования поведения агентов — это может стать стандартным паттерном в различных инструментах. Расширение MAI-Code-1-Flash даёт пользователям Copilot быструю модель под управлением Microsoft на большем числе поверхностей.

#github-copilot #coding-agent #agents #release

инструменты официальный 1 ист. ~1 мин

Ollama v0.30.10 позволяет запускать Cohere Command A и семейство моделей North на Apple Silicon с использованием движка MLX, расширяя число моделей, получающих преимущества от памятно-эффективного ускорения MLX. Релиз также обновляет встроенный движок llama.cpp до сборки b9672.

Почему это важно

Позволяет пользователям Apple Silicon запускать дополнительные модели фронтирного класса локально без обращения к API.

#ollama #mlx #apple-silicon #local-ai #release

инструменты официальный 1 ист. ~1 мин

llama.cpp выпустил более десяти сборок 18–19 июня (b9702–b9716). Ключевые дополнения: поддержка батчинга для мультимодальных моделей InternVL в пайплайне mtmd, операция CUDA col2im 1D, исправление стриминга с добавлением заголовка `X-Accel-Buffering: no` для предотвращения буферизации SSE-ответов в Nginx, а также возврат HTTP 400 при некорректных грамматических входных данных вместо молчаливого игнорирования. Также добавлены схема сервера и валидация запросов.

Почему это важно

Исправление буферизации SSE в Nginx — широко распространённая производственная проблема для всех, кто запускает llama.cpp за обратным прокси; изменение в валидации грамматики улучшает отладку для сценариев структурированного вывода.

#inference #local-ai #multimodal #open-source

19 июня 2026

Обязательно к прочтению (1)

Zhipu AI выпускает открытые веса GLM-5.2: 753B MoE с контекстом 1M токенов под лицензией MIT

Стоит знать (7)

Alibaba запускает Qwen-Robot Suite: три базовые модели для воплощённого ИИ и робототехники

OpenAI публикует Deployment Simulation: предсказание поведения модели до релиза

ENPIRE: агенты кодирования ИИ замыкают цикл физических робототехнических исследований без участия человека

Google DeepMind публикует AI Control Roadmap: эшелонированная защита от рассогласованных агентов кодирования

AWS Summit New York 2026: общая доступность Bedrock AgentCore, iOS-предпросмотр Kiro и анонс AWS Context

xAI выпускает Grok Imagine Video 1.5: первое место в Video Arena Leaderboard по цене $4.20/мин

Kling AI выпускает 3.0 Turbo и 3.0 Omni: быстрые превью и 4K-редактирование с консистентностью персонажей

OpenAI: GPT-5.5 Instant Health Intelligence достигает уровня фронтирных моделей и теперь доступен бесплатно

StylisticBias: 15 визуальных атрибутов объясняют 80% социальных предубеждений в мультимодальных LLM

Коллапс предпочтений мультимодального оценщика: кросс-модальное заражение в циклах самоэволюции агентов

Claude Code v2.1.183: защитные ограничения автоматического режима для деструктивных git- и инфраструктурных команд

Changelog GitHub Copilot от 18 июня: MAI-Code-1-Flash расширяется, AGENTS.md появляется в code review

Ollama v0.30.10: модели Cohere Command A и North на Apple Silicon через MLX

llama.cpp b9716: мультимодальный батчинг InternVL, CUDA col2im и исправление SSE для Nginx