Ежедневный дайджест
21 пункт · ~21 мин · Неделя 2026-W20
Обязательно к прочтению (4)
OpenAI запускает компанию по внедрению за $4 млрд и приобретает Tomoro
OpenAI11 мая 2026 года OpenAI запустила OpenAI Deployment Company — совместное предприятие с мажоритарным участием OpenAI, поддержанное $4 млрд от 19 инвестиционных фирм, включая TPG, Bain Capital и McKinsey. Одновременно OpenAI договорилась о приобретении эдинбургской консалтинговой компании в области прикладного ИИ Tomoro, чтобы с первого дня укомплектовать новую структуру примерно 150 Forward Deployed Engineers. Мандат Deployment Company — встраивать FDE в корпорации для перестройки рабочих процессов на основе frontier-моделей.
Thinking Machines Lab представляет TML-Interaction-Small: мультимодальная модель MoE на 276B для работы в реальном времени
Thinking Machines Lab11 мая 2026 года Thinking Machines Lab (основана бывшим техническим директором OpenAI Мирой Мурати) выпустила research preview TML-Interaction-Small — модель MoE на 276B параметров (12B активных), использующую архитектуру микро-ходов на 200 мс для одновременной обработки аудио, видео и текста без ожидания хода. На FD-bench v1.5 она достигает задержки смены хода менее 400 мс, опережая Gemini-3.1-flash-live и GPT-realtime-2.0. Доступ ограничен исследовательскими партнёрами.
SenseNova-U1: open-source унифицированное мультимодальное понимание и генерация через NEO-unify
SenseTimeSenseNova-U1 предлагает NEO-unify — архитектуру, устраняющую как визуальные энкодеры, так и VAE для нативного объединения понимания и генерации изображений с первых принципов. Два варианта модели (8B dense и 30B MoE) достигают производительности, сопоставимой с лучшими VLM, ориентированными только на понимание, при одновременной генерации изображений с коэффициентом сжатия 32×. Веса и код полностью открыты.
Codex-Spark (GPT-5.3-Codex-Spark) Research Preview: модель для кодирования с 1000+ токенов/сек
OpenAIOpenAI выпустила GPT-5.3-Codex-Spark в виде research preview для пользователей ChatGPT Pro в приложении Codex, CLI и расширении VS Code. Модель оптимизирована для превышения 1000 токенов в секунду при контекстном окне 128k, что обеспечивает прерывание и перенаправление в реальном времени во время генерации. API-доступ предоставляется ограниченному кругу design-партнёров.
Стоит знать (8)
Alibaba интегрирует Qwen AI с Taobao для запуска агентных разговорных покупок
Alibaba11 мая 2026 года Alibaba объявила о планах глубокой интеграции платформы Qwen AI с Taobao и Tmall, предоставив приложению Qwen прямой доступ к более чем четырём миллиардам товарных позиций, чтобы пользователи могли просматривать, сравнивать и приобретать товары через разговор на естественном языке, а не через ключевые слова. Taobao также запустит AI-шопинг-ассистент на базе Qwen с виртуальной примеркой, инструментом отслеживания цен за 30 дней и библиотекой навыков агента, охватывающей логистику и послепродажное обслуживание.
Baidu выпускает ERNIE 5.1 при 6% отраслевых затрат на предобучение и входит в мировой топ-10 поиска
Baidu8–9 мая 2026 года Baidu официально выпустила ERNIE 5.1, сократив общее количество параметров в три раза, а активных — вдвое по сравнению с ERNIE 5.0, снизив при этом затраты на предобучение примерно до 6% от сопоставимых отраслевых моделей. Модель заняла 4-е место в мировом рейтинге LMArena Search Leaderboard с баллом 1 223, став единственной китайской моделью в мировом топ-10 по поиску. 13–14 мая на конференции разработчиков Create 2026 в Пекине Baidu дополнительно представила ERNIE 5.1.
RubricEM: мета-RL с декомпозицией политики под руководством рубрик за пределами верифицируемых наград
GoogleRubricEM предлагает использовать рубрики как общий интерфейс, структурирующий выполнение политики, обратную связь судьи и память агента на протяжении всего жизненного цикла исследовательского агента. Фреймворк сочетает поэтапную декомпозицию политики с новой целевой функцией Stage-Structured GRPO для более плотных семантических наград при долгосрочных задачах. RubricEM-8B сопоставима с проприетарными системами глубокого исследования на четырёх бенчмарках длинных исследовательских работ.
Claude Platform на AWS достигает общей доступности
Anthropic11 мая 2026 года AWS объявила об общей доступности Claude Platform на AWS, став первым облачным провайдером, предлагающим нативный опыт Anthropic Claude Platform через существующие аккаунты AWS. Клиенты проходят аутентификацию через IAM, получают единый биллинг в одном счёте AWS и доступ к Claude Managed Agents, веб-поиску, выполнению кода, Files API, Skills, MCP-коннекторам, кэшированию промптов и цитированию — всё это эксплуатируется Anthropic за пределами периметра безопасности AWS. Сервис доступен в 18 глобальных регионах.
OpenAI запускает Daybreak: платформу для обнаружения уязвимостей на базе ИИ
OpenAI12 мая 2026 года OpenAI анонсировала Daybreak — платформу кибербезопасности, сочетающую варианты модели GPT-5.5 и Codex Security для помощи организациям в выявлении, валидации и устранении программных уязвимостей до их эксплуатации злоумышленниками. Платформа предлагает три уровня GPT-5.5: стандартный, Trusted Access for Cyber для проверенных защитников и GPT-5.5-Cyber для red teaming — с возможностями безопасного ревью кода, моделирования угроз, валидации патчей и анализа зависимостей. Крупные поставщики средств безопасности, включая Akamai, Cisco, Cloudflare, CrowdStrike и Palo Alto Networks, уже интегрируют Daybreak.
Google DeepMind представляет Magic Pointer: AI-осведомлённый курсор мыши для Chrome и Googlebook
Google DeepMind12 мая 2026 года Google DeepMind опубликовала исследование, переосмысляющее курсор мыши как AI-осведомлённый интерфейс, захватывающий визуальный и семантический контекст вокруг курсора и позволяющий пользователям указывать на экранное содержимое и отдавать короткие команды на естественном языке без переключения приложений или ввода полных промптов. В Google AI Studio доступны два интерактивных демо; функция появится в ассистенте Gemini для Chrome и в Googlebook — новой линейке ноутбуков Google на базе Gemini.
Anthropic запускает Claude for Legal с 12 плагинами и 20+ MCP-коннекторами
Anthropic12 мая 2026 года Anthropic официально запустила Claude for Legal, выпустив 12 плагинов для различных правовых практик, охватывающих коммерческие, корпоративные, трудовые, конфиденциальность, IP и судебные процессы, а также более 20 MCP-коннекторов, связывающих Claude Cowork с юридическим ПО, включая DocuSign, iManage, NetDocuments, Westlaw и Box. Крупные юридические фирмы Freshfields, Quinn Emanuel и Holland & Knight уже используют Claude в реальных делах, а Anthropic сообщила, что юридическая функция является лидирующей в Claude Cowork — с троекратным превышением использования по сравнению с любой другой категорией.
Видеомодель Gemini Omni появляется накануне Google I/O 2026
Google DeepMind11 мая 2026 года в интерфейсе приложения Gemini появилась новая карточка модели с меткой «Omni», описываемая как видеомодель с поддержкой редактирования в чате, ремиксинга видео и генерации шаблонов. Ранние демо-выходы продемонстрировали качественный рендеринг текста в видео и сложную композицию сцен; метаданные указывают на то, что Omni является расширением линейки Veo от Google. Модель официально не анонсирована — её формальный показ ожидается на Google I/O 2026 (19–20 мая).
Справочно (9)
API OpenAI DALL-E 2 и DALL-E 3 отключены 12 мая
OpenAIЭндпоинты API DALL-E 2 и DALL-E 3 от OpenAI были окончательно отключены 12 мая 2026 года в соответствии с уведомлением об устаревании, выпущенным в ноябре 2025 года. После даты отключения запросы с использованием строк моделей dall-e-2 или dall-e-3 возвращают ошибки без автоматического фолбека. OpenAI рекомендует миграцию на gpt-image-1.5 или gpt-image-1-mini в качестве замены.
World Action Models: первый систематический обзор воплощённых фундаментальных моделей, объединяющих моделирование мира и действия
OpenMOSSЭтот обзор определяет World Action Models (WAM) как воплощённые фундаментальные модели, объединяющие предсказательное моделирование состояний с генерацией действий, преодолевая ограничение Vision-Language-Action-моделей, которые изучают реактивные отображения без явного моделирования динамики окружающей среды. Статья предоставляет первую формальную таксономию, разграничивающую каскадные и совместные варианты WAM, и анализирует источники данных, протоколы обучения и задачи оценки.
Learning, Fast and Slow: двойная весовая архитектура для непрерывной адаптации LLM
Вдохновлённая теорией двойного процесса познания, эта статья предлагает Fast-Slow Training (FST), где параметры модели служат медленными весами, а оптимизированный контекст — быстрыми весами. FST достигает до 3-кратного прироста эффективности выборки по сравнению с дообучением только параметров на задачах рассуждения, при значительно меньшем отклонении от базовой модели, снижая катастрофическое забывание в сценариях последовательных задач.
Claude Code v2.1.139–v2.1.140: agent view, команда /goal и вывод PostToolUse Hook
Anthropic11–12 мая Anthropic выпустила два обновления Claude Code. В v2.1.139 добавлено представление агента Research Preview (команда claude agents выводит все сессии), команда /goal, удерживающая агента в работе до выполнения заданного условия, и замена вывода хука PostToolUse. В v2.1.140 последовали регистронезависимое сопоставление subagent_type для Agent, исправление зависания /goal при отключённых хуках и горячая перезагрузка настроек симлинков.
GitHub Copilot CLI v1.0.45: слэш-команды /autopilot и /fork
GitHubGitHub Copilot CLI v1.0.45 (11 мая 2026 года) добавляет слэш-команду /autopilot для переключения между интерактивным и полностью автономным режимами в середине сессии, команду /fork для разветвления текущей сессии в независимую новую, а также приводит вывод OpenTelemetry в соответствие с семантическими соглашениями GenAI. Время запуска сократилось примерно на 1,5 секунды на терминалах с ограниченной поддержкой цвета OSC.
OpenClaw v2026.5.12-beta: вложение сессий субагентов и 20 ходов пинг-понга между агентами
12–13 мая OpenClaw выпустила три бета-версии (beta.2–beta.4). Ключевые дополнения включают вложение сессий субагентов под родительские в сборщике сессий, расширение коммуникации агент-агент до 20 ходов пинг-понга, политики инструментов для каждого отправителя и улучшенную интеграцию со Slack с трансляцией ответов и подавлением предпросмотра ссылок.
vLLM v0.21.0rc1: поддержка PyTorch 2.11, HuggingFace Transformers v5 и Python 3.14
12 мая 2026 года vLLM опубликовала v0.21.0rc1, повысив базовые версии до PyTorch 2.11 и HuggingFace Transformers v5 и добавив Python 3.14 в список поддерживаемых версий. RC следует за патчем v0.20.2 (10 мая), стабилизировавшим поддержку DeepSeek V4 и исправившим ошибки выделения KV-блоков в движке V1.
OpenCode v1.14.47–v1.14.48: вложения изображений в полном разрешении и исправления привязок клавиш
SSTSST выпустила OpenCode v1.14.47 (11 мая), восстанавливающую привязки клавиш редактирования промпта в TUI textarea, обеспечивающую сохранение выбора модели между сессиями и добавляющую настраиваемое автоматическое изменение размера крупных изображений. В v1.14.48 агент изменён для сохранения оригинальных вложений изображений в полном разрешении вместо их масштабирования перед отправкой модели.
Ollama v0.23.3: исправления MLX runner и совместимость с Metal в macOS 26
OllamaOllama v0.23.3 (12 мая 2026 года) устраняет таймаут статуса при MLX-инференсе, исправляет утечку target macOS 26 при компиляции библиотеки Metal и уточняет поведение ImageGen runner с оптимизацией привязки потоков MLX. Это следует за v0.23.2 (7 мая), которая добавила ускорение времени ответа /api/show в 6,7 раза за счёт кэширования API.