Ежедневный дайджест

17 пунктов · ~17 мин · Неделя 2026-W27

Стоит знать (11)

Google выпускает Nano Banana 2 Lite: изображения за 4 секунды по $0,034 за 1000

Google DeepMind
изображения офиц. + СМИ 3 ист. ~1 мин

30 июня Google перевела Nano Banana 2 Lite (Gemini 3.1 Flash-Lite Image) в общий доступ: генерация изображений занимает около 4 секунд при стоимости $0,034 за 1000 изображений. Доступна в Google AI Studio и Gemini API; постепенно внедряется в AI Mode в Google Search, приложение Gemini, NotebookLM и Google Photos. Все результаты содержат водяной знак SynthID.

Почему это важно
Nano Banana 2 Lite устанавливает новую нижнюю планку стоимости в продакшен-API генерации изображений. При менее чем четырёх центах за тысячу изображений и 4-секундной генерации высоконагруженные image-пайплайны становятся экономически обоснованными при frontier-качестве.

Meta анонсирует облачный бизнес «Meta Compute» для монетизации избыточной AI-инфраструктуры

Meta AI
индустрия только СМИ 3 ист. ~1 мин

1 июля Meta раскрыла планы запуска облачного бизнеса под рабочим названием «Meta Compute» — продажи доступа к AI-инфраструктуре сторонним клиентам. Предусмотрены два уровня: аренда вычислительных мощностей и доступ к размещённым моделям. Проект ведут глава инфраструктуры Сантош Джанардхан, руководитель Meta Superintelligence Labs Дэниел Гросс и президент Дина Пауэлл Маккормик. На фоне новости акции Meta выросли примерно на 9%. Цены и дата запуска не объявлены.

Почему это важно
В 2026 году Meta намерена потратить до $145 млрд на AI-инфраструктуру. Продажа свободных мощностей превратит эти расходы из чистых издержек в источник дохода и впервые выведет Meta на прямую конкуренцию с AWS, Azure и Google Cloud на корпоративном AI-рынке.

DeepSeek подтверждает официальный выпуск V4 в середине июля и вводит пиковое ценообразование API

DeepSeek
модели/LLM офиц. + СМИ 3 ист. ~1 мин

Около 1 июля DeepSeek подтвердила, что официальный выпуск DeepSeek V4 запланирован на середину июля — после превью от 24 апреля. V4 выходит в версиях V4-Pro (1,6T параметров всего / 49B активных) и V4-Flash (284B всего / 13B активных), обе с контекстным окном в 1M токенов. Впервые DeepSeek вводит пиковое/внепиковое ценообразование API: стоимость удваивается в часы пик — 9:00–12:00 и 14:00–18:00 по пекинскому времени. Устаревшие имена моделей deepseek-chat и deepseek-reasoner выводятся из обращения 24 июля.

Почему это важно
Поддержка контекста в 1M токенов в обоих уровнях повышает планку для open-weight-моделей. Эксперимент с пиковым ценообразованием сигнализирует о реальных ограничениях мощностей у DeepSeek — при этом даже по пиковым ценам V4 остаётся более чем в 17 раз дешевле GPT-5.5.

OpenAI выпускает GeneBench-Pro — передовой бенчмарк для AI-агентов в биологии

OpenAI
исследования офиц. + СМИ 2 ист. ~1 мин

OpenAI выпустила GeneBench-Pro (30 июня) — бенчмарк из 129 задач, проверяющий суждение AI в области геномики, онкологии, клинической диагностики и фармакогеномики. Задачи требуют последовательных экспертных решений, на которые человек тратит 20–40 часов. GPT-5.6 Sol набирает 28,7% (31,5% в Pro-режиме); Claude Opus 4.8 — 16,0%. Десять репрезентативных вопросов опубликованы в открытом доступе на Hugging Face.

Почему это важно
В отличие от бенчмарков на воспроизведение знаний, GeneBench-Pro измеряет «исследовательское чутьё» в условиях неопределённости. То, что GPT-5.6 Sol не справляется более чем с 70% экспертных задач, наглядно показывает разрыв между современными frontier-моделями и автономным научным рассуждением.

Anthropic предлагает отраслевую шкалу оценки тяжести джейлбрейков

Anthropic
исследования официальный 1 ист. ~1 мин

2 июля Anthropic опубликовала описание четырёхуровневого классификатора кибербезопасности Fable 5 и предложила шкалу Cyber Jailbreak Severity (CJS) — от CJS-0 до CJS-4, — оценивающую джейлбрейки по приросту возможностей, охвату атаки, лёгкости оружеизации и обнаруживаемости. Разработана совместно с партнёрами Project Glasswing, включая Amazon, Microsoft и Google, и предложена для принятия всей отраслью.

Почему это важно
Единый словарь серьёзности AI-джейлбрейков повторяет путь стандартизации уязвимостей через CVSS. Если CJS будет принята лабораториями повсеместно, это ускорит скоординированное реагирование на инциденты безопасности и даст регуляторам конкретную метрику.

Program-as-Weights: парадигма «компилируй один раз» достигает качества 32B-моделей при 1/50 объёма памяти

исследования официальный 1 ист. ~1 мин

Исследователи из Университета Ватерлоо представляют Program-as-Weights (PAW): компилятор на 4B параметров генерирует небольшие переиспользуемые адаптерные веса для задач, не поддающихся решению на основе правил. Интерпретатор Qwen3 на 0,6B, направляемый этими адаптерами, соответствует 32B-модели при 1/50 объёма памяти на инференсе и работает со скоростью 30 токенов/с на MacBook M3. Авторы также публикуют FuzzyBench — обучающий датасет из 10 миллионов примеров.

Почему это важно
PAW переосмысляет использование foundation-моделей: вместо инференса на каждый входной запрос предлагается паттерн «компилируй один раз, запускай многократно». Сокращение памяти в 50 раз позволяет получать качество frontier-задач на потребительском железе.

PerceptionRubrics: атомарная рубричная оценка выявляет разрыв в 8% по восприятию между открытыми и закрытыми моделями

исследования официальный 1 ист. ~1 мин

Исследователи Университета Джонса Хопкинса представляют PerceptionRubrics (ICML 2026): свыше 1000 визуально насыщенных изображений в паре с 12 004 атомарными рубриками оценки, разделёнными на критерии Must-Right и Easy-Wrong. Бинарный механизм оценки с учётом порогов штрафует за ошибки в обязательных визуальных элементах, а не усредняет оценки. Ключевой вывод: разрыв в 8% по восприятию сохраняется между open-source frontier-моделями и проприетарными лидерами.

Почему это важно
Стандартные мультимодальные бенчмарки завышают оценки за счёт усреднения; PerceptionRubrics обнажает хрупкость моделей в визуально насыщенных областях и лучше коррелирует с суждениями людей.

Zhipu AI запускает кодирующего агента ZCode на базе GLM-5.2, нацеленного на Cursor и Claude Code

Zhipu AI
инструменты офиц. + СМИ 3 ист. ~1 мин

2 июля Zhipu AI выпустила ZCode — десктопный кодирующий агент на основе GLM-5.2, модели с открытыми весами под лицензией MIT, насчитывающей ~750B параметров MoE и поддерживающей контекст в 1M токенов. Поставляется с более чем 20 интегрированными инструментами разработчика, включая Git и доступ к терминалу, поддержкой мультиагентного взаимодействия и удалённым управлением через WeChat, Feishu и Telegram. До 31 июля Zhipu предоставляет новым пользователям 5 миллионов бесплатных токенов.

Почему это важно
ZCode непосредственно выходит на рынок кодирующих ассистентов, где доминируют Cursor, GitHub Copilot и Claude Code. GLM-5.2 уже занимала первое место среди open-source-моделей на Artificial Analysis при стоимости примерно в шесть раз ниже GPT-5.5, что делает конкурентную угрозу вполне реальной.

Kimi K2.7-Code становится первой open-weight-моделью в GitHub Copilot

Moonshot AI
инструменты официальный 1 ист. ~1 мин

Kimi K2.7-Code — open-weight-модель от Moonshot AI с приростом +21,8% на Kimi Code Bench v2 по сравнению с предшественником — стала общедоступной в GitHub Copilot 1 июля, первой моделью с открытыми весами, доступной в переключателе моделей Copilot. Доступна в VS Code (v1.127.0+), GitHub.com, JetBrains, Xcode, Eclipse и GitHub Mobile, размещена GitHub на Microsoft Azure.

Почему это важно
Добавление open-weight-варианта в переключатель Copilot нарушает монополию проприетарных моделей и предоставляет разработчикам более доступную и проверяемую альтернативу внутри привычного рабочего процесса без смены инструментов.

Cascade выводится из эксплуатации; запускается Devin Local с открытым протоколом ACP

Cognition
инструменты только СМИ 2 ист. ~1 мин

Cascade — агентное ядро Windsurf (переименованного в Devin Desktop 2 июня) — выведен из эксплуатации 1 июля. Его заменяет Devin Local: переписанный на Rust движок, заявляющий до 30% прироста эффективности токенов за счёт параллельных субагентов. Devin Desktop теперь поставляется с нативной поддержкой открытого протокола Agent Client Protocol (ACP, Apache 2.0), позволяя Codex, Claude Agent, Gemini CLI и OpenCode работать как полноценные сессии. CI-пайплайны, обращающиеся к Cascade по имени, требуют ручного переключения.

Почему это важно
Вывод Cascade из эксплуатации завершает переход Cognition от архитектуры Windsurf. Поддержка ACP позиционирует Devin Desktop как хост для агентов, а не однозадачную IDE — стратегическая ставка на то, что разработчики захотят управлять несколькими кодирующими агентами из единого интерфейса.

Runway запускает Agent Skills для автономного производства рекламных кампаний и роликов

Runway
видео официальный 1 ист. ~1 мин

2 июля Runway выпустила Agent Skills для всех тарифных планов. Функция исполняет полные рекламные кампании, коммерческие ролики и локализованные рекламные варианты по командам на естественном языке: агент самостоятельно ведёт многошаговое креативное производство — сценаризацию, генерацию и адаптацию. Построена на видеодвижке Runway Gen-4.5, доступна на runwayml.com/agent.

Почему это важно
Agent Skills знаменует переход Runway от инструмента генерации к полноценному агенту креативного производства, нацеленному на рекламные и маркетинговые процессы, — первый коммерчески доступный многошаговый агент видеопроизводства от крупной видео-AI-лаборатории.
Справочно (6)

Яндекс консолидирует AI-команды под Alice AI с новыми назначениями руководства

Yandex
индустрия только СМИ 3 ист. ~1 мин

2 июля Яндекс реорганизовал руководство в сфере AI, объединив команды под Alice AI как единой кросс-функциональной платформой. Дмитрий Тимко назначен руководителем Alice AI; Александр Поповский принимает управление глобальным Поиском. Реорганизация направлена на сокращение цикла выпуска и ускорение развёртывания специализированных AI-ассистентов, включая запланированные функции «нейро-юриста» и «нейро-бухгалтера».

Почему это важно
Яндекс консолидирует инженерное руководство и ресурсы вокруг Alice AI как основной коммерческой AI-платформы — переход от фрагментированной разработки сервис-за-сервисом к единому агентному интерфейсу.

ELDR: маршрутизация с учётом локальности экспертов снижает задержку при обслуживании MoE-моделей на 14%

Microsoft Research
исследования официальный 1 ист. ~1 мин

Microsoft Research представляет ELDR — систему маршрутизации для раздельного (prefill-decode) обслуживания MoE-моделей. На этапе prefill формируется «сигнатура экспертов» запроса; на этапе decode офлайн-кластеризация K-means и онлайн-маршрутизация по полосам локальности минимизируют загрузку различных весов экспертов между воркерами. Тестирование на до 40 GPU и трёх MoE-моделях показывает улучшение медианного времени на выходной токен на 5,9–13,9% по сравнению с базовой балансировкой нагрузки.

Почему это важно
MoE-модели всё более доминируют в продакшен, однако их эффективное обслуживание в раздельном масштабе остаётся нерешённой задачей. Достижения ELDR — чистая политика маршрутизации без изменения модели, что делает его доступным для любого существующего стека обслуживания MoE.

FlashMorph: управляемое данными размещение слоёв гибридного внимания через обучаемые гейты

ByteDance Seed
исследования официальный 1 ист. ~1 мин

Исследователи ByteDance Seed и Университета Фудань предлагают FlashMorph — метод определения оптимального размещения слоёв для гибридных архитектур внимания (полное vs линейное) с помощью обучаемых гейтов, оптимизированных на синтетических данных извлечения в длинном контексте. После обучения гейты дискретизируются в фиксированный гибридный макет. FlashMorph находит более эффективные конфигурации, чем эвристические методы, сохраняя при этом качество воспроизведения длинного контекста и производительность на бенчмарках.

Почему это важно
Гибридные модели внимания — ключевое направление повышения эффективности инференса на длинном контексте. FlashMorph предоставляет принципиальный, управляемый данными метод поиска оптимальных конфигураций — актуально для любой команды, создающей или адаптирующей гибридные архитектуры внимания.

Claude Code v2.1.199: стекирование slash-skill и улучшение надёжности стриминга

Anthropic
инструменты официальный 1 ист. ~1 мин

Claude Code v2.1.199 (2 июля) добавляет стекирование slash-skill-вызовов — до 5 ведущих навыков на одну команду, — исправляет ошибки SSL-сертификатов с немедленным выводом понятных подсказок, а также улучшает надёжность стриминга: частичный вывод теперь сохраняется при возникновении ошибок API в середине потока.

Почему это важно
Стекирование slash-skill позволяет строить более сложные однокомандные воркфлоу; исправления надёжности стриминга важны для пользователей с высоконагруженными или нестабильными соединениями.

GitHub Copilot CLI v1.0.68: поддержка Kimi K2.7-Code в headless-окружениях

GitHub
инструменты официальный 1 ист. ~1 мин

GitHub Copilot CLI v1.0.68 (1 июля) добавляет поддержку модели kimi-k2.7-code вместе с улучшенной обработкой временных разрывов соединения с IDE и корректным отображением тайского и деванагари в терминале. В v1.0.69-0 (пре-релиз, 2 июля) добавлено автодополнение файлов и папок для записей пути /sandbox.

Почему это важно
CLI — основной интерфейс Copilot в headless- и CI-окружениях. Добавление Kimi K2.7-code в день его появления в IDE даёт терминальным и CI-воркфлоу немедленный доступ к open-weight-модели.

Сбербанк интегрирует AI-аналитика GigaChat в СберБизнес для продавцов маркетплейсов

Sber
инструменты только СМИ 2 ист. ~1 мин

1 июля Сбербанк интегрировал AI-аналитика на базе GigaChat в онлайн-банк СберБизнес для продавцов маркетплейсов. Инструмент отвечает на вопросы по 110 темам, включая продажи, эффективность рекламы и рентабельность с применением ABC/XYZ-анализа. Ответы формируются примерно за 30 секунд против 5–15 минут при работе с традиционными BI-инструментами.

Почему это важно
Одна из первых интеграций GigaChat, встроенных непосредственно в крупный российский банковский продукт, — демонстрирует стратегию Сбера по распространению GigaChat через экосистему бизнес-банкинга для охвата МСБ в e-commerce без создания отдельного AI-продукта.