Ежедневный дайджест

8 пунктов · ~8 мин · Неделя 2026-W24

Обязательно к прочтению (1)

NVIDIA Nemotron 3 Ultra: открытая модель 550B MoE теперь доступна для агентных задач

NVIDIA
модели/LLM офиц. + СМИ 2 ист. ~1 мин

NVIDIA Nemotron 3 Ultra стала доступна 4 июня, анонс состоялся на Computex. Модель имеет 550B суммарных и ~55B активных параметров в архитектуре Mixture-of-Experts Hybrid Mamba-Attention, ориентированной на длительные агентные задачи с персистентной памятью и многошаговым использованием инструментов. Набирает 48 баллов на Artificial Analysis Intelligence Index — лучший результат среди американских open-weights моделей. Распространяется через Hugging Face, ModelScope, OpenRouter и как NVIDIA NIM-микросервисы; скорость инференса — 300+ токенов/сек на DeepInfra.

Почему это важно
На данный момент наиболее мощная американская open-weights модель, дающая командам полноценную self-hostable альтернативу для сложных агентных пайплайнов без закрытых API. Гибридная архитектура Mamba снижает требования к пропускной способности памяти на длинном контексте, делая мультиагентную оркестрацию экономически эффективной.

Стоит знать (4)

Google DeepMind публикует QAT-чекпоинты Gemma 4: модель E2B занимает менее 1 ГБ на устройстве

Google DeepMind
модели/LLM офиц. + СМИ 3 ист. ~1 мин

Google DeepMind 5 июня выпустила чекпоинты Quantization-Aware Training (QAT) для всего семейства Gemma 4. Новый мобильный QAT-формат сокращает объём модели E2B (2B) до менее 1 ГБ ОЗУ (против 9,6 ГБ в BF16), Q4_0 QAT уменьшает E2B с 9,6 ГБ до 3,2 ГБ, а E4B — с 15 ГБ до 5 ГБ. Веса опубликованы на Hugging Face с поддержкой в llama.cpp (b9549+ добавляет поддержку Gemma 4 MTP), Ollama, LM Studio, vLLM, MLX и LiteRT-LM.

Почему это важно
Модели объёмом менее 1 ГБ открывают возможность развёртывания на среднебюджетных смартфонах и микроконтроллерах. QAT нивелирует типичное падение качества при агрессивном квантовании, делая компактные модели Gemma 4 пригодными для продакшн-приложений на устройстве — веха для edge AI.

Агентные трансформеры доказуемо обучаются поиску в глубину через обучение с подкреплением

Carnegie Mellon University / Ohio State University
исследования официальный 1 ист. ~1 мин

Статья содержит первое теоретическое доказательство того, что агенты на базе трансформеров обучаются механизмам поиска в глубину исключительно на основе разреженной обратной связи RL, без экспертных демонстраций. Конструируется двухголовый трансформер, где одна голова отслеживает предыдущие действия, а другая обнаруживает сбои и инициирует откат. При обучении по глубинному курикулуму DFS возникает поэтапно: модели, обученные на неглубоких деревьях, обобщаются на более глубокие, а несбалансированные распределения целей заставляют дисконтирование возврата порождать приоритизированный вариант DFS.

Почему это важно
Закрывает существенный теоретический пробел, объясняя, почему RL-обучение порождает агентов, способных к поиску, и даёт механистическое понимание специализации голов внимания трансформера в процессе RL — напрямую актуально для понимания и проектирования моделей рассуждений.

GitHub Copilot получает контекстное окно в 1M токенов и настраиваемые уровни рассуждений

GitHub / Microsoft
инструменты официальный 1 ист. ~1 мин

GitHub анонсировал 4 июня, что Copilot теперь поддерживает контекстное окно в один миллион токенов, позволяя работать с крупными кодовыми базами и многофайловыми проектами без потери контекста. Настраиваемые уровни рассуждений позволяют разработчикам регулировать соотношение скорости и глубины и включать расширенное мышление для архитектурных и отладочных задач. Обе функции доступны в VS Code, Copilot CLI и приложении Copilot; больший контекст или более высокий уровень рассуждений потребляет дополнительные GitHub AI Credits.

Почему это важно
Контекстное окно в 1M токенов ставит Copilot в один ряд с фронтирными моделями для задач масштаба репозитория. Настраиваемые уровни рассуждений позволяют командам подключать углублённый анализ по запросу, а не платить за него равномерно — практический инструмент управления стоимостью для корпоративных пользователей.

GitHub Copilot SDK выходит в General Availability с поддержкой MCP и шести языков

GitHub / Microsoft
инструменты официальный 2 ист. ~1 мин

GitHub Copilot SDK стал GA 2 июня, доступен для Node.js/TypeScript, Python, Go, .NET, Rust и Java. Предоставляет полный агентный рантайм Copilot — планирование, вызов инструментов, правку файлов, стриминг и многоходовые сессии — через стабильный API. Разработчики могут регистрировать пользовательские инструменты, подключать MCP-серверы, переопределять встроенные инструменты и поддерживать мультиклиентские воркфлоу, где разные клиенты вносят инструменты и разрешения в одну сессию. Доступен всем подписчикам Copilot и неподписчикам через BYOK.

Почему это важно
Статус GA и нативная поддержка MCP позволяют командам встраивать агентный движок Copilot напрямую в IDE, CI-пайплайны и корпоративный инструментарий без построения собственного слоя оркестрации и с гарантиями production SLA.
Справочно (3)

SubtleMemory: бенчмарк выявляет систематические провалы агентов в тонком реляционном запоминании

исследования официальный 2 ист. ~1 мин

SubtleMemory представляет бенчмарк из 1 522 примеров для проверки способности AI-агентов работать с воспоминаниями, которые усиливают, расходятся или противоречат друг другу, — в отличие от простого воспроизведения. Построен на основе 10 длинных историй, подкреплённых 1 090 контролируемыми по отношениям наборами вариантов памяти; тестирует 11 систем памяти. Все проверенные системы демонстрируют систематические сбои в тонкой реляционной дискриминации памяти с различными паттернами отказов на этапах сохранения, извлечения и последующего рассуждения.

Почему это важно
Существующие бенчмарки памяти для агентов измеряют воспроизведение, а не реляционное рассуждение над конфликтующими воспоминаниями. SubtleMemory обнажает этот слепой spot во всех текущих подходах, мотивируя новое поколение архитектур памяти для долгосрочных агентов.

Code2LoRA: гиперсеть генерирует репозиторно-специфичные адаптеры для code LM без накладных расходов на инференс

University of Waterloo
исследования официальный 2 ист. ~1 мин

Code2LoRA генерирует репозиторно-специфичные LoRA-адаптеры для языковых моделей кода без накладных расходов на токены во время инференса. Два варианта: Code2LoRA-Static преобразует снимок репозитория в адаптер; Code2LoRA-Evo поддерживает адаптеры через состояние GRU, обновляемое по каждому code diff. Представлен RepoPeftBench (604 Python-репозитория, треки статики и эволюции). Code2LoRA-Static достигает 63,8% cross-repo и 66,2% in-repo exact match, соответствуя per-repository LoRA fine-tuning без какого-либо per-repo обучения.

Почему это важно
Решает практическое узкое место для code AI в продакшне: актуализация LLM-адаптеров по мере эволюции кодовых баз без повторного дорогостоящего файн-тюнинга. Инкрементальный механизм обновления на базе GRU позволяет обслуживать адаптеры в темпе развития программного обеспечения.

VideoKR: обучающий корпус из 315K примеров для знание- и рассуждение-интенсивного понимания видео

Yale University
исследования официальный 2 ист. ~1 мин

VideoKR представляет обучающий корпус из 315K примеров для знание- и рассуждение-интенсивного понимания видео, построенный на основе 145K экспертных видео под лицензией CC с цепочками рассуждений постепенно увеличивающейся глубины. Включает VideoKR-Eval — аннотированный экспертами бенчмарк, требующий подлинного видео-заземлённого рассуждения, а не текстовых срезов. SFT с последующим GRPO post-training на VideoKR превосходит предыдущие подходы к post-training.

Почему это важно
Мультимодальные бенчмарки рассуждений критикуются за решаемость из текста в обход видео. VideoKR устраняет этот пробел, ориентируясь на видео-заземлённое знаниевое рассуждение, и предоставляет одновременно обучающие данные и инфраструктуру оценки для прогресса в задачах, реально зависящих от зрительного восприятия.