Ежедневный дайджест
8 пунктов · ~8 мин · Неделя 2026-W24
Обязательно к прочтению (1)
NVIDIA Nemotron 3 Ultra: открытая модель 550B MoE теперь доступна для агентных задач
NVIDIANVIDIA Nemotron 3 Ultra стала доступна 4 июня, анонс состоялся на Computex. Модель имеет 550B суммарных и ~55B активных параметров в архитектуре Mixture-of-Experts Hybrid Mamba-Attention, ориентированной на длительные агентные задачи с персистентной памятью и многошаговым использованием инструментов. Набирает 48 баллов на Artificial Analysis Intelligence Index — лучший результат среди американских open-weights моделей. Распространяется через Hugging Face, ModelScope, OpenRouter и как NVIDIA NIM-микросервисы; скорость инференса — 300+ токенов/сек на DeepInfra.
Стоит знать (4)
Google DeepMind публикует QAT-чекпоинты Gemma 4: модель E2B занимает менее 1 ГБ на устройстве
Google DeepMindGoogle DeepMind 5 июня выпустила чекпоинты Quantization-Aware Training (QAT) для всего семейства Gemma 4. Новый мобильный QAT-формат сокращает объём модели E2B (2B) до менее 1 ГБ ОЗУ (против 9,6 ГБ в BF16), Q4_0 QAT уменьшает E2B с 9,6 ГБ до 3,2 ГБ, а E4B — с 15 ГБ до 5 ГБ. Веса опубликованы на Hugging Face с поддержкой в llama.cpp (b9549+ добавляет поддержку Gemma 4 MTP), Ollama, LM Studio, vLLM, MLX и LiteRT-LM.
Агентные трансформеры доказуемо обучаются поиску в глубину через обучение с подкреплением
Carnegie Mellon University / Ohio State UniversityСтатья содержит первое теоретическое доказательство того, что агенты на базе трансформеров обучаются механизмам поиска в глубину исключительно на основе разреженной обратной связи RL, без экспертных демонстраций. Конструируется двухголовый трансформер, где одна голова отслеживает предыдущие действия, а другая обнаруживает сбои и инициирует откат. При обучении по глубинному курикулуму DFS возникает поэтапно: модели, обученные на неглубоких деревьях, обобщаются на более глубокие, а несбалансированные распределения целей заставляют дисконтирование возврата порождать приоритизированный вариант DFS.
GitHub Copilot получает контекстное окно в 1M токенов и настраиваемые уровни рассуждений
GitHub / MicrosoftGitHub анонсировал 4 июня, что Copilot теперь поддерживает контекстное окно в один миллион токенов, позволяя работать с крупными кодовыми базами и многофайловыми проектами без потери контекста. Настраиваемые уровни рассуждений позволяют разработчикам регулировать соотношение скорости и глубины и включать расширенное мышление для архитектурных и отладочных задач. Обе функции доступны в VS Code, Copilot CLI и приложении Copilot; больший контекст или более высокий уровень рассуждений потребляет дополнительные GitHub AI Credits.
GitHub Copilot SDK выходит в General Availability с поддержкой MCP и шести языков
GitHub / MicrosoftGitHub Copilot SDK стал GA 2 июня, доступен для Node.js/TypeScript, Python, Go, .NET, Rust и Java. Предоставляет полный агентный рантайм Copilot — планирование, вызов инструментов, правку файлов, стриминг и многоходовые сессии — через стабильный API. Разработчики могут регистрировать пользовательские инструменты, подключать MCP-серверы, переопределять встроенные инструменты и поддерживать мультиклиентские воркфлоу, где разные клиенты вносят инструменты и разрешения в одну сессию. Доступен всем подписчикам Copilot и неподписчикам через BYOK.
Справочно (3)
SubtleMemory: бенчмарк выявляет систематические провалы агентов в тонком реляционном запоминании
SubtleMemory представляет бенчмарк из 1 522 примеров для проверки способности AI-агентов работать с воспоминаниями, которые усиливают, расходятся или противоречат друг другу, — в отличие от простого воспроизведения. Построен на основе 10 длинных историй, подкреплённых 1 090 контролируемыми по отношениям наборами вариантов памяти; тестирует 11 систем памяти. Все проверенные системы демонстрируют систематические сбои в тонкой реляционной дискриминации памяти с различными паттернами отказов на этапах сохранения, извлечения и последующего рассуждения.
Code2LoRA: гиперсеть генерирует репозиторно-специфичные адаптеры для code LM без накладных расходов на инференс
University of WaterlooCode2LoRA генерирует репозиторно-специфичные LoRA-адаптеры для языковых моделей кода без накладных расходов на токены во время инференса. Два варианта: Code2LoRA-Static преобразует снимок репозитория в адаптер; Code2LoRA-Evo поддерживает адаптеры через состояние GRU, обновляемое по каждому code diff. Представлен RepoPeftBench (604 Python-репозитория, треки статики и эволюции). Code2LoRA-Static достигает 63,8% cross-repo и 66,2% in-repo exact match, соответствуя per-repository LoRA fine-tuning без какого-либо per-repo обучения.
VideoKR: обучающий корпус из 315K примеров для знание- и рассуждение-интенсивного понимания видео
Yale UniversityVideoKR представляет обучающий корпус из 315K примеров для знание- и рассуждение-интенсивного понимания видео, построенный на основе 145K экспертных видео под лицензией CC с цепочками рассуждений постепенно увеличивающейся глубины. Включает VideoKR-Eval — аннотированный экспертами бенчмарк, требующий подлинного видео-заземлённого рассуждения, а не текстовых срезов. SFT с последующим GRPO post-training на VideoKR превосходит предыдущие подходы к post-training.