NVIDIA Nemotron 3 Ultra: открытая модель 550B MoE теперь доступна для агентных задач

NVIDIA

модели/LLM офиц. + СМИ 2 ист. ~1 мин

NVIDIA Nemotron 3 Ultra стала доступна 4 июня, анонс состоялся на Computex. Модель имеет 550B суммарных и ~55B активных параметров в архитектуре Mixture-of-Experts Hybrid Mamba-Attention, ориентированной на длительные агентные задачи с персистентной памятью и многошаговым использованием инструментов. Набирает 48 баллов на Artificial Analysis Intelligence Index — лучший результат среди американских open-weights моделей. Распространяется через Hugging Face, ModelScope, OpenRouter и как NVIDIA NIM-микросервисы; скорость инференса — 300+ токенов/сек на DeepInfra.

Почему это важно

На данный момент наиболее мощная американская open-weights модель, дающая командам полноценную self-hostable альтернативу для сложных агентных пайплайнов без закрытых API. Гибридная архитектура Mamba снижает требования к пропускной способности памяти на длинном контексте, делая мультиагентную оркестрацию экономически эффективной.

Важность: 4/5

SOTA среди американских open-weights моделей (48 баллов на AA Intelligence Index); официальный анонс NVIDIA + медиапокрытие; масштаб 550B при практичной скорости инференса.

open-weights moe agents inference long-context us

Источники

официальный NVIDIA Debuts Nemotron 3 Family of Open Models — NVIDIA Newsroom

СМИ NVIDIA Releases Nemotron 3 Ultra — MarkTechPost