vLLM добавляет поддержку MiniMax M3 с открытыми весами в день выхода: разреженное внимание с контекстом 1M токенов
MiniMax
12 июня 2026 года команда vLLM опубликовала запись в блоге, анонсировав поддержку инференса MiniMax M3 в день выхода — открытой модели с 456B параметрами, контекстным окном 1M токенов, нативным мультимодальным вводом и архитектурой MiniMax Sparse Attention (MSA) (открытые веса опубликованы приблизительно 10–11 июня). Для развёртывания требуется флаг '--block-size 128' из-за особенностей разреженного/индексного кеша MSA. AMD анонсировала одновременную поддержку в день выхода на GPU Instinct. На Fireworks AI модель M3 доступна по ценам, которые описываются как примерно в 20 раз ниже сопоставимых закрытых моделей.
Почему это важно
Поддержка движком инференса в день выхода означает, что практики могут немедленно запускать M3 локально или on-prem, не дожидаясь обновления фреймворков. На фоне отключения топовых моделей Anthropic, контекст 1M токенов M3 при эффективности MoE становится практичной альтернативой для пайплайнов обработки длинных документов и программирования.
Важность: 3/5
Поддержка vLLM + AMD в день выхода для крупной открытой frontier-модели; появление в момент отключения моделей Anthropic повышает практическую актуальность.