vLLM добавляет поддержку MiniMax M3 с открытыми весами в день выхода: разреженное внимание с контекстом 1M токенов

MiniMax

инструменты официальный 3 ист. ~1 мин

12 июня 2026 года команда vLLM опубликовала запись в блоге, анонсировав поддержку инференса MiniMax M3 в день выхода — открытой модели с 456B параметрами, контекстным окном 1M токенов, нативным мультимодальным вводом и архитектурой MiniMax Sparse Attention (MSA) (открытые веса опубликованы приблизительно 10–11 июня). Для развёртывания требуется флаг '--block-size 128' из-за особенностей разреженного/индексного кеша MSA. AMD анонсировала одновременную поддержку в день выхода на GPU Instinct. На Fireworks AI модель M3 доступна по ценам, которые описываются как примерно в 20 раз ниже сопоставимых закрытых моделей.

Почему это важно

Поддержка движком инференса в день выхода означает, что практики могут немедленно запускать M3 локально или on-prem, не дожидаясь обновления фреймворков. На фоне отключения топовых моделей Anthropic, контекст 1M токенов M3 при эффективности MoE становится практичной альтернативой для пайплайнов обработки длинных документов и программирования.

Важность: 3/5

Поддержка vLLM + AMD в день выхода для крупной открытой frontier-модели; появление в момент отключения моделей Anthropic повышает практическую актуальность.

vllm minimax inference open-weights long-context multimodal moe serving open-source release

Связанные пункты

MiniMax выпускает M3: открытая фронтирная модель с контекстом 1M токенов и архитектурой MSA — MiniMax

Источники

официальный MiniMax M3 in vLLM: Day-0 Serving for 1M-Token Multimodal Reasoning — vLLM Blog

СМИ MiniMax M3 is live: long context + native multimodality at 1/20th the price — Fireworks AI

СМИ Day 0 Support for MiniMax M3 on AMD Instinct GPUs — AMD