MiniMax Sparse Attention: сокращение вычислений в 28 раз при контексте 1M токенов без потери качества

MiniMax

исследования официальный 3 ист. ~1 мин

MiniMax опубликовала статью, представляющую блочный механизм разреженного внимания на основе Grouped Query Attention, который достигает сокращения вычислений внимания на токен в 28,4 раза при контексте 1M токенов, сохраняя качество полного внимания. Техника использует Index Branch для оценки и выбора релевантных блоков KV, при этом Main Branch выполняет точное внимание над выбранными блоками. Она лежит в основе MiniMax M3 — первой открытой модели, сочетающей frontier-возможности в программировании, контекст 1M токенов и нативную мультимодальность в единой архитектуре. Статья получила 251 апвоут на HuggingFace Daily Papers.

Почему это важно

Квадратичная стоимость внимания была главным барьером для практических контекстных окон в 1M токенов. Эта работа демонстрирует сокращение вычислений в 28 раз с пренебрежимо малой потерей качества и подкреплена производственной моделью — а не просто результатами статьи. 251 апвоут на HF Daily Papers отражает высокий интерес сообщества.

Важность: 4/5

Значительный прорыв в эффективности инференса на длинных контекстах с производственным подтверждением; 251 апвоут на HF; обеспечивает выпуск открытой модели MiniMax M3.

minimax long-context attention efficiency inference open-weights paper research

Связанные пункты

vLLM добавляет поддержку MiniMax M3 с открытыми весами в день выхода: разреженное внимание с контекстом 1M токенов — MiniMax

Источники

официальный MiniMax Sparse Attention — arXiv

официальный MiniMax Sparse Attention — HuggingFace Papers

официальный MiniMax M3: Frontier Coding, 1M Context, and Sparse Attention — MiniMax Blog