MiniMax Sparse Attention: сокращение вычислений в 28 раз при контексте 1M токенов без потери качества

MiniMax

исследования официальный 3 ист. ~1 мин

MiniMax опубликовала статью, представляющую блочный механизм разреженного внимания на основе Grouped Query Attention, который достигает сокращения вычислений внимания на токен в 28,4 раза при контексте 1M токенов, сохраняя качество полного внимания. Техника использует Index Branch для оценки и выбора релевантных блоков KV, при этом Main Branch выполняет точное внимание над выбранными блоками. Она лежит в основе MiniMax M3 — первой открытой модели, сочетающей frontier-возможности в программировании, контекст 1M токенов и нативную мультимодальность в единой архитектуре. Статья получила 251 апвоут на HuggingFace Daily Papers.

Почему это важно

Квадратичная стоимость внимания была главным барьером для практических контекстных окон в 1M токенов. Эта работа демонстрирует сокращение вычислений в 28 раз с пренебрежимо малой потерей качества и подкреплена производственной моделью — а не просто результатами статьи. 251 апвоут на HF Daily Papers отражает высокий интерес сообщества.

Важность: 4/5

Значительный прорыв в эффективности инференса на длинных контекстах с производственным подтверждением; 251 апвоут на HF; обеспечивает выпуск открытой модели MiniMax M3.

Источники

официальный MiniMax Sparse Attention — arXiv