MiniMax Sparse Attention: сокращение вычислений в 28 раз при контексте 1M токенов без потери качества
MiniMax
MiniMax опубликовала статью, представляющую блочный механизм разреженного внимания на основе Grouped Query Attention, который достигает сокращения вычислений внимания на токен в 28,4 раза при контексте 1M токенов, сохраняя качество полного внимания. Техника использует Index Branch для оценки и выбора релевантных блоков KV, при этом Main Branch выполняет точное внимание над выбранными блоками. Она лежит в основе MiniMax M3 — первой открытой модели, сочетающей frontier-возможности в программировании, контекст 1M токенов и нативную мультимодальность в единой архитектуре. Статья получила 251 апвоут на HuggingFace Daily Papers.
Почему это важно
Квадратичная стоимость внимания была главным барьером для практических контекстных окон в 1M токенов. Эта работа демонстрирует сокращение вычислений в 28 раз с пренебрежимо малой потерей качества и подкреплена производственной моделью — а не просто результатами статьи. 251 апвоут на HF Daily Papers отражает высокий интерес сообщества.
Важность: 4/5
Значительный прорыв в эффективности инференса на длинных контекстах с производственным подтверждением; 251 апвоут на HF; обеспечивает выпуск открытой модели MiniMax M3.