Систематический анализ гибридного линейного внимания: исследование 72 моделей

ByteDance Seed

исследования офиц. + СМИ 2 ист. ~1 мин

Исследователи обучили 72 модели с открытым исходным кодом (340M–1.3B параметров) по шести вариантам линейного внимания при различных коэффициентах гибридизации. Ключевой вывод: лучшая самостоятельная модель линейного внимания не является лучшей гибридной. Полнота восстановления резко улучшается, когда доля слоёв с полным вниманием превышает примерно 1 из 4. HGRN-2 и GatedDeltaNet при соотношениях 3:1–6:1 достигают уровня точности трансформера при существенно меньших вычислительных затратах на длинных последовательностях.

Почему это важно

Одно из наиболее строгих эмпирических исследований гибридного внимания на сегодняшний день с открытыми чекпоинтами; практические рекомендации по выбору архитектуры и коэффициента смешивания непосредственно применимы для специалистов, создающих LLM с большим контекстом.

Важность: 3/5

Эмпирическое исследование 72 моделей с практическими рекомендациями по проектированию архитектуры гибридного внимания; сопутствует FlashMorph из той же лаборатории

attention architecture long-context efficiency language-models

Связанные пункты

FlashMorph: управляемое данными размещение слоёв гибридного внимания через обучаемые гейты — ByteDance Seed

Источники

официальный A Systematic Analysis of Hybrid Linear Attention (arXiv)

СМИ HuggingFace Daily Papers — A Systematic Analysis of Hybrid Linear Attention