Систематический анализ гибридного линейного внимания: исследование 72 моделей
ByteDance Seed
Исследователи обучили 72 модели с открытым исходным кодом (340M–1.3B параметров) по шести вариантам линейного внимания при различных коэффициентах гибридизации. Ключевой вывод: лучшая самостоятельная модель линейного внимания не является лучшей гибридной. Полнота восстановления резко улучшается, когда доля слоёв с полным вниманием превышает примерно 1 из 4. HGRN-2 и GatedDeltaNet при соотношениях 3:1–6:1 достигают уровня точности трансформера при существенно меньших вычислительных затратах на длинных последовательностях.
Почему это важно
Одно из наиболее строгих эмпирических исследований гибридного внимания на сегодняшний день с открытыми чекпоинтами; практические рекомендации по выбору архитектуры и коэффициента смешивания непосредственно применимы для специалистов, создающих LLM с большим контекстом.
Важность: 3/5
Эмпирическое исследование 72 моделей с практическими рекомендациями по проектированию архитектуры гибридного внимания; сопутствует FlashMorph из той же лаборатории