Learning, Fast and Slow: двойная весовая архитектура для непрерывной адаптации LLM

исследования официальный 1 ист. ~1 мин

Вдохновлённая теорией двойного процесса познания, эта статья предлагает Fast-Slow Training (FST), где параметры модели служат медленными весами, а оптимизированный контекст — быстрыми весами. FST достигает до 3-кратного прироста эффективности выборки по сравнению с дообучением только параметров на задачах рассуждения, при значительно меньшем отклонении от базовой модели, снижая катастрофическое забывание в сценариях последовательных задач.

Почему это важно

Катастрофическое забывание и низкая эффективность выборки остаются ключевыми блокаторами для развёртывания LLM в производственных средах, развивающихся со временем. Декомпозиция на быстрые/медленные веса предлагает практический рецепт, не требующий архитектурных изменений.

Важность: 2/5

Статья по непрерывному обучению — 3-кратная эффективность выборки, практический подход без архитектурных изменений

Источники