Learning, Fast and Slow: двойная весовая архитектура для непрерывной адаптации LLM
Вдохновлённая теорией двойного процесса познания, эта статья предлагает Fast-Slow Training (FST), где параметры модели служат медленными весами, а оптимизированный контекст — быстрыми весами. FST достигает до 3-кратного прироста эффективности выборки по сравнению с дообучением только параметров на задачах рассуждения, при значительно меньшем отклонении от базовой модели, снижая катастрофическое забывание в сценариях последовательных задач.
Почему это важно
Катастрофическое забывание и низкая эффективность выборки остаются ключевыми блокаторами для развёртывания LLM в производственных средах, развивающихся со временем. Декомпозиция на быстрые/медленные веса предлагает практический рецепт, не требующий архитектурных изменений.
Важность: 2/5
Статья по непрерывному обучению — 3-кратная эффективность выборки, практический подход без архитектурных изменений