Cola DLM: непрерывная латентная диффузионная языковая модель с конкурентным масштабированием
Cola DLM предлагает альтернативу авторегрессионной генерации текста посредством иерархической декомпозиции информации: VAE отображает текст в непрерывные латентные представления, диффузионный трансформер моделирует семантические паттерны, а декодер условно генерирует текст. Разделение глобальной семантической организации и локальной текстовой реализации обеспечивает неавторегрессионную генерацию, демонстрируя эффективность масштабирования, сопоставимую с традиционными авторегрессионными моделями при размере около 2 млрд параметров.
Почему это важно
49 голосов на HF Daily Papers; демонстрирует конкурентное масштабирование неавторегрессионной латентной диффузионной генерации текста, укрепляя позиции диффузионных альтернатив LLM на основе последовательного предсказания токенов.
Важность: 2/5
49 голосов на HF Daily Papers; конкурентное масштабирование при ~2 млрд параметров для непрерывной латентной диффузионной генерации текста.