Cola DLM: непрерывная латентная диффузионная языковая модель с конкурентным масштабированием

исследования официальный 2 ист. ~1 мин

Cola DLM предлагает альтернативу авторегрессионной генерации текста посредством иерархической декомпозиции информации: VAE отображает текст в непрерывные латентные представления, диффузионный трансформер моделирует семантические паттерны, а декодер условно генерирует текст. Разделение глобальной семантической организации и локальной текстовой реализации обеспечивает неавторегрессионную генерацию, демонстрируя эффективность масштабирования, сопоставимую с традиционными авторегрессионными моделями при размере около 2 млрд параметров.

Почему это важно

49 голосов на HF Daily Papers; демонстрирует конкурентное масштабирование неавторегрессионной латентной диффузионной генерации текста, укрепляя позиции диффузионных альтернатив LLM на основе последовательного предсказания токенов.

Важность: 2/5

49 голосов на HF Daily Papers; конкурентное масштабирование при ~2 млрд параметров для непрерывной латентной диффузионной генерации текста.

Источники