TIDE: кросс-архитектурная дистилляция для диффузионных LLM
Peking University
TIDE — фреймворк дистилляции, переносящий знания между разными архитектурами для diffusion-LLM. Включает три компонента: TIDAL (адаптивная сила дистилляции по timestep'ам), CompDemo (контекст через mask splitting) и Reverse CALM (cross-tokenizer objective). Учители — плотный 8B и MoE на 16B, ученик — 0.6B диффузионная модель; HumanEval ученика 48.78 против 32.3 у AR baseline того же размера.
Почему это важно
Diffusion-LLM остаются маргинальной, но активно растущей альтернативой autoregressive-моделям. Кросс-архитектурный distillation от плотного teacher → MoE → диффузионный student — редкое сочетание, и заметный прыжок на code-бенчмарках при 0.6B параметрах делает идею практически интересной для on-device.
Importance: 2/5
Узкое исследовательское направление, без явных upvote-сигналов на HF Daily.