TIDE: кросс-архитектурная дистилляция для диффузионных LLM

Peking University

исследования офиц. + СМИ 2 ист. ~1 мин

TIDE — фреймворк дистилляции, переносящий знания между разными архитектурами для diffusion-LLM. Включает три компонента: TIDAL (адаптивная сила дистилляции по timestep'ам), CompDemo (контекст через mask splitting) и Reverse CALM (cross-tokenizer objective). Учители — плотный 8B и MoE на 16B, ученик — 0.6B диффузионная модель; HumanEval ученика 48.78 против 32.3 у AR baseline того же размера.

Почему это важно

Diffusion-LLM остаются маргинальной, но активно растущей альтернативой autoregressive-моделям. Кросс-архитектурный distillation от плотного teacher → MoE → диффузионный student — редкое сочетание, и заметный прыжок на code-бенчмарках при 0.6B параметрах делает идею практически интересной для on-device.

Важность: 2/5

Узкое исследовательское направление, без явных upvote-сигналов на HF Daily.

Источники