DreamReasoner-8B: блоковый размерный curriculum для диффузионных reasoning-моделей

исследования официальный 1 ист. ~1 мин

DreamReasoner-8B выявляет сбой обучения в блочных диффузионных LLM: большие размеры блоков существенно деградируют цепочки рассуждений. Статья вводит curriculum-обучение по размеру блоков — переход от малых к большим блокам в процессе обучения — и получает модель, конкурирующую с Qwen3-8B на математических бенчмарках и бенчмарках рассуждений по коду.

Почему это важно

Выявляет фундаментальное несоответствие между обучением и инференсом в парадигме диффузионных LM и предлагает принципиальное решение, позволяющее диффузионным моделям с открытым исходным кодом сравняться с ведущими авторегрессионными моделями в задачах рассуждений.

Важность: 2/5

Полезный методологический вклад в развивающуюся область диффузионных LM.

Источники