SU-01: рассуждения на уровне золотой медали олимпиады через curriculum SFT и двухэтапный RL
SU-01 Team
SU-01 — модель 30B-A3B, обученная с помощью curriculum SFT с обратной перплексией и последующего двухэтапного RL (~340K SFT-траекторий + 200 шагов RL). Модель достигает производительности уровня золотой медали на бенчмарках IMO, USAMO и IPhO, стабильно обрабатывая траектории рассуждений длиной более 100K токенов.
Почему это важно
Результаты уровня золотой медали на нескольких международных олимпиадах по математике и физике — качественная веха для рассуждений ИИ. Результат достигнут благодаря тщательно выстроенному curriculum и двухэтапному RL, а не экзотическим архитектурным изменениям. 75 upvotes на HF Daily (15 мая).
Важность: 3/5
Качественная веха для reasoning (уровень золотой медали олимпиады); 75 upvotes на HF Daily
Источники
официальный
arXiv: SU-01 Olympiad Reasoning