SU-01: рассуждения на уровне золотой медали олимпиады через curriculum SFT и двухэтапный RL

SU-01 Team

исследования офиц. + СМИ 2 ист. ~1 мин

SU-01 — модель 30B-A3B, обученная с помощью curriculum SFT с обратной перплексией и последующего двухэтапного RL (~340K SFT-траекторий + 200 шагов RL). Модель достигает производительности уровня золотой медали на бенчмарках IMO, USAMO и IPhO, стабильно обрабатывая траектории рассуждений длиной более 100K токенов.

Почему это важно

Результаты уровня золотой медали на нескольких международных олимпиадах по математике и физике — качественная веха для рассуждений ИИ. Результат достигнут благодаря тщательно выстроенному curriculum и двухэтапному RL, а не экзотическим архитектурным изменениям. 75 upvotes на HF Daily (15 мая).

Важность: 3/5

Качественная веха для reasoning (уровень золотой медали олимпиады); 75 upvotes на HF Daily

Источники

официальный arXiv: SU-01 Olympiad Reasoning