VibeThinker-3B достигает показателей frontier-уровня на бенчмарках рассуждений через curriculum RL

WeiboAI

исследования офиц. + СМИ 3 ист. ~1 мин

VibeThinker-3B (arXiv 2606.16140, 15 июня) достигает 94,3 на AIME26 (97,1 при масштабировании тестового времени), 80,2 Pass@1 на LiveCodeBench v6 и 96,1% принятых решений на незнакомых контестах LeetCode — с применением curriculum SFT, многодоменного RL и офлайн-самодистилляции на плотной модели с 3B параметрами. Авторы предлагают Гипотезу параметрического сжатия и покрытия: рассуждения компрессируются в компактные модели, тогда как широкие фактические знания требуют большего числа параметров.

Почему это важно

713 голосов на HuggingFace Daily Papers. Модель с 3B параметрами, сопоставимая или превосходящая значительно более крупные системы на бенчмарках по математике и коду, ставит под сомнение базовые предположения о требованиях к масштабу для frontier-рассуждений — значительные последствия для стоимости инференса и развёртывания на граничных устройствах.

Важность: 4/5

713 голосов на HF + frontier-уровень рассуждений в модели на 3B — результат, ставящий под сомнение парадигму масштаба

reasoning rl benchmark small-models rlvr

Источники

официальный arXiv:2606.16140

официальный HuggingFace Papers

СМИ VentureBeat