-
VibeThinker-3B достигает показателей frontier-уровня на бенчмарках рассуждений через curriculum RL
WeiboAI
research
-
Exploration Hacking: LLM можно дообучить для стратегического противодействия RL-обучению
research
-
OpenAI раскрывает случайное использование оценки цепочки рассуждений при RL-обучении шести моделей
OpenAI
research
-
AI Co-Mathematician от Google DeepMind достигает 48% на FrontierMath Tier 4
Google DeepMind
research
-
Flow-OPD: on-policy дистилляция даёт +29 пунктов по GenEval на Stable Diffusion 3.5
research
-
RubricEM: мета-RL с декомпозицией политики под руководством рубрик за пределами верифицируемых наград
Google
research
-
SU-01: рассуждения на уровне золотой медали олимпиады через curriculum SFT и двухэтапный RL
SU-01 Team
research
-
SkillsVote: Lifecycle Governance of Agent Skills — Collection, Recommendation, Evolution (219 HF upvotes)
Memtensor Research Group / IAAR-Shanghai
research
-
Anthropic устраняет агентическое поведение шантажа у Claude с помощью «Teaching Claude Why»
Anthropic
research
-
DRPO: переосмысление дивергентной регуляризации в обучении с подкреплением для LLM
Tencent Hunyuan
research
-
Learning while Deploying: флитовое обучение с подкреплением превращает развёртывание роботов в непрерывный тренинг
AGIBot
research
-
Ctx2Skill: фреймворк самосовершенствования для автономного обнаружения навыков из контекста в LLM
research
-
RLDX-1: Multi-Stream Action Transformer достигает 86,8% на гуманоидных задачах ALLEX
RLWRLD
research
-
OpenSearch-VL: открытый рецепт обучения мультимодальных агентов поиска
Tencent Hunyuan
research
-
SDAR: агентное обучение с подкреплением через самодистилляцию для многоходовых агентов
Zhejiang University / Meituan
research
-
GrepSeek: обучение поисковых агентов для прямого взаимодействия с корпусом через команды оболочки (93 апвоута на HF)
University of Massachusetts Amherst
research
-
ThoughtFold: интроспективное обучение предпочтениям сокращает токены рассуждения на 56% без потери точности
research
-
Агентные трансформеры доказуемо обучаются поиску в глубину через обучение с подкреплением
Carnegie Mellon University / Ohio State University
research
-
Flow-DPPO: принципиальное RL-выравнивание для моделей генерации изображений и видео на основе flow matching
Tencent Hunyuan
research
-
Arbor: автономное ML-исследование через уточнение дерева гипотез
NLPIR Lab
research
-
Z-Reward: распределения оценок вместо скалярных наград для RLHF в генерации изображений
Alibaba
research
-
InterleaveThinker: RL-пайплайн «планировщик+критик» для перемежающейся генерации текста и изображений
CUHK Multimedia Lab
research
-
CoPD: co-evolving policy distillation для унифицированных мультиспособных моделей
research
-
Odysseus: обучение VLM для интерактивного принятия решений на 100+ ходов с помощью RL
Princeton University
research
-
TrOPD: Trust-Region On-Policy Distillation Stabilizes LLM Training When Teacher-Student Gap Is Large
Samsung Research
research
-
InterleaveThinker: RL-фреймворк для агентной генерации чередующегося текста и изображений
research
-
FORT-Searcher: фреймворк обучающих данных, устойчивых к «срезанию углов», для агентов глубокого поиска
research
-
Astra: VLM с RL-обучением запрашивает симулятор мира для пространственных рассуждений
research
-
HeavySkill: интернализация «тяжёлого мышления» как обучаемого агентного навыка через RL
research
-
NanoResearch: совместная эволюция навыков, памяти и политики для персонализированной AI-автоматизации исследований
Shanghai AI Lab
research
-
TMAS: масштабирование тестового вычисления через синергию мультиагентов с иерархической памятью
research
-
BetaPRM: process rewards с учётом неопределённости сокращают расход reasoning-токенов на 33%
research
-
NudgeRL: стратегические контекстные подсказки для эффективного исследования в RLVR
KAIST AI
research
-
QUBRIC: Co-Designing Queries and Rubrics Extends RLVR to Open-Ended Reasoning Domains
research
-
О геометрии on-policy дистилляции: парадигма обучения, отличная от SFT и RLVR
Hong Kong University of Science and Technology
research
-
Слабые критики создают сильных учеников: On-Policy Critique Distillation для масштабируемого надзора
Rutgers University
research
-
ZPPO: дистилляция знаний через учителя-в-промптах превосходит градиентные методы для малых моделей рассуждений
NVIDIA
research
-
Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond
HKUST/NUS/Oxford/NTU
research
-
World-R1: Reinforcing 3D Constraints for Text-to-Video Generation
Microsoft Research
research