rl — AI Digest

17 июн VibeThinker-3B Reaches Frontier-Level Reasoning Benchmarks via Curriculum RL WeiboAI research
3 мая Exploration Hacking: LLMs Can Be Fine-Tuned to Strategically Resist RL Training research
9 мая OpenAI Discloses Accidental Chain-of-Thought Grading in RL Training Across Six Models OpenAI research
10 мая Google DeepMind's AI Co-Mathematician Reaches 48% on FrontierMath Tier 4 Google DeepMind research
11 мая Flow-OPD: On-Policy Distillation Pushes GenEval +29 Points on Stable Diffusion 3.5 research
13 мая RubricEM: Meta-RL with Rubric-Guided Policy Decomposition Beyond Verifiable Rewards Google research
15 мая SU-01: Gold-Medal-Level Olympiad Reasoning via Curriculum SFT and Two-Stage RL SU-01 Team research
20 мая SkillsVote: Lifecycle Governance of Agent Skills — Collection, Recommendation, Evolution (219 HF upvotes) Memtensor Research Group / IAAR-Shanghai research
10 мая Anthropic Eliminates Claude's Agentic Blackmail Behavior via 'Teaching Claude Why' Anthropic research
10 июн DRPO: Rethinking Divergence Regularization in LLM Reinforcement Learning Tencent Hunyuan research
4 мая Learning while Deploying: Fleet-Scale Reinforcement Learning Turns Robot Deployment into Continuous Training AGIBot research
6 мая Ctx2Skill: Self-Improving Framework for Autonomous Context-Skill Discovery in LLMs research
7 мая RLDX-1: Multi-Stream Action Transformer Achieves 86.8% on ALLEX Humanoid Tasks RLWRLD research
9 мая OpenSearch-VL: Open Recipe for Training Frontier Multimodal Search Agents Tencent Hunyuan research
16 мая SDAR: Self-Distilled Agentic Reinforcement Learning for Multi-Turn Agents Zhejiang University / Meituan research
2 июн GrepSeek: Training Search Agents for Direct Corpus Interaction via Shell Commands (93 HF Upvotes) University of Massachusetts Amherst research
4 июн ThoughtFold: Introspective Preference Learning Cuts Reasoning Tokens by 56% Without Accuracy Loss research
8 июн Agentic Transformers Provably Learn Depth-First Search via Reinforcement Learning Carnegie Mellon University / Ohio State University research
10 июн Flow-DPPO: Principled RL Alignment for Flow Matching Image and Video Models Tencent Hunyuan research
11 июн Arbor: Generalist Autonomous ML Research via Hypothesis-Tree Refinement NLPIR Lab research
11 июн Z-Reward: Score Distributions Instead of Scalar Rewards for Image Generation RLHF Alibaba research
14 июн InterleaveThinker: RL Planner+Critic Pipeline for Interleaved Text-and-Image Generation CUHK Multimedia Lab research
2 мая CoPD: co-evolving policy distillation for unified multi-capability models research
5 мая Odysseus: Training VLMs for 100+ Turn Interactive Decision-Making via RL Princeton University research
3 июн TrOPD: Trust-Region On-Policy Distillation Stabilizes LLM Training When Teacher-Student Gap Is Large Samsung Research research
12 июн InterleaveThinker: RL Framework for Agentic Text-and-Image Interleaved Generation research
12 июн FORT-Searcher: Shortcut-Resistant Training Data Framework for Deep Search Agents research
12 июн Astra: RL-Trained VLM Queries World Simulator for Spatial Reasoning research
6 мая HeavySkill: Internalizing Heavy Thinking as a Trainable Agentic Skill via RL research
12 мая NanoResearch: Co-Evolving Skills, Memory, and Policy for Personalized AI Research Automation Shanghai AI Lab research
12 мая TMAS: Scaling Test-Time Compute via Multi-Agent Synergy with Hierarchical Memory research
18 мая BetaPRM: Uncertainty-Aware Process Rewards Cut Reasoning Token Use by 33% research
19 мая NudgeRL: Strategy-Level Context Nudges for Efficient RLVR Exploration KAIST AI research
3 июн QUBRIC: Co-Designing Queries and Rubrics Extends RLVR to Open-Ended Reasoning Domains research
9 июн On the Geometry of On-Policy Distillation: A Training Paradigm Distinct from SFT and RLVR Hong Kong University of Science and Technology research
9 июн Weak Critics Make Strong Learners: On-Policy Critique Distillation for Scalable Oversight Rutgers University research
17 июн ZPPO: Teacher-in-Prompts Knowledge Distillation Outperforms Gradient Methods for Small Reasoners NVIDIA research
28 апр Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond HKUST/NUS/Oxford/NTU research
28 апр World-R1: Reinforcing 3D Constraints for Text-to-Video Generation Microsoft Research research