rl — AI Digest

17 июн VibeThinker-3B достигает показателей frontier-уровня на бенчмарках рассуждений через curriculum RL WeiboAI research
3 мая Exploration Hacking: LLM можно дообучить для стратегического противодействия RL-обучению research
9 мая OpenAI раскрывает случайное использование оценки цепочки рассуждений при RL-обучении шести моделей OpenAI research
10 мая AI Co-Mathematician от Google DeepMind достигает 48% на FrontierMath Tier 4 Google DeepMind research
11 мая Flow-OPD: on-policy дистилляция даёт +29 пунктов по GenEval на Stable Diffusion 3.5 research
13 мая RubricEM: мета-RL с декомпозицией политики под руководством рубрик за пределами верифицируемых наград Google research
15 мая SU-01: рассуждения на уровне золотой медали олимпиады через curriculum SFT и двухэтапный RL SU-01 Team research
20 мая SkillsVote: Lifecycle Governance of Agent Skills — Collection, Recommendation, Evolution (219 HF upvotes) Memtensor Research Group / IAAR-Shanghai research
10 мая Anthropic устраняет агентическое поведение шантажа у Claude с помощью «Teaching Claude Why» Anthropic research
10 июн DRPO: переосмысление дивергентной регуляризации в обучении с подкреплением для LLM Tencent Hunyuan research
4 мая Learning while Deploying: флитовое обучение с подкреплением превращает развёртывание роботов в непрерывный тренинг AGIBot research
6 мая Ctx2Skill: фреймворк самосовершенствования для автономного обнаружения навыков из контекста в LLM research
7 мая RLDX-1: Multi-Stream Action Transformer достигает 86,8% на гуманоидных задачах ALLEX RLWRLD research
9 мая OpenSearch-VL: открытый рецепт обучения мультимодальных агентов поиска Tencent Hunyuan research
16 мая SDAR: агентное обучение с подкреплением через самодистилляцию для многоходовых агентов Zhejiang University / Meituan research
2 июн GrepSeek: обучение поисковых агентов для прямого взаимодействия с корпусом через команды оболочки (93 апвоута на HF) University of Massachusetts Amherst research
4 июн ThoughtFold: интроспективное обучение предпочтениям сокращает токены рассуждения на 56% без потери точности research
8 июн Агентные трансформеры доказуемо обучаются поиску в глубину через обучение с подкреплением Carnegie Mellon University / Ohio State University research
10 июн Flow-DPPO: принципиальное RL-выравнивание для моделей генерации изображений и видео на основе flow matching Tencent Hunyuan research
11 июн Arbor: автономное ML-исследование через уточнение дерева гипотез NLPIR Lab research
11 июн Z-Reward: распределения оценок вместо скалярных наград для RLHF в генерации изображений Alibaba research
14 июн InterleaveThinker: RL-пайплайн «планировщик+критик» для перемежающейся генерации текста и изображений CUHK Multimedia Lab research
2 мая CoPD: co-evolving policy distillation для унифицированных мультиспособных моделей research
5 мая Odysseus: обучение VLM для интерактивного принятия решений на 100+ ходов с помощью RL Princeton University research
3 июн TrOPD: Trust-Region On-Policy Distillation Stabilizes LLM Training When Teacher-Student Gap Is Large Samsung Research research
12 июн InterleaveThinker: RL-фреймворк для агентной генерации чередующегося текста и изображений research
12 июн FORT-Searcher: фреймворк обучающих данных, устойчивых к «срезанию углов», для агентов глубокого поиска research
12 июн Astra: VLM с RL-обучением запрашивает симулятор мира для пространственных рассуждений research
6 мая HeavySkill: интернализация «тяжёлого мышления» как обучаемого агентного навыка через RL research
12 мая NanoResearch: совместная эволюция навыков, памяти и политики для персонализированной AI-автоматизации исследований Shanghai AI Lab research
12 мая TMAS: масштабирование тестового вычисления через синергию мультиагентов с иерархической памятью research
18 мая BetaPRM: process rewards с учётом неопределённости сокращают расход reasoning-токенов на 33% research
19 мая NudgeRL: стратегические контекстные подсказки для эффективного исследования в RLVR KAIST AI research
3 июн QUBRIC: Co-Designing Queries and Rubrics Extends RLVR to Open-Ended Reasoning Domains research
9 июн О геометрии on-policy дистилляции: парадигма обучения, отличная от SFT и RLVR Hong Kong University of Science and Technology research
9 июн Слабые критики создают сильных учеников: On-Policy Critique Distillation для масштабируемого надзора Rutgers University research
17 июн ZPPO: дистилляция знаний через учителя-в-промптах превосходит градиентные методы для малых моделей рассуждений NVIDIA research
28 апр Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond HKUST/NUS/Oxford/NTU research
28 апр World-R1: Reinforcing 3D Constraints for Text-to-Video Generation Microsoft Research research