#reasoning
- VibeThinker-3B достигает показателей frontier-уровня на бенчмарках рассуждений через curriculum RL WeiboAI research
- Recursive Multi-Agent Systems: общение агентов в latent space Stanford University research
- Zyphra выпускает ZAYA1-8B: открытая рассуждающая MoE-модель, обученная на оборудовании AMD Zyphra models-llm
- AI Co-Mathematician от Google DeepMind достигает 48% на FrontierMath Tier 4 Google DeepMind research
- RubricEM: мета-RL с декомпозицией политики под руководством рубрик за пределами верифицируемых наград Google research
- SU-01: рассуждения на уровне золотой медали олимпиады через curriculum SFT и двухэтапный RL SU-01 Team research
- SOOHAK: фронтирные LLM решают сложную математику, но не распознают неразрешимые задачи research
- Code as Agent Harness: Survey Positions Code as the Substrate for Executable Agent Systems (159 HF upvotes) Multi-institution (42 authors) research
- SkillsVote: Lifecycle Governance of Agent Skills — Collection, Recommendation, Evolution (219 HF upvotes) Memtensor Research Group / IAAR-Shanghai research
- Grok 4.3 доступен на Amazon Bedrock с контекстным окном 1 млн токенов xAI models-llm
- RoPE доказуемо не справляется с длинными контекстами: locality bias и согласованность токенов нарушаются research
- DRPO: переосмысление дивергентной регуляризации в обучении с подкреплением для LLM Tencent Hunyuan research
- MaxProof: модель MiniMax превышает пороги золотых медалей IMO и USAMO в формальной математике MiniMax research
- Ctx2Skill: фреймворк самосовершенствования для автономного обнаружения навыков из контекста в LLM research
- AI Co-Mathematician: Google DeepMind достигает 48% на FrontierMath Tier 4 Google DeepMind research
- SDAR: агентное обучение с подкреплением через самодистилляцию для многоходовых агентов Zhejiang University / Meituan research
- MMSkills: переиспользуемые мультимодальные скиллы для универсальных визуальных агентов (105 апвоутов на HF) Shanghai Jiao Tong University research
- GrepSeek: обучение поисковых агентов для прямого взаимодействия с корпусом через команды оболочки (93 апвоута на HF) University of Massachusetts Amherst research
- ThoughtFold: интроспективное обучение предпочтениям сокращает токены рассуждения на 56% без потери точности research
- Детерминированный горизонт: теоретико-информационное доказательство ограничений расширенного CoT и необходимости использования инструментов research
- Иллюзия самокоррекции: LLM исправляют чужие ошибки, но не свои — причина в ролевых метках research
- GitHub Copilot получает контекстное окно в 1M токенов и настраиваемые уровни рассуждений GitHub / Microsoft tools
- Агентные трансформеры доказуемо обучаются поиску в глубину через обучение с подкреплением Carnegie Mellon University / Ohio State University research
- Arbor: автономное ML-исследование через уточнение дерева гипотез NLPIR Lab research
- DeNovoSWE: генерация полного репозитория с нуля — рост с 5.8% до 47.2% на синтетических обучающих данных AweAI Team research
- Z-Reward: распределения оценок вместо скалярных наград для RLHF в генерации изображений Alibaba research
- ESamp: LLM исследуют через latent distilling для семплирования по семантической новизне ShanghaiTech University research
- Odysseus: обучение VLM для интерактивного принятия решений на 100+ ходов с помощью RL Princeton University research
- Soohak: 64 математика создали исследовательский бенчмарк, который ставит frontier LLM в тупик Seoul National University research
- AutoTTS: LLM-агенты автоматически открывают стратегии test-time scaling за $40 research
- TrOPD: Trust-Region On-Policy Distillation Stabilizes LLM Training When Teacher-Student Gap Is Large Samsung Research research
- Do Language Models Need Sleep? Offline Recurrence as Memory Consolidation for Improved Inference Google / CMU research
- InterleaveThinker: RL-фреймворк для агентной генерации чередующегося текста и изображений research
- Astra: VLM с RL-обучением запрашивает симулятор мира для пространственных рассуждений research
- HeavySkill: интернализация «тяжёлого мышления» как обучаемого агентного навыка через RL research
- LongSeeker: эластичная оркестрация контекста для агентов долгосрочного поиска Shanghai Jiao Tong University research
- Исполняемые мировые модели для ARC-AGI-3: подход агента программирования без игровой специфики research
- NanoResearch: совместная эволюция навыков, памяти и политики для персонализированной AI-автоматизации исследований Shanghai AI Lab research
- TMAS: масштабирование тестового вычисления через синергию мультиагентов с иерархической памятью research
- Learning, Fast and Slow: двойная весовая архитектура для непрерывной адаптации LLM research
- BetaPRM: process rewards с учётом неопределённости сокращают расход reasoning-токенов на 33% research
- NudgeRL: стратегические контекстные подсказки для эффективного исследования в RLVR KAIST AI research
- QUBRIC: Co-Designing Queries and Rubrics Extends RLVR to Open-Ended Reasoning Domains research
- Quantifying Faithful Confidence Expression in Large Reasoning Models Yale NLP research
- SubtleMemory: бенчмарк выявляет систематические провалы агентов в тонком реляционном запоминании research
- VideoKR: обучающий корпус из 315K примеров для знание- и рассуждение-интенсивного понимания видео Yale University research
- Слабые критики создают сильных учеников: On-Policy Critique Distillation для масштабируемого надзора Rutgers University research
- SearchSwarm: обучаемое делегирование для LLM-агентов в долгосрочных исследовательских задачах research
- Память реконструируется, а не извлекается: графовая память улучшает запоминание у LLM-агентов на 23% National University of Singapore research
- ZPPO: дистилляция знаний через учителя-в-промптах превосходит градиентные методы для малых моделей рассуждений NVIDIA research
- Diffusion-Proof: формальное доказательство теорем с помощью диффузионных языковых моделей research
- DreamReasoner-8B: блоковый размерный curriculum для диффузионных reasoning-моделей research