paper — AI Digest

4 июн NVIDIA выпускает Cosmos 3: открытая омнимодальная фундаментальная модель для физического AI NVIDIA research

30 апр GLM-5V-Turbo: нативная foundation-модель для мультимодальных агентов Z.ai research

13 мая SenseNova-U1: open-source унифицированное мультимодальное понимание и генерация через NEO-unify SenseTime research

30 апр Recursive Multi-Agent Systems: общение агентов в latent space Stanford University research

2 мая Eywa: фреймворк гетерогенного взаимодействия между LLM-агентами и научными foundation-моделями University of Illinois at Urbana-Champaign research

3 мая Exploration Hacking: LLM можно дообучить для стратегического противодействия RL-обучению research

3 мая OpenAI раскрывает, как сигнал вознаграждения для 2,5% пользователей вызвал гоблинскую одержимость GPT на протяжении нескольких поколений моделей OpenAI research

3 мая MiniCPM-o 4.5: полнодуплексное омнимодальное AI в реальном времени на граничных устройствах OpenBMB / Tsinghua University research

5 мая AI2 публикует в открытый доступ MolmoAct2: роботизированная VLA, превосходящая GPT-5 в воплощённом рассуждении AI2 research

5 мая UniVidX: единый диффузионный бэкбон для генерации RGB, карт внутренних признаков и RGBA-видео research

6 мая Разбор инцидента OpenAI: как RLHF reward hacking встроил гоблинские метафоры в GPT-5.x OpenAI research

13 мая RubricEM: мета-RL с декомпозицией политики под руководством рубрик за пределами верифицируемых наград Google research

14 мая Asymmetric Flow Models: SOTA FID 1,57 на ImageNet через ранг-асимметричную параметризацию скоростей Stanford University research

3 июн Humanoid-GPT: Scaling to 2B Motion Frames Enables Zero-Shot Generalization in Humanoid Control research

6 июн MLEvolve: самоэволюционирующий мультиагентный LLM-фреймворк для автоматического поиска алгоритмов машинного обучения research

14 июн MiniMax Sparse Attention: сокращение вычислений в 28 раз при контексте 1M токенов без потери качества MiniMax research

14 июн MaxProof: модель MiniMax превышает пороги золотых медалей IMO и USAMO в формальной математике MiniMax research

4 мая Learning while Deploying: флитовое обучение с подкреплением превращает развёртывание роботов в непрерывный тренинг AGIBot research

6 мая Ctx2Skill: фреймворк самосовершенствования для автономного обнаружения навыков из контекста в LLM research

7 мая RLDX-1: Multi-Stream Action Transformer достигает 86,8% на гуманоидных задачах ALLEX RLWRLD research

8 мая AI Co-Mathematician: Google DeepMind достигает 48% на FrontierMath Tier 4 Google DeepMind research

9 мая OpenSearch-VL: открытый рецепт обучения мультимодальных агентов поиска Tencent Hunyuan research

9 мая ARIS: автономные ML-исследования с помощью состязательного взаимодействия мульти-агентов Shanghai Jiao Tong University research

2 июн Crafter: мультиагентный фреймворк для генерации редактируемых научных иллюстраций — +16 пунктов над базовыми моделями (103 апвоута на HF) Tsinghua University research

2 июн GrepSeek: обучение поисковых агентов для прямого взаимодействия с корпусом через команды оболочки (93 апвоута на HF) University of Massachusetts Amherst research

4 июн Echo-Infinity: генерация бесконечного видео в реальном времени через обучаемый Memory Query research

4 июн ThoughtFold: интроспективное обучение предпочтениям сокращает токены рассуждения на 56% без потери точности research

6 июн Детерминированный горизонт: теоретико-информационное доказательство ограничений расширенного CoT и необходимости использования инструментов research

6 июн Иллюзия самокоррекции: LLM исправляют чужие ошибки, но не свои — причина в ролевых метках research

6 июн Audio Interaction Model: унифицированный стриминговый фреймворк, объединяющий офлайн и реальновременную обработку аудио по инструкциям research

8 июн Агентные трансформеры доказуемо обучаются поиску в глубину через обучение с подкреплением Carnegie Mellon University / Ohio State University research

14 июн EvoArena: LLM-агенты набирают лишь 40% в динамически изменяющихся средах MIT / NUS / Salesforce research

14 июн WeaveBench: агенты компьютерного использования проваливаются на гибридных задачах GUI+CLI — 41% успешных выполнений Microsoft Research research

14 июн InterleaveThinker: RL-пайплайн «планировщик+критик» для перемежающейся генерации текста и изображений CUHK Multimedia Lab research

16 июн DreamX-World 1.0: интерактивная модель мира общего назначения с управлением камерой 6DoF AMAP-ML (Alibaba Maps AI Lab) research

16 июн FastContext: специализированный субагент-исследователь сокращает использование токенов агентами по коду на 60% Microsoft / Shanghai Jiao Tong University research

18 июн Вмешательства SAE ненадёжны: подавленное поведение восстанавливается после интервенции Hong Kong Polytechnic University research

30 апр TIDE: кросс-архитектурная дистилляция для диффузионных LLM Peking University research

30 апр Programming with Data: test-driven data engineering для самоулучшающихся LLM OpenDataLab research

2 мая ESamp: LLM исследуют через latent distilling для семплирования по семантической новизне ShanghaiTech University research

2 мая CoPD: co-evolving policy distillation для унифицированных мультиспособных моделей research

5 мая Odysseus: обучение VLM для интерактивного принятия решений на 100+ ходов с помощью RL Princeton University research

5 мая Meta публикует отчёт о готовности Code World Model перед выпуском в открытый доступ Meta research

13 мая World Action Models: первый систематический обзор воплощённых фундаментальных моделей, объединяющих моделирование мира и действия OpenMOSS research

14 мая AnyFlow: видеодиффузия с произвольным числом шагов через on-policy дистилляцию flow map MIT / NVIDIA research

3 июн TrOPD: Trust-Region On-Policy Distillation Stabilizes LLM Training When Teacher-Student Gap Is Large Samsung Research research

3 июн Do Language Models Need Sleep? Offline Recurrence as Memory Consolidation for Improved Inference Google / CMU research

12 июн InterleaveThinker: RL-фреймворк для агентной генерации чередующегося текста и изображений research

12 июн EvoArena: LLM-агенты набирают лишь 39,6% на бенчмарке динамически меняющихся сред MIT research

12 июн FORT-Searcher: фреймворк обучающих данных, устойчивых к «срезанию углов», для агентов глубокого поиска research

12 июн Astra: VLM с RL-обучением запрашивает симулятор мира для пространственных рассуждений research

4 мая Intern-Atlas: граф эволюции методологий из 1 млн статей как исследовательская инфраструктура для AI-учёных research

6 мая HeavySkill: интернализация «тяжёлого мышления» как обучаемого агентного навыка через RL research

7 мая LongSeeker: эластичная оркестрация контекста для агентов долгосрочного поиска Shanghai Jiao Tong University research

7 мая Исполняемые мировые модели для ARC-AGI-3: подход агента программирования без игровой специфики research

8 мая Структурное происхождение attention sink: расхождение дисперсий, суперн ейроны и исправление research

9 мая Direct Corpus Interaction: переосмысление поиска для агентных систем TIGER-Lab research

9 мая Cola DLM: непрерывная латентная диффузионная языковая модель с конкурентным масштабированием research

13 мая Learning, Fast and Slow: двойная весовая архитектура для непрерывной адаптации LLM research

3 июн QUBRIC: Co-Designing Queries and Rubrics Extends RLVR to Open-Ended Reasoning Domains research

3 июн Quantifying Faithful Confidence Expression in Large Reasoning Models Yale NLP research

8 июн SubtleMemory: бенчмарк выявляет систематические провалы агентов в тонком реляционном запоминании research

8 июн Code2LoRA: гиперсеть генерирует репозиторно-специфичные адаптеры для code LM без накладных расходов на инференс University of Waterloo research

8 июн VideoKR: обучающий корпус из 315K примеров для знание- и рассуждение-интенсивного понимания видео Yale University research

16 июн Память реконструируется, а не извлекается: графовая память улучшает запоминание у LLM-агентов на 23% National University of Singapore research

18 июн Diffusion-Proof: формальное доказательство теорем с помощью диффузионных языковых моделей research

18 июн DreamReasoner-8B: блоковый размерный curriculum для диффузионных reasoning-моделей research

19 июн StylisticBias: 15 визуальных атрибутов объясняют 80% социальных предубеждений в мультимодальных LLM research

19 июн Коллапс предпочтений мультимодального оценщика: кросс-модальное заражение в циклах самоэволюции агентов research

28 апр Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond HKUST/NUS/Oxford/NTU research

28 апр World-R1: Reinforcing 3D Constraints for Text-to-Video Generation Microsoft Research research

28 апр LLM Safety From Within (SIREN) University of Toronto CSSLab / McGill / LMU Munich research