multimodal — AI Digest

4 июн NVIDIA выпускает Cosmos 3: открытая омнимодальная фундаментальная модель для физического AI NVIDIA research
30 апр GLM-5V-Turbo: нативная foundation-модель для мультимодальных агентов Z.ai research
13 мая Thinking Machines Lab представляет TML-Interaction-Small: мультимодальная модель MoE на 276B для работы в реальном времени Thinking Machines Lab models-llm
13 мая SenseNova-U1: open-source унифицированное мультимодальное понимание и генерация через NEO-unify SenseTime research
15 мая MulTaBench: бенчмаркинг мультимодального табличного обучения с текстом и изображениями Technion research
19 мая Google I/O 2026: Gemini 4, Jules V2, Firebase Studio GA, Android XR и Aluminium OS Google DeepMind models-llm
20 мая Google Introduces Gemini Omni: Any-to-Any Video Generation in Consumer Products Google DeepMind video
2 июн Alibaba выпускает Qwen3.7-Plus: мультимодальный агент с поддержкой зрения, рассуждений и автономного выполнения задач Alibaba / Qwen models-llm
2 июн MiniMax выпускает M3: открытая фронтирная модель с контекстом 1M токенов и архитектурой MSA MiniMax models-llm
4 июн Google DeepMind выпускает Gemma 4 12B: мультимодальная модель без энкодера, работающая на ноутбуке с 16 ГБ VRAM Google DeepMind models-llm
10 июн MiniMax M3 с открытыми весами: контекст 1M, MoE и кодирование на уровне лучших моделей MiniMax models-llm
2 мая Eywa: фреймворк гетерогенного взаимодействия между LLM-агентами и научными foundation-моделями University of Illinois at Urbana-Champaign research
3 мая MiniCPM-o 4.5: полнодуплексное омнимодальное AI в реальном времени на граничных устройствах OpenBMB / Tsinghua University research
5 мая AI2 публикует в открытый доступ MolmoAct2: роботизированная VLA, превосходящая GPT-5 в воплощённом рассуждении AI2 research
5 мая UniVidX: единый диффузионный бэкбон для генерации RGB, карт внутренних признаков и RGBA-видео research
9 мая ByteDance выпускает Doubao-Seed-2.0-lite — первую омни-модальную модель в серии Seed ByteDance models-llm
12 мая Qwen-Image-2.0: унифицированная генерация и редактирование изображений в разрешении 2K, первое место на AI Arena Alibaba research
13 мая Google DeepMind представляет Magic Pointer: AI-осведомлённый курсор мыши для Chrome и Googlebook Google DeepMind tools
20 мая Lance: 3B Unified Multimodal Model for Understanding, Generation, and Editing (314 HF upvotes) ByteDance Research research
19 мая LongLive-2.0: параллельная инфраструктура NVFP4 для генерации длинных видео (NVIDIA, 1220 апвоутов на HF) NVIDIA research
11 июн Kwai Keye-VL-2.0: открытая мультимодальная MoE-модель 30B с контекстом 256K для длинного видео Kwai research
14 июн Moonshot AI выпускает Kimi K2.7-Code: открытая модель с 1T параметрами для программирования и поддержкой зрения Moonshot AI models-llm
17 июн JoyAI-VL-Interaction: открытая VLM на 8B для взаимодействия в реальном времени с автономным управлением очередью речи JD.com research
7 мая RLDX-1: Multi-Stream Action Transformer достигает 86,8% на гуманоидных задачах ALLEX RLWRLD research
9 мая OpenSearch-VL: открытый рецепт обучения мультимодальных агентов поиска Tencent Hunyuan research
16 мая SANA-WM: мировое моделирование 720p длительностью в минуту на одном GPU NVIDIA research
16 мая MemLens: бенчмарк мультимодальной долгосрочной памяти для моделей визуального языка NVIDIA research
19 мая CiteVQA: бенчмарк атрибуции доказательств для надёжной document intelligence (178 апвоутов на HF) Peking University / Shanghai Artificial Intelligence Laboratory research
19 мая PhysBrain 1.0: эгоцентрическое видео людей как обучающие данные для VLA-моделей роботов (133 апвоута на HF) DeepCybo research
19 мая MMSkills: переиспользуемые мультимодальные скиллы для универсальных визуальных агентов (105 апвоутов на HF) Shanghai Jiao Tong University research
6 июн Audio Interaction Model: унифицированный стриминговый фреймворк, объединяющий офлайн и реальновременную обработку аудио по инструкциям research
11 июн Z-Reward: распределения оценок вместо скалярных наград для RLHF в генерации изображений Alibaba research
14 июн vLLM добавляет поддержку MiniMax M3 с открытыми весами в день выхода: разреженное внимание с контекстом 1M токенов MiniMax tools
14 июн InterleaveThinker: RL-пайплайн «планировщик+критик» для перемежающейся генерации текста и изображений CUHK Multimedia Lab research
2 мая CoPD: co-evolving policy distillation для унифицированных мультиспособных моделей research
5 мая Odysseus: обучение VLM для интерактивного принятия решений на 100+ ходов с помощью RL Princeton University research
13 мая World Action Models: первый систематический обзор воплощённых фундаментальных моделей, объединяющих моделирование мира и действия OpenMOSS research
20 мая Google Project Genie World Model Now Simulates Real Places Using Street View Google DeepMind research
12 июн InterleaveThinker: RL-фреймворк для агентной генерации чередующегося текста и изображений research
12 июн Astra: VLM с RL-обучением запрашивает симулятор мира для пространственных рассуждений research
29 апр DeepSeek запустил режим распознавания изображений в gray-scale тесте DeepSeek models-llm
12 мая Видеомодель Google Gemini «Omni» появляется в ранних демо накануне I/O 2026 Google DeepMind video
16 мая llama.cpp b9161/b9169: совместимость с Codex CLI и мультимодальная поддержка Qwen3A ggml-org tools
8 июн VideoKR: обучающий корпус из 315K примеров для знание- и рассуждение-интенсивного понимания видео Yale University research
9 июн Echo-Memory: контролируемое исследование механизмов памяти в видеомоделях мира с условием на действие Microsoft Research research
10 июн SCAIL-2: сквозная анимация персонажей через инконтекстное кондиционирование Tsinghua University research
19 июн llama.cpp b9716: мультимодальный батчинг InternVL, CUDA col2im и исправление SSE для Nginx tools
19 июн StylisticBias: 15 визуальных атрибутов объясняют 80% социальных предубеждений в мультимодальных LLM research
19 июн Коллапс предпочтений мультимодального оценщика: кросс-модальное заражение в циклах самоэволюции агентов research
28 апр Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond HKUST/NUS/Oxford/NTU research