-
NVIDIA выпускает Cosmos 3: открытая омнимодальная фундаментальная модель для физического AI
NVIDIA
research
-
GLM-5V-Turbo: нативная foundation-модель для мультимодальных агентов
Z.ai
research
-
Thinking Machines Lab представляет TML-Interaction-Small: мультимодальная модель MoE на 276B для работы в реальном времени
Thinking Machines Lab
models-llm
-
SenseNova-U1: open-source унифицированное мультимодальное понимание и генерация через NEO-unify
SenseTime
research
-
MulTaBench: бенчмаркинг мультимодального табличного обучения с текстом и изображениями
Technion
research
-
Google I/O 2026: Gemini 4, Jules V2, Firebase Studio GA, Android XR и Aluminium OS
Google DeepMind
models-llm
-
Google Introduces Gemini Omni: Any-to-Any Video Generation in Consumer Products
Google DeepMind
video
-
Alibaba выпускает Qwen3.7-Plus: мультимодальный агент с поддержкой зрения, рассуждений и автономного выполнения задач
Alibaba / Qwen
models-llm
-
MiniMax выпускает M3: открытая фронтирная модель с контекстом 1M токенов и архитектурой MSA
MiniMax
models-llm
-
Google DeepMind выпускает Gemma 4 12B: мультимодальная модель без энкодера, работающая на ноутбуке с 16 ГБ VRAM
Google DeepMind
models-llm
-
MiniMax M3 с открытыми весами: контекст 1M, MoE и кодирование на уровне лучших моделей
MiniMax
models-llm
-
Eywa: фреймворк гетерогенного взаимодействия между LLM-агентами и научными foundation-моделями
University of Illinois at Urbana-Champaign
research
-
MiniCPM-o 4.5: полнодуплексное омнимодальное AI в реальном времени на граничных устройствах
OpenBMB / Tsinghua University
research
-
AI2 публикует в открытый доступ MolmoAct2: роботизированная VLA, превосходящая GPT-5 в воплощённом рассуждении
AI2
research
-
UniVidX: единый диффузионный бэкбон для генерации RGB, карт внутренних признаков и RGBA-видео
research
-
ByteDance выпускает Doubao-Seed-2.0-lite — первую омни-модальную модель в серии Seed
ByteDance
models-llm
-
Qwen-Image-2.0: унифицированная генерация и редактирование изображений в разрешении 2K, первое место на AI Arena
Alibaba
research
-
Google DeepMind представляет Magic Pointer: AI-осведомлённый курсор мыши для Chrome и Googlebook
Google DeepMind
tools
-
Lance: 3B Unified Multimodal Model for Understanding, Generation, and Editing (314 HF upvotes)
ByteDance Research
research
-
LongLive-2.0: параллельная инфраструктура NVFP4 для генерации длинных видео (NVIDIA, 1220 апвоутов на HF)
NVIDIA
research
-
Kwai Keye-VL-2.0: открытая мультимодальная MoE-модель 30B с контекстом 256K для длинного видео
Kwai
research
-
Moonshot AI выпускает Kimi K2.7-Code: открытая модель с 1T параметрами для программирования и поддержкой зрения
Moonshot AI
models-llm
-
JoyAI-VL-Interaction: открытая VLM на 8B для взаимодействия в реальном времени с автономным управлением очередью речи
JD.com
research
-
RLDX-1: Multi-Stream Action Transformer достигает 86,8% на гуманоидных задачах ALLEX
RLWRLD
research
-
OpenSearch-VL: открытый рецепт обучения мультимодальных агентов поиска
Tencent Hunyuan
research
-
SANA-WM: мировое моделирование 720p длительностью в минуту на одном GPU
NVIDIA
research
-
MemLens: бенчмарк мультимодальной долгосрочной памяти для моделей визуального языка
NVIDIA
research
-
CiteVQA: бенчмарк атрибуции доказательств для надёжной document intelligence (178 апвоутов на HF)
Peking University / Shanghai Artificial Intelligence Laboratory
research
-
PhysBrain 1.0: эгоцентрическое видео людей как обучающие данные для VLA-моделей роботов (133 апвоута на HF)
DeepCybo
research
-
MMSkills: переиспользуемые мультимодальные скиллы для универсальных визуальных агентов (105 апвоутов на HF)
Shanghai Jiao Tong University
research
-
Audio Interaction Model: унифицированный стриминговый фреймворк, объединяющий офлайн и реальновременную обработку аудио по инструкциям
research
-
Z-Reward: распределения оценок вместо скалярных наград для RLHF в генерации изображений
Alibaba
research
-
vLLM добавляет поддержку MiniMax M3 с открытыми весами в день выхода: разреженное внимание с контекстом 1M токенов
MiniMax
tools
-
InterleaveThinker: RL-пайплайн «планировщик+критик» для перемежающейся генерации текста и изображений
CUHK Multimedia Lab
research
-
CoPD: co-evolving policy distillation для унифицированных мультиспособных моделей
research
-
Odysseus: обучение VLM для интерактивного принятия решений на 100+ ходов с помощью RL
Princeton University
research
-
World Action Models: первый систематический обзор воплощённых фундаментальных моделей, объединяющих моделирование мира и действия
OpenMOSS
research
-
Google Project Genie World Model Now Simulates Real Places Using Street View
Google DeepMind
research
-
InterleaveThinker: RL-фреймворк для агентной генерации чередующегося текста и изображений
research
-
Astra: VLM с RL-обучением запрашивает симулятор мира для пространственных рассуждений
research
-
DeepSeek запустил режим распознавания изображений в gray-scale тесте
DeepSeek
models-llm
-
Видеомодель Google Gemini «Omni» появляется в ранних демо накануне I/O 2026
Google DeepMind
video
-
llama.cpp b9161/b9169: совместимость с Codex CLI и мультимодальная поддержка Qwen3A
ggml-org
tools
-
VideoKR: обучающий корпус из 315K примеров для знание- и рассуждение-интенсивного понимания видео
Yale University
research
-
Echo-Memory: контролируемое исследование механизмов памяти в видеомоделях мира с условием на действие
Microsoft Research
research
-
SCAIL-2: сквозная анимация персонажей через инконтекстное кондиционирование
Tsinghua University
research
-
llama.cpp b9716: мультимодальный батчинг InternVL, CUDA col2im и исправление SSE для Nginx
tools
-
StylisticBias: 15 визуальных атрибутов объясняют 80% социальных предубеждений в мультимодальных LLM
research
-
Коллапс предпочтений мультимодального оценщика: кросс-модальное заражение в циклах самоэволюции агентов
research
-
Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond
HKUST/NUS/Oxford/NTU
research