video-generation — AI Digest

5 мая UniVidX: единый диффузионный бэкбон для генерации RGB, карт внутренних признаков и RGBA-видео research
7 мая MiniMax Hailuo 2.3 запущена с Media Agent и генерацией видео в пакетном режиме на 50% дешевле MiniMax video
20 мая Lance: 3B Unified Multimodal Model for Understanding, Generation, and Editing (314 HF upvotes) ByteDance Research research
6 июн xAI Grok Imagine Video 1.5: image-to-video с нативным звуком возглавляет Arena Leaderboard, API уже доступен xAI video
6 июн Google Veo 3.1 добавляет звук во все режимы редактирования Flow и новые инструменты Insert/Remove Google DeepMind video
12 июн Lionsgate берёт долю в Runway и планирует AI-сериалы короткого формата Runway industry
19 июн xAI выпускает Grok Imagine Video 1.5: первое место в Video Arena Leaderboard по цене $4.20/мин xAI video
19 июн Kling AI выпускает 3.0 Turbo и 3.0 Omni: быстрые превью и 4K-редактирование с консистентностью персонажей Kuaishou video
19 мая LongLive-2.0: параллельная инфраструктура NVFP4 для генерации длинных видео (NVIDIA, 1220 апвоутов на HF) NVIDIA research
16 мая Causal Forcing++: 2-шаговая дистилляция для генерации интерактивного видео в реальном времени Tsinghua University research
16 мая SANA-WM: мировое моделирование 720p длительностью в минуту на одном GPU NVIDIA research
4 июн Echo-Infinity: генерация бесконечного видео в реальном времени через обучаемый Memory Query research
10 июн Flow-DPPO: принципиальное RL-выравнивание для моделей генерации изображений и видео на основе flow matching Tencent Hunyuan research
14 июн ElevenLabs запускает Avatars в ElevenCreative: AI-видео с говорящей головой на базе TTS ElevenLabs video
16 июн DreamX-World 1.0: интерактивная модель мира общего назначения с управлением камерой 6DoF AMAP-ML (Alibaba Maps AI Lab) research
14 мая AnyFlow: видеодиффузия с произвольным числом шагов через on-policy дистилляцию flow map MIT / NVIDIA research
12 мая Видеомодель Google Gemini «Omni» появляется в ранних демо накануне I/O 2026 Google DeepMind video
13 мая Видеомодель Gemini Omni появляется накануне Google I/O 2026 Google DeepMind video
11 мая ShengShu Technology запускает Vidu Claw: AI-платформу для сквозного производства рекламы ShengShu Technology video
8 июн VideoKR: обучающий корпус из 315K примеров для знание- и рассуждение-интенсивного понимания видео Yale University research
9 июн Echo-Memory: контролируемое исследование механизмов памяти в видеомоделях мира с условием на действие Microsoft Research research
10 июн SCAIL-2: сквозная анимация персонажей через инконтекстное кондиционирование Tsinghua University research