#architecture
- Mean Mode Screaming: исправление патологии обучения открывает путь к 1000-слойным Diffusion Transformer research
- Lance: 3B Unified Multimodal Model for Understanding, Generation, and Editing (314 HF upvotes) ByteDance Research research
- Echo-Infinity: генерация бесконечного видео в реальном времени через обучаемый Memory Query research
- Do Language Models Need Sleep? Offline Recurrence as Memory Consolidation for Improved Inference Google / CMU research
- Wan-Streamer v0.1: сквозная интерактивная фундаментальная модель реального времени с задержкой менее 550 мс Wan-AI research
- Структурное происхождение attention sink: расхождение дисперсий, суперн ейроны и исправление research
- Cola DLM: непрерывная латентная диффузионная языковая модель с конкурентным масштабированием research