#architecture
- Mean Mode Screaming: исправление патологии обучения открывает путь к 1000-слойным Diffusion Transformer research
- Структурное происхождение attention sink: расхождение дисперсий, суперн ейроны и исправление research
- Cola DLM: непрерывная латентная диффузионная языковая модель с конкурентным масштабированием research