#moe
- DeepSeek V4: официальный open-source релиз с Day-0 адаптацией под Huawei Ascend DeepSeek models-llm
- MiniMax выпускает M3: открытая фронтирная модель с контекстом 1M токенов и архитектурой MSA MiniMax models-llm
- NVIDIA Nemotron 3 Ultra: открытая модель 550B MoE теперь доступна для агентных задач NVIDIA models-llm
- MiniMax M3 с открытыми весами: контекст 1M, MoE и кодирование на уровне лучших моделей MiniMax models-llm
- Zhipu AI открывает GLM-5.2 под лицензией MIT с контекстом 1M токенов Zhipu AI models-llm
- Zhipu AI выпускает открытые веса GLM-5.2: 753B MoE с контекстом 1M токенов под лицензией MIT Zhipu AI / Z.ai models-llm
- Zyphra выпускает ZAYA1-8B: открытая рассуждающая MoE-модель, обученная на оборудовании AMD Zyphra models-llm
- Lance: 3B Unified Multimodal Model for Understanding, Generation, and Editing (314 HF upvotes) ByteDance Research research
- JetBrains публикует исходный код Mellum2: 12B MoE-модель для кодирования в мульти-модельных пайплайнах JetBrains models-llm
- Cohere North Mini Code: 30B MoE-модель под Apache 2.0 для агентных рабочих процессов Cohere models-llm
- Kimi K2.7-Code HighSpeed: рост производительности в 6× для продакшн-пайплайнов агентов по коду Moonshot AI models-llm
- Kwai Keye-VL-2.0: открытая мультимодальная MoE-модель 30B с контекстом 256K для длинного видео Kwai research
- Moonshot AI выпускает Kimi K2.7-Code: открытая модель с 1T параметрами для программирования и поддержкой зрения Moonshot AI models-llm
- vLLM добавляет поддержку MiniMax M3 с открытыми весами в день выхода: разреженное внимание с контекстом 1M токенов MiniMax tools
- Zhipu AI выпускает GLM-5.2: MoE с 744B параметрами, контекстом 1M токенов и фокусом на программирование Zhipu AI models-llm
- Сбер представил Kandinsky 6.0 Image — флагманскую модель генерации изображений Sber image