moe — AI Digest

30 апр DeepSeek V4: официальный open-source релиз с Day-0 адаптацией под Huawei Ascend DeepSeek models-llm
2 июн MiniMax выпускает M3: открытая фронтирная модель с контекстом 1M токенов и архитектурой MSA MiniMax models-llm
8 июн NVIDIA Nemotron 3 Ultra: открытая модель 550B MoE теперь доступна для агентных задач NVIDIA models-llm
10 июн MiniMax M3 с открытыми весами: контекст 1M, MoE и кодирование на уровне лучших моделей MiniMax models-llm
17 июн Zhipu AI открывает GLM-5.2 под лицензией MIT с контекстом 1M токенов Zhipu AI models-llm
19 июн Zhipu AI выпускает открытые веса GLM-5.2: 753B MoE с контекстом 1M токенов под лицензией MIT Zhipu AI / Z.ai models-llm
9 мая Zyphra выпускает ZAYA1-8B: открытая рассуждающая MoE-модель, обученная на оборудовании AMD Zyphra models-llm
20 мая Lance: 3B Unified Multimodal Model for Understanding, Generation, and Editing (314 HF upvotes) ByteDance Research research
4 июн JetBrains публикует исходный код Mellum2: 12B MoE-модель для кодирования в мульти-модельных пайплайнах JetBrains models-llm
10 июн Cohere North Mini Code: 30B MoE-модель под Apache 2.0 для агентных рабочих процессов Cohere models-llm
16 июн Kimi K2.7-Code HighSpeed: рост производительности в 6× для продакшн-пайплайнов агентов по коду Moonshot AI models-llm
11 июн Kwai Keye-VL-2.0: открытая мультимодальная MoE-модель 30B с контекстом 256K для длинного видео Kwai research
14 июн Moonshot AI выпускает Kimi K2.7-Code: открытая модель с 1T параметрами для программирования и поддержкой зрения Moonshot AI models-llm
14 июн vLLM добавляет поддержку MiniMax M3 с открытыми весами в день выхода: разреженное внимание с контекстом 1M токенов MiniMax tools
14 июн Zhipu AI выпускает GLM-5.2: MoE с 744B параметрами, контекстом 1M токенов и фокусом на программирование Zhipu AI models-llm
29 апр Сбер представил Kandinsky 6.0 Image — флагманскую модель генерации изображений Sber image