JetBrains публикует исходный код Mellum2: 12B MoE-модель для кодирования в мульти-модельных пайплайнах
JetBrains
JetBrains выпустила Mellum2 под лицензией Apache 2.0: модель Mixture-of-Experts на 12B параметров (2,5B активных, 64 эксперта с активацией 8 на токен), обученная на примерно 10,6T токенов для задач разработки ПО. Спроектирована как быстрая фокусная модель для маршрутизации, RAG, субагентов и высокопроизводительных функций написания кода; обеспечивает в 2 раза более быстрый инференс по сравнению с плотными моделями сопоставимого размера.
Почему это важно
Первая открытая MoE-модель для кодирования от крупного вендора IDE, предназначенная для встраивания в мульти-модельные пайплайны, а не для замены frontier-моделей.
Важность: 3/5
Официальный блог JetBrains, блог HuggingFace и Neowin; примечательно как первая открытая MoE-модель для кодирования от крупной IDE-компании.