JetBrains публикует исходный код Mellum2: 12B MoE-модель для кодирования в мульти-модельных пайплайнах

JetBrains

модели/LLM офиц. + СМИ 3 ист. ~1 мин

JetBrains выпустила Mellum2 под лицензией Apache 2.0: модель Mixture-of-Experts на 12B параметров (2,5B активных, 64 эксперта с активацией 8 на токен), обученная на примерно 10,6T токенов для задач разработки ПО. Спроектирована как быстрая фокусная модель для маршрутизации, RAG, субагентов и высокопроизводительных функций написания кода; обеспечивает в 2 раза более быстрый инференс по сравнению с плотными моделями сопоставимого размера.

Почему это важно

Первая открытая MoE-модель для кодирования от крупного вендора IDE, предназначенная для встраивания в мульти-модельные пайплайны, а не для замены frontier-моделей.

Важность: 3/5

Официальный блог JetBrains, блог HuggingFace и Neowin; примечательно как первая открытая MoE-модель для кодирования от крупной IDE-компании.

Источники