Prime Intellect выпускает prime-rl v0.6.0 для агентного RL на триллионно-параметрических MoE-моделях

Prime Intellect

исследования офиц. + СМИ 3 ист. ~1 мин

Prime Intellect выпустила prime-rl v0.6.0 (22–23 июня 2026 года) — open-source-фреймворк для асинхронного обучения с подкреплением на триллионно-параметрических MoE-моделях, ориентированный на длительные агентные задачи наподобие разработки программного обеспечения. Фреймворк разделяет тренер и инференс на независимые асинхронные процессы. Демонстрация на GLM-5 запускала SWE-задачи при длине последовательности 131K с шагом менее 5 минут и размером батча роллаутов 256 всего на 28 узлах H200. Router replay сокращает KL-рассогласование между тренером и инференсом примерно в 10 раз.

Почему это важно

Прежде масштабирование агентного RL до триллионного масштаба требовало кластеров, недоступных большинству исследовательских бюджетов. prime-rl 0.6.0 демонстрирует реализуемость на 28 узлах H200 — доступно для лабораторий среднего размера — а open-source-релиз позволяет другим организациям воспроизвести эту возможность.

Важность: 3/5

Open-source-фреймворк для агентного RL на триллионных параметрах на 28 узлах H200; демократизирует ранее недоступный масштаб для лабораторий среднего размера

reinforcement-learning moe infrastructure open-source training

Источники

официальный PrimeIntellect-ai/prime-rl — GitHub

официальный RL at 1T Scale: prime-rl Performance Deep Dive — Prime Intellect

СМИ Prime Intellect Releases prime-rl 0.6.0 — MarkTechPost