Prime Intellect выпускает prime-rl v0.6.0 для агентного RL на триллионно-параметрических MoE-моделях
Prime Intellect
Prime Intellect выпустила prime-rl v0.6.0 (22–23 июня 2026 года) — open-source-фреймворк для асинхронного обучения с подкреплением на триллионно-параметрических MoE-моделях, ориентированный на длительные агентные задачи наподобие разработки программного обеспечения. Фреймворк разделяет тренер и инференс на независимые асинхронные процессы. Демонстрация на GLM-5 запускала SWE-задачи при длине последовательности 131K с шагом менее 5 минут и размером батча роллаутов 256 всего на 28 узлах H200. Router replay сокращает KL-рассогласование между тренером и инференсом примерно в 10 раз.
Почему это важно
Прежде масштабирование агентного RL до триллионного масштаба требовало кластеров, недоступных большинству исследовательских бюджетов. prime-rl 0.6.0 демонстрирует реализуемость на 28 узлах H200 — доступно для лабораторий среднего размера — а open-source-релиз позволяет другим организациям воспроизвести эту возможность.
Важность: 3/5
Open-source-фреймворк для агентного RL на триллионных параметрах на 28 узлах H200; демократизирует ранее недоступный масштаб для лабораторий среднего размера