DeepReinforce выпускает Ornith-1.0: открытые модели для программирования, самостоятельно обучающие свои RL-каркасы

DeepReinforce

инструменты офиц. + СМИ 3 ист. ~1 мин

25 июня DeepReinforce выпустила Ornith-1.0 — семейство из четырёх агентных моделей для программирования под лицензией MIT (9B dense, 31B dense, 35B MoE, 397B MoE) на базе Gemma 4 и Qwen 3.5. Вместо разработанных людьми RL-каркасов каждая модель обучается генерировать собственные специализированные обёртки в процессе RL-обучения, с передачей вознаграждений как на этап генерации каркаса, так и на этап генерации решения. Флагманская 397B-модель достигает 77.5 на Terminal-Bench 2.1 и 82.4 на SWE-Bench Verified, что сопоставимо с Claude Opus 4.7.

Почему это важно

Самогенерируемые RL-каркасы — значимое отклонение от обучения с фиксированными обёртками, и это первое семейство открытых моделей, сопоставимых с последней фронтирной моделью Anthropic по агентным бенчмаркам программирования при MIT-лицензии.

Важность: 3/5

Первое семейство открытых моделей для программирования, сопоставимых с фронтирной моделью Anthropic на SWE-Bench при MIT-лицензии и с новым подходом самогенерируемых RL-каркасов

open-source mit coding reinforcement-learning swe-bench moe release

Источники

официальный deepreinforce-ai/Ornith-1.0-35B — Hugging Face

СМИ DeepReinforce Releases Ornith-1.0 — MarkTechPost

СМИ DeepReinforce releases Ornith-1.0 open-source coding models — Testing Catalog