DeepReinforce выпускает Ornith-1.0: открытые модели для программирования, самостоятельно обучающие свои RL-каркасы
DeepReinforce
25 июня DeepReinforce выпустила Ornith-1.0 — семейство из четырёх агентных моделей для программирования под лицензией MIT (9B dense, 31B dense, 35B MoE, 397B MoE) на базе Gemma 4 и Qwen 3.5. Вместо разработанных людьми RL-каркасов каждая модель обучается генерировать собственные специализированные обёртки в процессе RL-обучения, с передачей вознаграждений как на этап генерации каркаса, так и на этап генерации решения. Флагманская 397B-модель достигает 77.5 на Terminal-Bench 2.1 и 82.4 на SWE-Bench Verified, что сопоставимо с Claude Opus 4.7.
Почему это важно
Самогенерируемые RL-каркасы — значимое отклонение от обучения с фиксированными обёртками, и это первое семейство открытых моделей, сопоставимых с последней фронтирной моделью Anthropic по агентным бенчмаркам программирования при MIT-лицензии.
Важность: 3/5
Первое семейство открытых моделей для программирования, сопоставимых с фронтирной моделью Anthropic на SWE-Bench при MIT-лицензии и с новым подходом самогенерируемых RL-каркасов