Исполняемые мировые модели для ARC-AGI-3: подход агента программирования без игровой специфики

исследования официальный 1 ист. ~1 мин

Сергей Родионов представил статью (arXiv:2605.05138, 6 мая) с подходом агента программирования к ARC-AGI-3, в котором агент поддерживает исполняемую Python-модель мира, проверяет её на предыдущих наблюдениях и применяет склонность к простоте через рефакторинг. Протестировано на 25 публичных играх ARC-AGI-3 без игровой специфики: 7 игр решены полностью, 6 игр выше 75% RHAE, средний RHAE — 32,58%.

Почему это важно

ARC-AGI-3 — новый и значительно более сложный бенчмарк обобщения; работа устанавливает универсальный игровой базовый уровень и свидетельствует о том, что исполняемые мировые модели, управляемые верификатором, — жизнеспособный путь, вносящий вклад в продолжающиеся дискуссии о символьном vs. нейронном рассуждении.

Важность: 2/5

Первый универсальный игровой базовый уровень на ARC-AGI-3 — новом значимом бенчмарке рассуждения

reasoning coding-agent paper benchmark agents

Источники

официальный [2605.05138] Executable World Models for ARC-AGI-3 in the Era of Coding Agents — arXiv