SOOHAK: фронтирные LLM решают сложную математику, но не распознают неразрешимые задачи
Консорциум из 64 математиков CMU, EleutherAI и Сеульского национального университета опубликовал SOOHAK — бенчмарк из 439 задач уровня научных исследований. Результаты фронтирных моделей: Gemini 3 Pro 30,4%, GPT-5 26,4%, Claude Opus 4.5 10,4%. «Подмножество отказов» из 99 намеренно некорректно сформулированных задач показало, что ни одна модель не преодолела 50% точности при отказе отвечать на неразрешимые вопросы — модели систематически давали уверенные неверные ответы на задачи, не имеющие корректного решения.
Почему это важно
Масштабирование вычислений делает модели лучше в решении сложной математики, но не помогает им распознавать задачи без ответа. Этот сбой в виде «уверенной неправоты» имеет широкие последствия для применения фронтирных LLM в высокоответственных научных контекстах.
Важность: 3/5
Бенчмарк от 64 математиков, обнажающий уверенную неправоту фронтирных моделей — ни одна не преодолела 50% при распознавании неразрешимых математических задач