SOOHAK: фронтирные LLM решают сложную математику, но не распознают неразрешимые задачи

исследования офиц. + СМИ 2 ист. ~1 мин

Консорциум из 64 математиков CMU, EleutherAI и Сеульского национального университета опубликовал SOOHAK — бенчмарк из 439 задач уровня научных исследований. Результаты фронтирных моделей: Gemini 3 Pro 30,4%, GPT-5 26,4%, Claude Opus 4.5 10,4%. «Подмножество отказов» из 99 намеренно некорректно сформулированных задач показало, что ни одна модель не преодолела 50% точности при отказе отвечать на неразрешимые вопросы — модели систематически давали уверенные неверные ответы на задачи, не имеющие корректного решения.

Почему это важно

Масштабирование вычислений делает модели лучше в решении сложной математики, но не помогает им распознавать задачи без ответа. Этот сбой в виде «уверенной неправоты» имеет широкие последствия для применения фронтирных LLM в высокоответственных научных контекстах.

Важность: 3/5

Бенчмарк от 64 математиков, обнажающий уверенную неправоту фронтирных моделей — ни одна не преодолела 50% при распознавании неразрешимых математических задач

benchmark mathematics reasoning gpt-5 evaluation

Источники

официальный Soohak: A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs (arXiv)

СМИ New math benchmark reveals AI models confidently solve problems that have no solution — The Decoder