Soohak: 64 математика создали исследовательский бенчмарк, который ставит frontier LLM в тупик
Seoul National University
Soohak — бенчмарк из 439 задач, созданных с нуля 64 профессиональными математиками для оценки способности frontier LLM рассуждать на уровне, необходимом для продвижения математических знаний. Лучшие модели набирают лишь 10,4–30,4% на сложных задачах (Claude Opus 4.5 — 10,4%, Gemini 3 Pro — 30,4%, GPT-5 — 26,4%). Отдельное подмножество с отказами проверяет способность моделей обнаруживать некорректно поставленные задачи и воздерживаться от ответа — ни одна модель не превышает 50% по этому измерению.
Почему это важно
Обеспечивает наиболее строгую на сегодняшний день оценку математических рассуждений frontier-моделей, показывая, что даже лучшие модели кардинально проигрывают на реальных исследовательских задачах и не могут надёжно распознавать некорректно поставленные вопросы.
Важность: 2/5
68 голосов в HF Daily; бенчмарк, созданный 64 профессиональными математиками, обнажает большой разрыв между олимпиадными результатами LLM и реальными возможностями математического исследования.