Soohak: 64 математика создали исследовательский бенчмарк, который ставит frontier LLM в тупик

Seoul National University

исследования офиц. + СМИ 2 ист. ~1 мин

Soohak — бенчмарк из 439 задач, созданных с нуля 64 профессиональными математиками для оценки способности frontier LLM рассуждать на уровне, необходимом для продвижения математических знаний. Лучшие модели набирают лишь 10,4–30,4% на сложных задачах (Claude Opus 4.5 — 10,4%, Gemini 3 Pro — 30,4%, GPT-5 — 26,4%). Отдельное подмножество с отказами проверяет способность моделей обнаруживать некорректно поставленные задачи и воздерживаться от ответа — ни одна модель не превышает 50% по этому измерению.

Почему это важно

Обеспечивает наиболее строгую на сегодняшний день оценку математических рассуждений frontier-моделей, показывая, что даже лучшие модели кардинально проигрывают на реальных исследовательских задачах и не могут надёжно распознавать некорректно поставленные вопросы.

Важность: 2/5

68 голосов в HF Daily; бенчмарк, созданный 64 профессиональными математиками, обнажает большой разрыв между олимпиадными результатами LLM и реальными возможностями математического исследования.

benchmark mathematics reasoning

Источники

официальный Soohak: A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs — arXiv

СМИ Soohak — Hugging Face Daily Papers