OpenAI выпускает GeneBench-Pro — передовой бенчмарк для AI-агентов в биологии

OpenAI

исследования офиц. + СМИ 2 ист. ~1 мин

OpenAI выпустила GeneBench-Pro (30 июня) — бенчмарк из 129 задач, проверяющий суждение AI в области геномики, онкологии, клинической диагностики и фармакогеномики. Задачи требуют последовательных экспертных решений, на которые человек тратит 20–40 часов. GPT-5.6 Sol набирает 28,7% (31,5% в Pro-режиме); Claude Opus 4.8 — 16,0%. Десять репрезентативных вопросов опубликованы в открытом доступе на Hugging Face.

Почему это важно

В отличие от бенчмарков на воспроизведение знаний, GeneBench-Pro измеряет «исследовательское чутьё» в условиях неопределённости. То, что GPT-5.6 Sol не справляется более чем с 70% экспертных задач, наглядно показывает разрыв между современными frontier-моделями и автономным научным рассуждением.

Важность: 3/5

OpenAI выпускает первый биологический бенчмарк исследовательского уровня; GPT-5.6 Sol на 28,7% демонстрирует разрыв до автономной науки; опубликован на Hugging Face

Источники

официальный Introducing GeneBench-Pro — OpenAI