CiteVQA: бенчмарк атрибуции доказательств для надёжной document intelligence (178 апвоутов на HF)
Peking University / Shanghai Artificial Intelligence Laboratory
CiteVQA оценивает мультимодальные LLM не только по правильности ответов, но и по тому, ссылаются ли они на корректный исходный фрагмент в документах. Вводится метрика Strict Attributed Accuracy (SAA), требующая одновременной правильности ответа и точности bounding-box-цитаты. Бенчмарк охватывает 1897 вопросов по 711 PDF-файлам в семи областях и на двух языках. Тестирование 20 MLLM выявило повсеместную «Attribution Hallucination»: модели часто дают правильные ответы, ссылаясь при этом на неверные фрагменты. Даже сильнейшая модель (Gemini-3.1-Pro-Preview) достигает лишь 76,0% SAA; лучшая open-source модель — 22,5%.
Почему это важно
Получил 178 апвоутов на HuggingFace. CiteVQA вскрывает пробел надёжности, невидимый при оценке только по ответам: высокая точность может сочетаться с полностью неверными цитатами. В праве, финансах и медицине ответ, опирающийся на неверный фрагмент, опасен независимо от его фактической правильности.
Важность: 3/5
178 апвоутов на HF; первый бенчмарк, выявляющий «Attribution Hallucination» в 20 MLLM — показывает, что даже SOTA-модели (76% SAA) систематически ссылаются на неверные фрагменты, отвечая правильно