CiteVQA: бенчмарк атрибуции доказательств для надёжной document intelligence (178 апвоутов на HF)

Peking University / Shanghai Artificial Intelligence Laboratory

исследования официальный 2 ист. ~1 мин

CiteVQA оценивает мультимодальные LLM не только по правильности ответов, но и по тому, ссылаются ли они на корректный исходный фрагмент в документах. Вводится метрика Strict Attributed Accuracy (SAA), требующая одновременной правильности ответа и точности bounding-box-цитаты. Бенчмарк охватывает 1897 вопросов по 711 PDF-файлам в семи областях и на двух языках. Тестирование 20 MLLM выявило повсеместную «Attribution Hallucination»: модели часто дают правильные ответы, ссылаясь при этом на неверные фрагменты. Даже сильнейшая модель (Gemini-3.1-Pro-Preview) достигает лишь 76,0% SAA; лучшая open-source модель — 22,5%.

Почему это важно

Получил 178 апвоутов на HuggingFace. CiteVQA вскрывает пробел надёжности, невидимый при оценке только по ответам: высокая точность может сочетаться с полностью неверными цитатами. В праве, финансах и медицине ответ, опирающийся на неверный фрагмент, опасен независимо от его фактической правильности.

Важность: 3/5

178 апвоутов на HF; первый бенчмарк, выявляющий «Attribution Hallucination» в 20 MLLM — показывает, что даже SOTA-модели (76% SAA) систематически ссылаются на неверные фрагменты, отвечая правильно

benchmark multimodal document-understanding hallucination interpretability

Источники

официальный CiteVQA — arXiv:2605.12882

официальный HuggingFace Daily Papers — 178 upvotes