VideoKR: обучающий корпус из 315K примеров для знание- и рассуждение-интенсивного понимания видео
Yale University
VideoKR представляет обучающий корпус из 315K примеров для знание- и рассуждение-интенсивного понимания видео, построенный на основе 145K экспертных видео под лицензией CC с цепочками рассуждений постепенно увеличивающейся глубины. Включает VideoKR-Eval — аннотированный экспертами бенчмарк, требующий подлинного видео-заземлённого рассуждения, а не текстовых срезов. SFT с последующим GRPO post-training на VideoKR превосходит предыдущие подходы к post-training.
Почему это важно
Мультимодальные бенчмарки рассуждений критикуются за решаемость из текста в обход видео. VideoKR устраняет этот пробел, ориентируясь на видео-заземлённое знаниевое рассуждение, и предоставляет одновременно обучающие данные и инфраструктуру оценки для прогресса в задачах, реально зависящих от зрительного восприятия.
Важность: 2/5
Официальные arXiv + HuggingFace; крупномасштабный датасет и бенчмарк, решающие задокументированную проблему срезов в мультимодальной оценке.