VideoKR: обучающий корпус из 315K примеров для знание- и рассуждение-интенсивного понимания видео

Yale University

исследования официальный 2 ист. ~1 мин

VideoKR представляет обучающий корпус из 315K примеров для знание- и рассуждение-интенсивного понимания видео, построенный на основе 145K экспертных видео под лицензией CC с цепочками рассуждений постепенно увеличивающейся глубины. Включает VideoKR-Eval — аннотированный экспертами бенчмарк, требующий подлинного видео-заземлённого рассуждения, а не текстовых срезов. SFT с последующим GRPO post-training на VideoKR превосходит предыдущие подходы к post-training.

Почему это важно

Мультимодальные бенчмарки рассуждений критикуются за решаемость из текста в обход видео. VideoKR устраняет этот пробел, ориентируясь на видео-заземлённое знаниевое рассуждение, и предоставляет одновременно обучающие данные и инфраструктуру оценки для прогресса в задачах, реально зависящих от зрительного восприятия.

Важность: 2/5

Официальные arXiv + HuggingFace; крупномасштабный датасет и бенчмарк, решающие задокументированную проблему срезов в мультимодальной оценке.

multimodal video-generation reasoning benchmark paper

Источники

официальный VideoKR — arXiv:2606.05259

официальный VideoKR — HuggingFace Papers