MulTaBench: бенчмаркинг мультимодального табличного обучения с текстом и изображениями

Technion

исследования офиц. + СМИ 2 ист. ~1 мин

MulTaBench включает 40 датасетов (20 image-tabular, 20 text-tabular) — крупнейший на сегодня бенчмаркинговый проект для табличных данных с изображениями. Бенчмарк выявляет, что современные табличные foundation-модели опираются на замороженные эмбеддинги, а task-specific fine-tuning существенно улучшает результаты на текстовых и изображений модальностях при разных масштабах энкодеров.

Почему это важно

Реальные табличные данные регулярно включают изображения и свободный текст наряду с числовыми столбцами, однако существующие бенчмарки игнорируют этот пробел. MulTaBench наглядно обнажает конкретную слабость современных foundation-моделей. 122 upvotes на HF Daily (14 мая).

Важность: 4/5

122 upvotes на HF Daily (+1 доп.); закрывает признанный пробел в бенчмаркинге табличного ML

Источники

официальный arXiv: MulTaBench