MulTaBench: бенчмаркинг мультимодального табличного обучения с текстом и изображениями
Technion
MulTaBench включает 40 датасетов (20 image-tabular, 20 text-tabular) — крупнейший на сегодня бенчмаркинговый проект для табличных данных с изображениями. Бенчмарк выявляет, что современные табличные foundation-модели опираются на замороженные эмбеддинги, а task-specific fine-tuning существенно улучшает результаты на текстовых и изображений модальностях при разных масштабах энкодеров.
Почему это важно
Реальные табличные данные регулярно включают изображения и свободный текст наряду с числовыми столбцами, однако существующие бенчмарки игнорируют этот пробел. MulTaBench наглядно обнажает конкретную слабость современных foundation-моделей. 122 upvotes на HF Daily (14 мая).
Важность: 4/5
122 upvotes на HF Daily (+1 доп.); закрывает признанный пробел в бенчмаркинге табличного ML