OpenSearch-VL: открытый рецепт обучения мультимодальных агентов поиска

Tencent Hunyuan

исследования официальный 2 ист. ~1 мин

OpenSearch-VL предоставляет полностью открытый фреймворк для обучения мультимодальных агентов глубокого поиска, работающих как замкнутые системы: они анализируют изображения, вырезают области интереса, выполняют веб- и image-поиск, посещают найденные страницы и формулируют ответы на основе собранных доказательств. В статье представлен алгоритм обучения multi-turn fatal-aware GRPO, обрабатывающий каскадные сбои инструментов; достигнуто среднее улучшение более чем на 10 пунктов на семи бенчмарках; открыты все данные, код и чекпоинты модели.

Почему это важно

Один из первых полностью открытых рецептов обучения мультимодальных агентных систем поиска, конкурирующих с проприетарными моделями; подход fatal-aware RL устраняет практический пробел в многошаговых агентных пайплайнах.

Важность: 3/5

92 голоса в топе HF; полностью открытый рецепт с улучшением на 10+ пунктов в среднем на 7 бенчмарках; решение проблемы каскадных сбоев инструментов при обучении мультимодальных агентов.

multimodal agents rl search vlm open-source paper

Источники

официальный OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents — arXiv

СМИ OpenSearch-VL on HuggingFace Daily Papers