Modal запускает Auto Endpoints для производственного LLM-инференса на базе open-source-моделей
Modal
Modal опубликовала Auto Endpoints 23 июня 2026 года. Продукт разворачивает оптимизированные, совместимые с OpenAI API эндпоинты LLM-инференса одной командой, автоматически выбирая тип GPU, регион и флаги движка инференса, сохраняя при этом полный код обслуживания видимым и редактируемым. Включает спекулятивное декодирование с кастомными drafter-моделями. Базовое Modal App полностью доступно для инспекции и форка.
Почему это важно
Занимает нишу между непрозрачными управляемыми API и DIY-самохостингом: производственно-оптимизированные настройки по умолчанию при полном владении конфигурацией — практично для команд, которым нужны соответствие требованиям или кастомные компромиссы по латентности и стоимости.
Важность: 2/5
Новый продукт для развёртывания инференса, соединяющий простоту управляемого API с полной видимостью инфраструктуры и форкаемым кодом обслуживания