Modal запускает Auto Endpoints для производственного LLM-инференса на базе open-source-моделей

Modal

инструменты официальный 1 ист. ~1 мин

Modal опубликовала Auto Endpoints 23 июня 2026 года. Продукт разворачивает оптимизированные, совместимые с OpenAI API эндпоинты LLM-инференса одной командой, автоматически выбирая тип GPU, регион и флаги движка инференса, сохраняя при этом полный код обслуживания видимым и редактируемым. Включает спекулятивное декодирование с кастомными drafter-моделями. Базовое Modal App полностью доступно для инспекции и форка.

Почему это важно

Занимает нишу между непрозрачными управляемыми API и DIY-самохостингом: производственно-оптимизированные настройки по умолчанию при полном владении конфигурацией — практично для команд, которым нужны соответствие требованиям или кастомные компромиссы по латентности и стоимости.

Важность: 2/5

Новый продукт для развёртывания инференса, соединяющий простоту управляемого API с полной видимостью инфраструктуры и форкаемым кодом обслуживания

inference serving open-source developer-tools cloud

Источники

официальный Introducing Modal Auto Endpoints — Modal Blog