ELDR: маршрутизация с учётом локальности экспертов снижает задержку при обслуживании MoE-моделей на 14%

Microsoft Research

исследования официальный 1 ист. ~1 мин

Microsoft Research представляет ELDR — систему маршрутизации для раздельного (prefill-decode) обслуживания MoE-моделей. На этапе prefill формируется «сигнатура экспертов» запроса; на этапе decode офлайн-кластеризация K-means и онлайн-маршрутизация по полосам локальности минимизируют загрузку различных весов экспертов между воркерами. Тестирование на до 40 GPU и трёх MoE-моделях показывает улучшение медианного времени на выходной токен на 5,9–13,9% по сравнению с базовой балансировкой нагрузки.

Почему это важно

MoE-модели всё более доминируют в продакшен, однако их эффективное обслуживание в раздельном масштабе остаётся нерешённой задачей. Достижения ELDR — чистая политика маршрутизации без изменения модели, что делает его доступным для любого существующего стека обслуживания MoE.

Важность: 2/5

Plug-in-оптимизация маршрутизации для обслуживания MoE; улучшение задержки на 5,9–13,9%; 21 голос на HF Daily Papers

inference moe efficiency serving infrastructure

Источники

официальный ELDR: Expert-Locality-Aware Decode Routing for PD-Disaggregated MoE Serving — arxiv