ELDR: маршрутизация с учётом локальности экспертов снижает задержку при обслуживании MoE-моделей на 14%
Microsoft Research
Microsoft Research представляет ELDR — систему маршрутизации для раздельного (prefill-decode) обслуживания MoE-моделей. На этапе prefill формируется «сигнатура экспертов» запроса; на этапе decode офлайн-кластеризация K-means и онлайн-маршрутизация по полосам локальности минимизируют загрузку различных весов экспертов между воркерами. Тестирование на до 40 GPU и трёх MoE-моделях показывает улучшение медианного времени на выходной токен на 5,9–13,9% по сравнению с базовой балансировкой нагрузки.
Почему это важно
MoE-модели всё более доминируют в продакшен, однако их эффективное обслуживание в раздельном масштабе остаётся нерешённой задачей. Достижения ELDR — чистая политика маршрутизации без изменения модели, что делает его доступным для любого существующего стека обслуживания MoE.
Важность: 2/5
Plug-in-оптимизация маршрутизации для обслуживания MoE; улучшение задержки на 5,9–13,9%; 21 голос на HF Daily Papers