Zyphra выпускает ZAYA1-8B: открытая рассуждающая MoE-модель, обученная на оборудовании AMD
Zyphra
Zyphra выпустила ZAYA1-8B — лицензированную по Apache 2.0 модель на основе mixture-of-experts для рассуждений с менее чем 1 млрд активных параметров, которая соответствует или превосходит более крупные открытые модели на бенчмарках AIME, LiveCodeBench и GPQA-Diamond. Модель предварительно обучена на 1024 GPU AMD Instinct MI300X и вводит Markovian RSA — новый метод тестового вычисления, обеспечивающий неограниченные рассуждения при постоянных затратах памяти. Веса доступны на HuggingFace, serverless-эндпоинт работает на Zyphra Cloud.
Почему это важно
Демонстрирует конкурентные возможности рассуждений при менее чем 1 млрд активных параметров на оборудовании AMD, предоставляя реально эффективную альтернативу с открытым исходным кодом проприетарным моделям для локального и облачного инференса.
Важность: 3/5
Первая модель, сочетающая MoE + менее 1 млрд активных параметров и превосходящая более крупные открытые модели на AIME/LiveCodeBench/GPQA-Diamond; Markovian RSA обеспечивает рассуждения без ограничений при постоянном объёме памяти; лицензия Apache 2.0.