Zyphra выпускает ZAYA1-8B: открытая рассуждающая MoE-модель, обученная на оборудовании AMD

Zyphra

модели/LLM офиц. + СМИ 3 ист. ~1 мин

Zyphra выпустила ZAYA1-8B — лицензированную по Apache 2.0 модель на основе mixture-of-experts для рассуждений с менее чем 1 млрд активных параметров, которая соответствует или превосходит более крупные открытые модели на бенчмарках AIME, LiveCodeBench и GPQA-Diamond. Модель предварительно обучена на 1024 GPU AMD Instinct MI300X и вводит Markovian RSA — новый метод тестового вычисления, обеспечивающий неограниченные рассуждения при постоянных затратах памяти. Веса доступны на HuggingFace, serverless-эндпоинт работает на Zyphra Cloud.

Почему это важно

Демонстрирует конкурентные возможности рассуждений при менее чем 1 млрд активных параметров на оборудовании AMD, предоставляя реально эффективную альтернативу с открытым исходным кодом проприетарным моделям для локального и облачного инференса.

Важность: 3/5

Первая модель, сочетающая MoE + менее 1 млрд активных параметров и превосходящая более крупные открытые модели на AIME/LiveCodeBench/GPQA-Diamond; Markovian RSA обеспечивает рассуждения без ограничений при постоянном объёме памяти; лицензия Apache 2.0.

Источники