speech — AI Digest

13 мая Thinking Machines Lab представляет TML-Interaction-Small: мультимодальная модель MoE на 276B для работы в реальном времени Thinking Machines Lab models-llm
15 мая EVA-Bench: сквозной фреймворк для оценки голосовых агентов ServiceNow AI research
10 июн Gemini 3.5 Live Translate: синхронный перевод речи на 70+ языках Google DeepMind audio
3 мая MiniCPM-o 4.5: полнодуплексное омнимодальное AI в реальном времени на граничных устройствах OpenBMB / Tsinghua University research
6 июн Audio Interaction Model: унифицированный стриминговый фреймворк, объединяющий офлайн и реальновременную обработку аудио по инструкциям research
4 мая В сборке приложения обнаружены следы Grok Voice Mode для Apple CarPlay xAI tools