OpenAI выпускает GPT-Realtime-2, GPT-Realtime-Translate и GPT-Realtime-Whisper

OpenAI

аудио офиц. + СМИ 3 ист. ~1 мин

OpenAI выпустил три новые модели реального времени для голосовых приложений 7 мая. GPT-Realtime-2 — первая голосовая модель с рассуждениями класса GPT-5, контекстным окном в 128k токенов и настраиваемыми уровнями интенсивности рассуждений. GPT-Realtime-Translate обеспечивает живой перевод речи с 70+ входных языков на 13 выходных. GPT-Realtime-Whisper передаёт транскрипцию речи в текст в режиме реального времени. Все три модели доступны через OpenAI API и developer playground.

Почему это важно

Первая голосовая модель OpenAI, привносящая рассуждения класса GPT-5 в конвейер аудио реального времени — обеспечивает сложных многоходовых голосовых агентов с живым переводом в масштабе, напрямую конкурируя с ElevenLabs, Cartesia и Deepgram на рынке голосовой инфраструктуры для разработчиков.

Важность: 3/5

OpenAI; рассуждения класса GPT-5 в голосе реального времени — новый уровень возможностей для разработчиков голосовых агентов, плюс живой перевод речи на 70+ языков.

Источники