OpenAI lança modelos de áudio para tarefas de voz em tempo real

A OpenAI apresentou, nesta quinta-feira (7), três modelos de áudio para sua plataforma de desenvolvedores, com o objetivo de tornar agentes de software baseados em voz mais conversacionais e capazes de completar tarefas em tempo real.

O lançamento da interface de programação de aplicações (API, na sigla em inglês) leva a criadora do ChatGPT além da transcrição e chat, direcionando para agentes que podem ouvir, traduzir e agir durante conversas ao vivo.

Os novos modelos são GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper, disponíveis para teste no playground de desenvolvedores da OpenAI;

O GPT-Realtime-2 foi projetado para gerenciar solicitações mais complexas, chamar ferramentas, lidar com interrupções e manter contexto em sessões de voz mais longas;

O segundo modelo suporta tradução de mais de 70 idiomas para 13 idiomas de saída, direcionado para suporte ao cliente, educação e outros ambientes;

O GPT-Realtime-Whisper fornece conversão de fala para texto ao vivo, permitindo que legendas, notas de reuniões e atualizações de fluxo de trabalho sejam geradas enquanto o palestrante fala.

Novos modelos são GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper, disponíveis para teste no playground de desenvolvedores da OpenAI – Imagem: Primakov/Shutterstock

Leia mais:

Como melhorar seu texto no ChatGPT: guia prático do básico ao avançado

Aprenda a usar o ChatGPT: 10 dicas valiosas para criar perguntas precisas

OpenAI lança GPT-5.5-Cyber em resposta ao Claude Mythos

Clientes da OpenAI e preços dos novos modelos

Entre os clientes testando os modelos estão o marketplace imobiliário online Zillow, a agência de viagens online Priceline e a empresa europeia de telecomunicações Deutsche Telekom. Os preços do GPT-Realtime-2 começam em US$ 32 (R$ 158,26) por milhão de tokens de entrada de áudio, o GPT-Realtime-Translate custa US$ 0,034 (R$ 0,17) por minuto e o GPT-Realtime-Whisper US$ 0,017 (R$ 0,084) por minuto.

GPT-Fone? Rumores sobre celular da OpenAI estão aumentando

OpenAI pode estar desenvolvendo seu primeiro produto de hardware: um smartphone voltado ao ChatGPT. De acordo com o analista de cadeia de suprimentos Ming-Chi Kuo, o projeto está sendo acelerado, com previsão de início da produção em massa no começo de 2027.

Leia a matéria completa aqui

O post OpenAI lança modelos de áudio para tarefas de voz em tempo real apareceu primeiro em Olhar Digital.