Whisper

🎙️ Voz e Áudio Free

Ideal para: Transcrição, legendas

Sobre Whisper

O Whisper é uma família de modelos de reconhecimento de fala de código aberto lançados pela OpenAI. Ele transcreve áudio falado em texto e pode traduzir fala de muitos idiomas diretamente para o inglês. Os pesos são publicados sob a permissiva licença MIT, então você pode baixá-los e executá-los no seu próprio hardware.

O lançamento aberto atual é o large-v3-turbo, um modelo destilado apresentado em outubro de 2024. Ele mantém quase toda a precisão do large-v3 completo, mas roda cerca de 8x mais rápido, o que o torna bem mais prático para trabalhos em lote e uso quase em tempo real. O checkpoint completo large-v3 continua disponível quando você quer a maior qualidade possível.

Além dos modelos abertos, a OpenAI agora oferece transcrição hospedada por meio da sua API. O endpoint clássico é o whisper-1, ao qual se juntaram modelos baseados no GPT-4o: o gpt-4o-transcribe e o mais barato gpt-4o-mini-transcribe, que acrescentam opções como diarização de falantes. Segundo relatos, uma variante em streaming, o gpt-realtime-whisper, chegou por volta de maio de 2026 e devolve trechos da transcrição ao vivo enquanto você fala.

Os preços se dividem em duas trilhas. Os modelos de código aberto são gratuitos: você paga apenas pela sua própria computação. A API hospedada é cobrada por uso: whisper-1 e gpt-4o-transcribe custam US$ 0,006 por minuto (US$ 0,36/h), o gpt-4o-mini-transcribe custa US$ 0,003 por minuto (US$ 0,18/h) e o gpt-realtime-whisper ao vivo fica em torno de US$ 0,017 por minuto.

A precisão varia bastante conforme o idioma. O Whisper foi treinado em cerca de 99 idiomas, mas a qualidade é maior para línguas com muitos dados, como o inglês, e cai visivelmente nas menos comuns. Rodar os modelos grandes localmente também exige uma GPU potente, e o modelo pode ocasionalmente alucinar texto durante silêncios longos.

O Whisper é uma boa escolha se você quer um motor de transcrição gratuito e auto-hospedável, precisa de ampla cobertura multilíngue ou prefere uma API gerenciada sem montar seu próprio pipeline. Escolha os modelos GPT-4o hospedados se precisar de diarização ou streaming ao vivo prontos de fábrica.

Atualizado: 2026-07-09

Vantagens

Código aberto sob licença MIT, gratuito para auto-hospedar sem taxas de uso
O large-v3-turbo roda cerca de 8x mais rápido que o large-v3 com pouca perda de precisão
Amplo suporte multilíngue, treinado em cerca de 99 idiomas, além de tradução de fala para o inglês
Implantação flexível: rode os pesos abertos localmente ou use a API hospedada da OpenAI
Os modelos GPT-4o hospedados acrescentam diarização de falantes e uma opção de streaming ao vivo

Desvantagens

A precisão cai bastante em idiomas com poucos dados em comparação com o inglês
Os modelos abertos maiores precisam de uma GPU potente para uma velocidade razoável
Pode alucinar texto fantasma durante silêncios longos ou trechos ruidosos
A auto-hospedagem exige configuração técnica; não há aplicativo de desktop oficial
Os recursos ao vivo e de diarização só vêm pela API paga, não nos pesos abertos

Visitar Whisper →

Escolha Whisper se…

Você quer um motor de transcrição gratuito e auto-hospedado sob seu total controle
Você precisa transcrever ou traduzir áudio em muitos idiomas
Você prefere uma API gerenciada e não se importa de pagar US$ 0,006/min por whisper-1 ou gpt-4o-transcribe
Você precisa de transcrição em streaming ao vivo ou diarização pelos modelos GPT-4o hospedados
Você busca máxima taxa de transferência e escolhe o large-v3-turbo pela velocidade cerca de 8x maior

Perguntas frequentes

Whisper vs Otter.ai — qual é a diferença?

Whisper é um modelo de transcrição open-source para integrar em suas próprias ferramentas. Otter.ai é um serviço completo de notas de reunião com interface pronta. Para desenvolvedores integrando transcrição → Whisper; para notas de reunião prontas para uso → Otter.ai.

Whisper é gratuito?

O modelo Whisper é open-source e gratuito para usar localmente. A API Whisper via OpenAI é paga (cerca de $0,006/minuto). Otter.ai tem plano gratuito com 300 minutos/mês.

Whisper transcreve bem o português?

Sim. Whisper é excelente para português — um dos melhores modelos de transcrição open-source para idiomas ibéricos. Lida bem com sotaques regionais e português coloquial.

Otter.ai funciona em português?

Otter.ai é focado principalmente em inglês. O suporte ao português é limitado. Para transcrição em português, considere alternativas como Whisper ou serviços especializados.

Considere também

Adobe Podcast

AI audio enhancement and recording for podcasters and content creators

Descript

AI video editing, voice cloning, dubbing, MCP automation

ElevenLabs

Voice cloning, TTS, voice agents, real-time transcription, batch calling

Avaliações dos usuários