Whisper

🎙️ Voz y Audio Gratis

Ideal para: Herramienta de desarrollador para transcripción de voz a texto de código abierto, no un producto para consumidores

⚖️ Comparar Whisper vs Otter.ai

Acerca de Whisper

Whisper es una familia de modelos de reconocimiento de voz de código abierto publicados por OpenAI. Convierte el audio hablado en texto y puede traducir voz de muchos idiomas directamente al inglés. Los pesos se distribuyen bajo la permisiva licencia MIT, así que puedes descargarlos y ejecutarlos en tu propio hardware.

El lanzamiento abierto actual es large-v3-turbo, un modelo destilado presentado en octubre de 2024. Conserva casi toda la precisión del large-v3 completo pero corre unas 8 veces más rápido, lo que lo hace mucho más práctico para trabajos por lotes y usos casi en tiempo real. El checkpoint completo large-v3 sigue disponible cuando quieres la máxima calidad posible.

Junto a los modelos abiertos, OpenAI ahora ofrece transcripción alojada a través de su API. El endpoint clásico es whisper-1, y se le han sumado modelos basados en GPT-4o: gpt-4o-transcribe y el más económico gpt-4o-mini-transcribe, que añaden opciones como la diarización de hablantes. Según se ha reportado, una variante en streaming, gpt-realtime-whisper, llegó hacia mayo de 2026 y devuelve fragmentos de transcripción en vivo mientras hablas.

El precio se divide en dos vías. Los modelos de código abierto son gratuitos: solo pagas tu propio cómputo. La API alojada se cobra por uso: whisper-1 y gpt-4o-transcribe cuestan 0,006 $ por minuto (0,36 $/h), gpt-4o-mini-transcribe cuesta 0,003 $ por minuto (0,18 $/h), y el gpt-realtime-whisper en vivo ronda los 0,017 $ por minuto.

La precisión varía mucho según el idioma. Whisper se entrenó con unos 99 idiomas, pero la calidad es mayor en lenguas con muchos datos como el inglés y cae notablemente en las menos comunes. Ejecutar los modelos grandes en local también requiere una GPU potente, y el modelo puede alucinar texto de vez en cuando durante silencios largos.

Whisper encaja bien si quieres un motor de transcripción gratuito y autoalojable, necesitas amplia cobertura multilingüe o prefieres una API gestionada sin montar tu propio flujo. Elige los modelos GPT-4o alojados si necesitas diarización o streaming en vivo de fábrica.

Actualizado: 2026-07-09

Ventajas

Código abierto bajo licencia MIT, gratis para autoalojar sin cuotas de uso
large-v3-turbo corre unas 8 veces más rápido que large-v3 con poca pérdida de precisión
Amplio soporte multilingüe, entrenado con unos 99 idiomas, más traducción de voz al inglés
Despliegue flexible: ejecuta los pesos abiertos en local o usa la API alojada de OpenAI
Los modelos GPT-4o alojados añaden diarización de hablantes y opción de streaming en vivo

Desventajas

La precisión cae bastante en idiomas con pocos datos frente al inglés
Los modelos abiertos grandes necesitan una GPU potente para una velocidad razonable
Puede alucinar texto fantasma durante silencios largos o segmentos ruidosos
El autoalojamiento requiere configuración técnica; no hay app de escritorio oficial
Las funciones en vivo y de diarización solo llegan por la API de pago, no en los pesos abiertos

Visitar Whisper →

Elige Whisper si…

Quieres un motor de transcripción gratuito y autoalojado que controlas por completo
Necesitas transcribir o traducir audio en muchos idiomas
Prefieres una API gestionada y no te importa pagar 0,006 $/min por whisper-1 o gpt-4o-transcribe
Necesitas transcripción en streaming en vivo o diarización mediante los modelos GPT-4o alojados
Buscas el máximo rendimiento y eliges large-v3-turbo por su velocidad unas 8 veces mayor

Preguntas frecuentes

¿Whisper es gratuito?

Whisper es open-source (modelo gratuito de OpenAI para descargar y usar localmente). Vía la API de OpenAI, cuesta $0.006/minuto. Otter AI tiene plan gratuito con 300 minutos/mes; planes de pago desde $16.99/mes.

¿Qué precisión tiene Whisper?

Whisper large-v3 tiene una de las mayores precisiones de transcripción disponibles, especialmente en inglés. En español y otros idiomas también es muy competitivo. Para audio limpio, la precisión supera el 95%. Para audio de baja calidad — la precisión baja pero sigue siendo buena comparada con alternativas.

¿Otter AI transcribe en español?

Otter AI está principalmente optimizado para inglés. La transcripción en español existe pero con menor precisión. Whisper tiene soporte nativo multilingüe y transcribe en español con buena calidad. Para reuniones en español — Whisper (API o local) puede ser más preciso.

¿Cómo uso Whisper sin ser técnico?

Whisper está disponible de forma accesible en: MacWhisper (app Mac gratuita), OpenAI Playground, varias apps de escritorio que lo integran. No necesitas ser programador para usarlo. La versión más técnica (línea de comandos) ofrece más control pero no es necesaria para uso básico.

También considera

Adobe Podcast

AI audio enhancement and recording for podcasters and content creators

Descript

AI video editing, voice cloning, dubbing, MCP automation

ElevenLabs

Voice cloning, TTS, voice agents, real-time transcription, batch calling

Reseñas de usuarios