Whisper es el modelo de reconocimiento de voz de código abierto de OpenAI, lanzado en septiembre de 2022 y actualizado a Whisper v3 Large a finales de 2023. Se entrena con 680,000 horas de audio web multilingüe y logra precisión de transcripción de última generación en 99 idiomas, con rendimiento particularmente sólido en discurso no inglés en comparación con servicios comerciales competidores.
Whisper es una herramienta orientada a desarrolladores — se distribuye como un paquete de Python sin aplicación orientada al consumidor. Los desarrolladores lo ejecutan localmente en su propio hardware (GPU recomendada para velocidad), lo integran a través de la API de OpenAI, o lo utilizan a través de envolturas de terceros que agregan interfaces de usuario. Muchas de las herramientas de transcripción en este catálogo (Descript, Otter.ai) utilizan Whisper o modelos derivados de Whisper como motor de transcripción subyacente.
Las capacidades clave incluyen transcripción de voz a texto en 99 idiomas, detección automática de idioma, traducción al inglés desde cualquier idioma compatible, salida a nivel de marca de tiempo (palabra y segmento), y múltiples variantes de tamaño de modelo desde tiny (más rápido) hasta large-v3 (más preciso). El modelo large-v3 logra precisión casi humana en audio limpio en idiomas principales.
Precios: El modelo en sí es gratuito y de código abierto (licencia MIT) — descargable desde GitHub y ejecutable en hardware local. La API Whisper alojada de OpenAI cuesta $0.006 por minuto de audio, lo que la convierte en una de las APIs de transcripción comercial más asequibles. No hay suscripción — paga solo por lo que utiliza.
Limitaciones: Whisper no tiene interfaz orientada al consumidor — los usuarios necesitan conocimientos técnicos para ejecutarlo localmente o usar una envoltura de terceros. La inferencia local requiere RAM significativa y se beneficia sustancialmente de una GPU. La API se basa en el uso sin panel de control de uso integrado en un producto para consumidores.
Mejor adaptado para desarrolladores que integran transcripción en aplicaciones, investigadores que necesitan transcripción multilingüe de alta precisión, y usuarios técnicamente capacitados cómodos ejecutando scripts de Python o usando la API.
Dejar una reseña
Las reseñas se publican tras moderación. No compartimos tu email.