Whisper

🎙️ Voix et Audio Free

Idéal pour: Transcription, sous-titres

À propos Whisper

Whisper est une famille de modèles de reconnaissance vocale open source publiés par OpenAI. Il transcrit l'audio parlé en texte et peut traduire la parole de nombreuses langues directement vers l'anglais. Les poids sont diffusés sous la licence permissive MIT, vous pouvez donc les télécharger et les exécuter sur votre propre matériel.

La version ouverte actuelle est large-v3-turbo, un modèle distillé présenté en octobre 2024. Il conserve presque toute la précision du large-v3 complet tout en tournant environ 8 fois plus vite, ce qui le rend bien plus pratique pour le traitement par lots et les usages quasi temps réel. Le checkpoint complet large-v3 reste disponible lorsque vous voulez la meilleure qualité possible.

En plus des modèles ouverts, OpenAI propose désormais la transcription hébergée via son API. Le point d'accès classique est whisper-1, rejoint depuis par des modèles basés sur GPT-4o : gpt-4o-transcribe et le moins cher gpt-4o-mini-transcribe, qui ajoutent des options comme la diarisation des locuteurs. Selon certains rapports, une variante en streaming, gpt-realtime-whisper, est arrivée vers mai 2026 et renvoie des fragments de transcription en direct au fil de la parole.

La tarification se divise en deux voies. Les modèles open source sont gratuits : vous ne payez que votre propre calcul. L'API hébergée est facturée à l'usage : whisper-1 et gpt-4o-transcribe coûtent 0,006 $ la minute (0,36 $/h), gpt-4o-mini-transcribe coûte 0,003 $ la minute (0,18 $/h), et le gpt-realtime-whisper en direct revient à environ 0,017 $ la minute.

La précision varie beaucoup selon la langue. Whisper a été entraîné sur environ 99 langues, mais la qualité est la meilleure pour les langues à fortes ressources comme l'anglais et chute nettement pour les moins courantes. Exécuter les grands modèles en local exige aussi un GPU performant, et le modèle peut parfois halluciner du texte pendant les longs silences.

Whisper convient bien si vous voulez un moteur de transcription gratuit et auto-hébergeable, si vous avez besoin d'une large couverture multilingue, ou si vous préférez une API gérée sans construire votre propre pipeline. Choisissez les modèles GPT-4o hébergés si vous avez besoin de diarisation ou de streaming en direct clés en main.

Mis à jour: 2026-07-09

Avantages

Open source sous licence MIT, gratuit à auto-héberger sans frais d'usage
large-v3-turbo tourne environ 8 fois plus vite que large-v3 avec une faible perte de précision
Large prise en charge multilingue, entraîné sur environ 99 langues, plus la traduction de la parole vers l'anglais
Déploiement flexible : exécutez les poids ouverts en local ou utilisez l'API hébergée d'OpenAI
Les modèles GPT-4o hébergés ajoutent la diarisation des locuteurs et une option de streaming en direct

Inconvénients

La précision chute nettement pour les langues à faibles ressources par rapport à l'anglais
Les grands modèles ouverts nécessitent un GPU performant pour une vitesse raisonnable
Peut halluciner du texte fantôme pendant les longs silences ou les segments bruités
L'auto-hébergement demande une configuration technique ; il n'existe pas d'appli de bureau officielle
Les fonctions de direct et de diarisation ne passent que par l'API payante, pas par les poids ouverts

Visiter Whisper →

Choisir Whisper si…

Vous voulez un moteur de transcription gratuit et auto-hébergé que vous contrôlez entièrement
Vous devez transcrire ou traduire de l'audio dans de nombreuses langues
Vous préférez une API gérée et acceptez de payer 0,006 $/min pour whisper-1 ou gpt-4o-transcribe
Vous avez besoin de transcription en streaming en direct ou de diarisation via les modèles GPT-4o hébergés
Vous visez un débit maximal et choisissez large-v3-turbo pour sa vitesse environ 8 fois supérieure

Questions fréquemment posées

Whisper vs Otter.ai — quelle est la différence ?

Whisper est un modèle de transcription open-source à intégrer dans vos propres outils. Otter.ai est un service complet de notes de réunion avec interface. Pour des développeurs intégrant la transcription → Whisper ; pour des notes de réunion prêtes à l'emploi → Otter.ai.

Whisper est-il gratuit ?

Le modèle Whisper est open-source et gratuit à utiliser localement. L'API Whisper via OpenAI est payante (environ 0,006 $/minute). Otter.ai a un plan gratuit avec 300 minutes/mois.

Whisper transcrit-il bien le français ?

Oui. Whisper est excellent pour le français — l'un des meilleurs modèles de transcription open-source pour les langues européennes. Il gère bien les accents régionaux et le français courant.

Otter.ai fonctionne-t-il en français ?

Otter.ai prend en charge la transcription en français. La qualité pour le français est bonne mais peut être légèrement inférieure à l'anglais. Pour des réunions en français, Otter.ai reste un outil efficace.

Considérez aussi

Adobe Podcast

AI audio enhancement and recording for podcasters and content creators

Descript

AI video editing, voice cloning, dubbing, MCP automation

ElevenLabs

Voice cloning, TTS, voice agents, real-time transcription, batch calling

Avis des utilisateurs