Whisper

🎙️ Stimme & Audio Kostenlos

Ideal für: Open-Source Speech-to-Text Transkription — Entwickler-Tool, kein Konsumentenprodukt

Über Whisper

Whisper ist eine Familie quelloffener Spracherkennungsmodelle von OpenAI. Es wandelt gesprochenes Audio in Text um und kann Sprache aus vielen Sprachen direkt ins Englische übersetzen. Die Gewichte stehen unter der freizügigen MIT-Lizenz, du kannst sie also herunterladen und auf eigener Hardware betreiben.

Das aktuelle offene Release ist large-v3-turbo, ein im Oktober 2024 vorgestelltes destilliertes Modell. Es behält nahezu die volle Genauigkeit des kompletten large-v3, läuft aber rund 8x schneller, was es für Batch-Jobs und nahezu Echtzeitanwendungen deutlich praktischer macht. Der volle large-v3-Checkpoint ist weiterhin verfügbar, wenn du die höchstmögliche Qualität brauchst.

Neben den offenen Modellen bietet OpenAI Transkription inzwischen auch gehostet über seine API an. Der klassische Endpunkt ist whisper-1, ergänzt um GPT-4o-basierte Modelle: gpt-4o-transcribe und das günstigere gpt-4o-mini-transcribe, die Optionen wie Sprecher-Diarisierung mitbringen. Berichten zufolge kam um Mai 2026 eine Streaming-Variante namens gpt-realtime-whisper hinzu, die Transkript-Fragmente live beim Sprechen zurückgibt.

Die Preise teilen sich in zwei Schienen. Die Open-Source-Modelle sind kostenlos: Du zahlst nur deine eigene Rechenleistung. Die gehostete API wird nutzungsbasiert abgerechnet: whisper-1 und gpt-4o-transcribe kosten 0,006 $ pro Minute (0,36 $/Std.), gpt-4o-mini-transcribe 0,003 $ pro Minute (0,18 $/Std.), und das Live-Modell gpt-realtime-whisper rund 0,017 $ pro Minute.

Die Genauigkeit schwankt stark je nach Sprache. Whisper wurde mit rund 99 Sprachen trainiert, doch die Qualität ist bei ressourcenstarken Sprachen wie Englisch am besten und fällt bei selteneren merklich ab. Der lokale Betrieb der großen Modelle erfordert zudem eine leistungsfähige GPU, und bei langen Pausen halluziniert das Modell gelegentlich Text.

Whisper passt gut, wenn du eine kostenlose, selbst hostbare Transkriptions-Engine willst, breite Mehrsprachigkeit brauchst oder eine verwaltete API ohne eigene Pipeline bevorzugst. Wähle die gehosteten GPT-4o-Modelle, wenn du Diarisierung oder Live-Streaming direkt ab Werk benötigst.

Aktualisiert: 2026-07-09

Vorteile

Open Source unter MIT-Lizenz, kostenlos selbst hostbar ohne Nutzungsgebühren
large-v3-turbo läuft rund 8x schneller als large-v3 bei nur geringem Genauigkeitsverlust
Breite Mehrsprachigkeit, trainiert mit rund 99 Sprachen, plus Sprach-zu-Englisch-Übersetzung
Flexible Bereitstellung: offene Gewichte lokal betreiben oder die gehostete OpenAI-API nutzen
Gehostete GPT-4o-Modelle ergänzen Sprecher-Diarisierung und eine Live-Streaming-Option

Nachteile

Die Genauigkeit fällt bei ressourcenarmen Sprachen im Vergleich zu Englisch deutlich ab
Die großen offenen Modelle brauchen für vernünftige Geschwindigkeit eine leistungsfähige GPU
Kann bei langen Pausen oder verrauschten Abschnitten Phantomtext halluzinieren
Selbst-Hosting erfordert technische Einrichtung; es gibt keine offizielle Desktop-App
Live- und Diarisierungsfunktionen gibt es nur über die kostenpflichtige API, nicht in den offenen Gewichten

Besuchen Whisper →

Whisper wählen wenn…

Du willst eine kostenlose, selbst gehostete Transkriptions-Engine, die du voll kontrollierst
Du musst Audio in vielen Sprachen transkribieren oder übersetzen
Du bevorzugst eine verwaltete API und zahlst gern 0,006 $/Min für whisper-1 oder gpt-4o-transcribe
Du brauchst Live-Streaming-Transkription oder Diarisierung über die gehosteten GPT-4o-Modelle
Du willst maximalen Durchsatz und wählst large-v3-turbo wegen seiner rund 8x höheren Geschwindigkeit

Häufig gestellte Fragen

Whisper vs Otter AI: Was ist der Unterschied?

Whisper ist ein Transkriptions-Modell für Entwickler und technische Nutzer. Otter AI ist ein fertiges Business-Tool für Meeting-Transkription mit Kollaborations-Features. Whisper für technische Integration; Otter für sofort nutzbare Business-Lösung.

Ist Whisper kostenlos?

Whisper ist Open-Source und kostenlos lokal nutzbar. Die OpenAI-API-Version kostet $0,006/Minute Audio. Otter AI hat einen kostenlosen Plan mit 600 Minuten/Monat; Pro ab $16,99/Monat.

Whisper auf Deutsch: Wie gut ist die Genauigkeit?

Whisper ist eines der besten Modelle für deutschsprachige Transkription mit sehr guter Genauigkeit auch für Dialekte. Für professionelle deutsche Meeting-Transkription ist Whisper large-v3 oder die OpenAI-API empfehlenswert.

Kann Whisper live transkribieren?

Standard-Whisper ist kein Echtzeit-Tool — es verarbeitet Audio-Dateien. Für Live-Transkription gibt es Whisper-basierte Lösungen wie whisper.cpp oder Dienste die Whisper mit Streaming kombinieren. Otter AI bietet native Live-Transkription.

Auch erwägen

Adobe Podcast

AI audio enhancement and recording for podcasters and content creators

Descript

AI video editing, voice cloning, dubbing, MCP automation

ElevenLabs

Voice cloning, TTS, voice agents, real-time transcription, batch calling

Nutzerbewertungen