Whisper

🎙️ Голос и аудио Бесплатно

Подходит для: Транскрипция, субтитры

О сервисе Whisper

Whisper — семейство открытых моделей распознавания речи, выпущенных OpenAI. Модель превращает звучащую речь в текст и умеет переводить речь со многих языков сразу на английский. Веса опубликованы под свободной лицензией MIT, поэтому их можно скачать и запускать на собственном оборудовании.

Текущий открытый релиз — large-v3-turbo, дистиллированная модель, представленная в октябре 2024 года. Она сохраняет почти всю точность полной large-v3, но работает примерно в 8 раз быстрее, что делает её гораздо удобнее для пакетной обработки и работы, близкой к реальному времени. Полный чекпоинт large-v3 по-прежнему доступен, если нужна максимальная точность.

Помимо открытых моделей, OpenAI теперь предлагает транскрипцию через свой API. Классический эндпоинт — whisper-1, к нему добавились модели на базе GPT-4o: gpt-4o-transcribe и более дешёвая gpt-4o-mini-transcribe, у которых есть, например, разделение по говорящим (диаризация). По сообщениям, примерно в мае 2026 года появился потоковый вариант gpt-realtime-whisper, который отдаёт фрагменты транскрипта вживую по мере речи.

Цены делятся на две части. Открытые модели бесплатны: вы платите только за собственные вычисления. Хостинговый API оплачивается по факту: whisper-1 и gpt-4o-transcribe стоят $0,006 за минуту ($0,36/час), gpt-4o-mini-transcribe — $0,003 за минуту ($0,18/час), а живой gpt-realtime-whisper — около $0,017 за минуту.

Точность сильно зависит от языка. Whisper обучали примерно на 99 языках, но качество выше всего для языков с большим объёмом данных, таких как английский, и заметно падает для редких. Для запуска крупных моделей локально нужна мощная видеокарта, а во время долгих пауз модель иногда выдумывает несуществующий текст.

Whisper подойдёт, если вам нужен бесплатный движок транскрипции для собственного сервера, важна широкая языковая поддержка или нужен готовый API без построения собственного конвейера. Хостинговые модели GPT-4o стоит выбрать, если из коробки нужны диаризация или потоковая расшифровка.

Обновлено: 2026-07-09

Преимущества

Открытый исходный код под лицензией MIT, бесплатный self-hosting без платы за использование
large-v3-turbo работает примерно в 8 раз быстрее large-v3 при небольшой потере точности
Широкая многоязычность: обучение примерно на 99 языках плюс перевод речи на английский
Гибкое развёртывание: локальный запуск открытых весов или хостинговый API OpenAI
Хостинговые модели GPT-4o добавляют диаризацию и потоковый режим вживую

Недостатки

Точность заметно падает для языков с малым объёмом данных по сравнению с английским
Крупным открытым моделям нужна мощная видеокарта для приемлемой скорости
Может выдумывать фантомный текст во время долгих пауз или на шумных отрезках
Self-hosting требует технической настройки, официального десктопного приложения нет
Живой режим и диаризация доступны только через платный API, а не в открытых весах

Перейти на Whisper →

Выберите Whisper если…

Вам нужен бесплатный движок транскрипции на собственном сервере, полностью под вашим контролем
Нужно транскрибировать или переводить аудио на многих языках
Вы предпочитаете готовый API и готовы платить $0,006/мин за whisper-1 или gpt-4o-transcribe
Нужна потоковая расшифровка вживую или диаризация через хостинговые модели GPT-4o
Вам важна максимальная скорость и вы выбираете large-v3-turbo за ускорение примерно в 8 раз

Частые вопросы

Whisper vs Otter.ai — в чём разница?

Whisper — open-source модель транскрипции от OpenAI, которую запускают локально или через API. Otter.ai — коммерческий продукт для транскрипции встреч в реальном времени с командными функциями. Whisper — технология, Otter — готовый сервис.

Whisper бесплатный?

Whisper как модель полностью бесплатен с открытым исходным кодом. API OpenAI ($0.006/мин) — платный. Для запуска локально (через WhisperX, faster-whisper) — бесплатно без лимитов. Otter.ai — бесплатен с 600 мин/мес.

Насколько точен Whisper?

Whisper Large V3 — одна из точнейших моделей транскрипции для большинства языков. На чистой речи английского — точность 95%+. На акцентах и шумных записях точность снижается, но остаётся высокой.

Можно ли запустить Whisper локально?

Да. Whisper устанавливается через pip и работает на CPU (медленно) или GPU (быстро). faster-whisper — оптимизированная версия, в 4x быстрее оригинала. Для конфиденциальных записей локальный запуск — лучший выбор.

Также рассмотрите

Adobe Podcast

AI audio enhancement and recording for podcasters and content creators

Descript

AI video editing, voice cloning, dubbing, MCP automation

ElevenLabs

Voice cloning, TTS, voice agents, real-time transcription, batch calling

Отзывы пользователей