OpenAI опубликовали опенсорс-модель Whisper V3 Turbo. Она расшифровывает любой текст из аудио или видео за считанные секунды. Протестировали на треке Rap God от Eminem.
Модель поддерживает все форматы (даже ссылки на YouTube или записи с диктофона любой длительности), знает русский язык и позволяет экспортировать получившийся текст в документ.
Whisper Turbo бесплатная. Код лежит на GitHub, а веб-версию можно открыть на Hugging Face.
Добавить комментарий