Привет, пидоры.
Ищу софт для перевода mp3 (а еще лучше mp4) в текст. То есть что-то вроде конспектирования лекций. Знаю, что Алиса от яндекса делает что-то подобное, но вроде там только краткий пересказ и к тому же видео нужно заливать на ютуб. Дело в том, что лекции никуда заливать нельзя в связи с NDA, да и к тому же конспекты нужны подробные, а видеозаписей там на 15+ часов. Гугл вывел меня на нейросетку whisper-jax, но как поднять ее локально не представляю. Может есть какая-то софтина или бесплатный сервис? По поводу последнего, пробовал https://huggingface.co/spaces/sanchit-gandhi/whisper-jax, но он 2 часовую лекцию не прожевал.
Прошу помощи
Еще на тему
https://huggingface.co/openai
https://huggingface.co/openai/whisper-large-v3
(кроме них в общем то нихрена открытого у них и нет)
Так уж ли нельзя никуда заливать? А то телега умеет распознавать в премиум режиме. Ютуб может генерировать сабы. Яндекс браузер вроде умеет сабы делать. Тот же OpenAI API может возвращать текст из mp3 (тот же whisper используется). Ну и сам https://huggingface.co/spaces/openai/whisper
Я это делаю на жирике нвидивском на линухе (для того собственно и ставил), виспер собираю с гитхаба и запускается локально, распознавание работает бодренько.
Но для лекций во времена ещё лекций, юзал гугл Транслейт на телефоне. Как вариант чтобы не ебаться, с винды приватности у тебя и так нет. А чтобы с пайтоном играть то идейе нужно и ну короче, делов на 20 минут (нет). А так можешь на другой язык заодно переводить и даже озвучивать. Возможно даже апи для этого есть у гугла.
Это можно поднять в докерк, если есть железо, можно даже в гугл ноте или как он там. Который даёт видяху бесплатно на 12 часов.
https://colab.research.google.com/drive/1dtcxoiH4XYV7AMUTyXZhj2kXV54HMnh9?usp=sharing#scrollTo=scAiM8ug_s1M
- **Whisper Notebook**: Этот репозиторий содержит Colab Notebook, который поддерживает OpenAI Whisper и API DeepL для транскрипции и перевода. Он предлагает простую настройку и инструкции для использования. Вы можете открыть его и следовать указаниям внутри: [Whisper Notebook](https://github.com/cnbeining/Whisper_Notebook).
- **Faster Whisper Google Colab**: Этот проект предлагает облачное развертывание Faster Whisper на Google Colab. Он позволяет автоматически генерировать субтитры или транскрипцию для загруженных видеофайлов. Это решение также бесплатное и не имеет ограничений по длине видео: [Faster Whisper Google Colab](https://github.com/ChanJianHao/Faster-Whisper-Google-Colab).
- **Deepgram Blog**: Хотя это не GitHub, в блоге Deepgram есть простой ноутбук для работы с Whisper в Google Colab, который включает установку, загрузку аудио с YouTube и оценку производительности модели: [Как запустить OpenAI Whisper в Google Colab](https://deepgram.com/learn/how-to-run-openai-whisper-in-google-colab).
Эти ресурсы помогут вам быстро начать работу с Whisper для распознавания длинных лекций на русском языке.
Citations:
[1] https://deepgram.com/learn/how-to-run-openai-whisper-in-google-colab
[2] https://github.com/cnbeining/Whisper_Notebook
[3] https://github.com/ChanJianHao/Faster-Whisper-Google-Colab
Но нужно язык системы переключить на инглиш.
Но что-то сомневаюсь, что оно работает локально.
Работает локально, русского нет.
https://www.reddit.com/r/PhasmophobiaGame/comments/w21pb0/why_would_devs_delete_the_recognition_of_russian/
Или там ограничение на количество файлов есть?