Пидоры, помогите. Не понял как работать в Google Colab.
На работе, мне нужно заниматьс транскрибацией видеозаписей созвонов с клиентами.
Я наткнулся на это (Multi-Language Speech Recognition and Speaker Diarisation), но разобраться в его работе не смог. Видео с ютуба он щелкает как орешки, но не работает с файлами на компе. На этапе "process" он просто выдает ошибку (одно видео до минуты он всё же расшифровал).
Вопрос: Что я упустил из вида при работе с гугл колаб?
Инструмент рабочий, текст транскрибирует хорошо, но в моих руках не работает.
Вроде как успешно следовал инструкциям.
(гугл пишет, что у меня закончились вычислительные единицы, может поэтому не работает?)
Есть какие-нибудь альтернативы (платные пока не могу себе позволить) для автоматической транскрибации?
Еще на тему
У меня ощущение, что там какие-то ограничения по размеру или колаба просто «даёт от ворот поворот». Я попробовал MP4 самых разных размеров, но только аудио на 30 секунд заработало.
Можно будет попробовать.
есть aws transcribe, 60 минут бесплатно на free tier, ограниченный выбор языков.
Есть whisper модель у openai, хорошо работает, иногда с заскоками как и все модали. Языков очень много поддерживает.
Если хочешь бесплатно то думаю надо в сторону моделей смотреть, на huggingface например. Но первая страница гугла предлагает openai использовать. Там на самом деле цена смешная $0.006 / minute
Буду пробовать.
Вообще, подавать на вход видео не очень разумно. Лучше через ffmpeg вырезать аудиоряд и работать уже с ним, будет намного быстрее и экономнее.
Надо будет попробовать.
Хз насколько рабочий метод, но в теории...