前言

前段时间在弄一个短视频的时候给它配了字幕,非常笨的方法,一句一句卡点给打上的😅。可能以后还会弄到,不可能一直这么纯手动卡点打上吧,如果视频比较短还好,效率和卡点纯手工始终有点不行。

其实一开始也想过找一个根据视频语音自动生成字幕的工具,找了好几个大多要不光看界面就很垃圾,要不就晚上那些工具的老套路,注册开通vip充值,但是有点太贵,我只是偶尔会弄个视频要点字幕,而且也不敢保证这个工具的质量如何,充值了vip后会不会没多久就倒闭跑路了,数据安全问题能得到保障吗?

终于今天在52pj看到一个界面比较清爽的工具VideoSrt,看了一下还是开源的,只不过pro版本提供收费服务。

介绍

简介

https://github.com/wxbool/video-srt-windows

VideoSrt 是用 Golang语言,基于 lxn/walk Windows-GUI 工具包开发。

这是一个可以识别视频语音自动生成字幕SRT文件的开源软件工具。
适用于快速、批量的为媒体(视频/音频)生成中/英文字幕、文本文件的业务场景。

0.3.5 版本会用到以下接口:

  • 阿里云 OSS对象存储
  • 阿里云 录音文件识别
  • 腾讯云 翻译Api / 百度云 翻译Api

工具的大致原理是,调用ffmpeg将视频转为mp3存储到阿里云OSS,然后用阿里云(或者其他)语音识别服务识别成文本,如果存在需要翻译的话调用翻译服务,然后生成字幕格式文件SRT或者LRC。

使用

  • 创建阿里云OSS,这里需要注意的是读写权限设置为公共读(我一开始用的私有,测试错误提示要改为公共读),记下Endpoint、AccessKeyId、AccessKeySercet、BucketName、BucketDomain填写到工具的阿里云OSS配置。

  • 开通智能语音交互服务,创建项目,应该是可以创建多个项目的,语音识别类型可以有很多,中文普通话、英文、四川话、北京话、粤语等等。

  • 开通腾讯云机器翻译

然后以上都搞好后,依次配置到工具对应的配置。

具体创建我这里就不想写了(截图,压缩,水印,上传图床太繁琐了),可参考作者给的VideoSrt文档 (yuque.com)

PS:可以猜得出来是我国哪个地方口音?好像不行

如果不选择文件输出目录,会默认保存到和原视频同一位置,工具的右下角地方有执行日志,而且生成完毕后会自动清理掉阿里云OSS的存储。

收费

工具本身是开源的,收费的只是这些第三方云服务,以下是作者给的说明文档上面的。

具体的费用资费,请参考各大平台的产品介绍及价格明细表,参考链接如下:

目前,阿里云录音文件识别、百度翻译、腾讯云翻译 等服务目前都有一定的免费额度。

免费额度说明如下:

  • 阿里云录音文件识别(可开通试用版,允许每日 2小时 免费识别时长额度,试用版从开通之日起,有3个月的使用时间,3个月之后将会自动切换为商业版,按照后付费的方式计费)

  • 百度翻译(通用翻译服务,标准版免费,高级版每月 200 万字免费)

  • 腾讯云翻译(文本翻译服务,每月免费额度 500万 字符)

  • 阿里云OSS对象存储(无免费额度,正常情况下,仅会产生少量的流量费用,在不开通 录音文件识别商业版 的情况下,充值1元可以正常使用30~60天左右)

总结

繁琐的是创建开通自己的这些云服务,费用的话就是语音识别有点贵,OSS和翻译不贵。今天我试了一下一个三分钟左右的视频,翻译字符数272,腾讯云每月免费额度500万字符,语音识别试用版三个月每天允许2小时,OSS我以前用的时候冲了10块,这个不贵的。

把生成的SRT字幕打开把不对的地方修改下,然后导入到视频剪辑工具,省事省力。