视频语音自动识别生成字幕工具VideoSrt

前言

前段时间在弄一个短视频的时候给它配了字幕，非常笨的方法，一句一句卡点给打上的😅。可能以后还会弄到，不可能一直这么纯手动卡点打上吧，如果视频比较短还好，效率和卡点纯手工始终有点不行。

其实一开始也想过找一个根据视频语音自动生成字幕的工具，找了好几个大多要不光看界面就很垃圾，要不就晚上那些工具的老套路，注册开通vip充值，但是有点太贵，我只是偶尔会弄个视频要点字幕，而且也不敢保证这个工具的质量如何，充值了vip后会不会没多久就倒闭跑路了，数据安全问题能得到保障吗？

终于今天在52pj看到一个界面比较清爽的工具VideoSrt，看了一下还是开源的，只不过pro版本提供收费服务。

https://github.com/wxbool/video-srt-windows

VideoSrt 是用 Golang语言，基于 lxn/walk Windows-GUI 工具包开发。

这是一个可以识别视频语音自动生成字幕SRT文件的开源软件工具。
适用于快速、批量的为媒体（视频/音频）生成中/英文字幕、文本文件的业务场景。

0.3.5 版本会用到以下接口：

工具的大致原理是，调用ffmpeg将视频转为mp3存储到阿里云OSS，然后用阿里云(或者其他)语音识别服务识别成文本，如果存在需要翻译的话调用翻译服务，然后生成字幕格式文件SRT或者LRC。

创建阿里云OSS，这里需要注意的是读写权限设置为公共读（我一开始用的私有，测试错误提示要改为公共读），记下Endpoint、AccessKeyId、AccessKeySercet、BucketName、BucketDomain填写到工具的阿里云OSS配置。
开通智能语音交互服务，创建项目，应该是可以创建多个项目的，语音识别类型可以有很多，中文普通话、英文、四川话、北京话、粤语等等。
开通腾讯云机器翻译

然后以上都搞好后，依次配置到工具对应的配置。

具体创建我这里就不想写了(截图，压缩，水印，上传图床太繁琐了)，可参考作者给的VideoSrt文档 (yuque.com)

PS：可以猜得出来是我国哪个地方口音？好像不行

如果不选择文件输出目录，会默认保存到和原视频同一位置，工具的右下角地方有执行日志，而且生成完毕后会自动清理掉阿里云OSS的存储。

工具本身是开源的，收费的只是这些第三方云服务，以下是作者给的说明文档上面的。

具体的费用资费，请参考各大平台的产品介绍及价格明细表，参考链接如下：

目前，阿里云录音文件识别、百度翻译、腾讯云翻译等服务目前都有一定的免费额度。

免费额度说明如下：

阿里云录音文件识别（可开通试用版，允许每日 2小时免费识别时长额度，试用版从开通之日起，有3个月的使用时间，3个月之后将会自动切换为商业版，按照后付费的方式计费）
百度翻译（通用翻译服务，标准版免费，高级版每月 200 万字免费）
腾讯云翻译（文本翻译服务，每月免费额度 500万字符）
阿里云OSS对象存储（无免费额度，正常情况下，仅会产生少量的流量费用，在不开通录音文件识别商业版的情况下，充值1元可以正常使用30~60天左右）