视频语音自动识别生成字幕工具VideoSrt
前言
前段时间在弄一个短视频的时候给它配了字幕,非常笨的方法,一句一句卡点给打上的😅。可能以后还会弄到,不可能一直这么纯手动卡点打上吧,如果视频比较短还好,效率和卡点纯手工始终有点不行。
其实一开始也想过找一个根据视频语音自动生成字幕的工具,找了好几个大多要不光看界面就很垃圾,要不就晚上那些工具的老套路,注册开通vip充值,但是有点太贵,我只是偶尔会弄个视频要点字幕,而且也不敢保证这个工具的质量如何,充值了vip后会不会没多久就倒闭跑路了,数据安全问题能得到保障吗?
终于今天在52pj看到一个界面比较清爽的工具VideoSrt
,看了一下还是开源的,只不过pro版本提供收费服务。
介绍
简介
VideoSrt
是用 Golang
语言,基于 lxn/walk Windows-GUI 工具包开发。
这是一个可以识别视频语音自动生成字幕SRT文件的开源软件工具。
适用于快速、批量的为媒体(视频/音频)生成中/英文字幕、文本文件的业务场景。
0.3.5 版本会用到以下接口:
- 阿里云 OSS对象存储
- 阿里云 录音文件识别
- 腾讯云 翻译Api / 百度云 翻译Api
工具的大致原理是,调用ffmpeg将视频转为mp3存储到阿里云OSS,然后用阿里云(或者其他)语音识别服务识别成文本,如果存在需要翻译的话调用翻译服务,然后生成字幕格式文件SRT或者LRC。
使用
创建阿里云OSS,这里需要注意的是读写权限设置为公共读(我一开始用的私有,测试错误提示要改为公共读),记下Endpoint、AccessKeyId、AccessKeySercet、BucketName、BucketDomain填写到工具的阿里云OSS配置。
开通智能语音交互服务,创建项目,应该是可以创建多个项目的,语音识别类型可以有很多,中文普通话、英文、四川话、北京话、粤语等等。
开通腾讯云机器翻译
然后以上都搞好后,依次配置到工具对应的配置。
具体创建我这里就不想写了(截图,压缩,水印,上传图床太繁琐了),可参考作者给的VideoSrt文档 (yuque.com)
PS:可以猜得出来是我国哪个地方口音?好像不行
如果不选择文件输出目录,会默认保存到和原视频同一位置,工具的右下角地方有执行日志,而且生成完毕后会自动清理掉阿里云OSS的存储。
收费
工具本身是开源的,收费的只是这些第三方云服务,以下是作者给的说明文档上面的。
具体的费用资费,请参考各大平台的产品介绍及价格明细表,参考链接如下:
目前,阿里云录音文件识别、百度翻译、腾讯云翻译 等服务目前都有一定的免费额度。
免费额度说明如下:
阿里云录音文件识别(可开通试用版,允许每日 2小时 免费识别时长额度,试用版从开通之日起,有3个月的使用时间,3个月之后将会自动切换为商业版,按照后付费的方式计费)
百度翻译(通用翻译服务,标准版免费,高级版每月 200 万字免费)
腾讯云翻译(文本翻译服务,每月免费额度 500万 字符)
阿里云OSS对象存储(无免费额度,正常情况下,仅会产生少量的流量费用,在不开通 录音文件识别商业版 的情况下,充值1元可以正常使用30~60天左右)
总结
繁琐的是创建开通自己的这些云服务,费用的话就是语音识别有点贵,OSS和翻译不贵。今天我试了一下一个三分钟左右的视频,翻译字符数272,腾讯云每月免费额度500万字符,语音识别试用版三个月每天允许2小时,OSS我以前用的时候冲了10块,这个不贵的。
把生成的SRT字幕打开把不对的地方修改下,然后导入到视频剪辑工具,省事省力。