语音轻松转文字,whisper 官方步骤安装及使用
- 来源:哔哩哔哩
- 2023-08-26 23:46:33
- 收藏
目前,语音转录文字,市面上似乎不易寻找到好用免费的软件,每次手头有录音需要转为文字时,没有好用的工具软件。
【资料图】
小米自带的录音转文字,在录音文件很长时经常转录失败,还使用过的是网易见外工作台,但每天每个账号只能转录2个小时300M以下的音频文件,文件还需上传。
其实whisper已经是成名已久的语音转录文字的开源软件,并且文件无需上传,就在本地转录,无需顾虑语音内容泄露。
下面就整理记录下我按照官方文档进行的安装过程,供大家参考。
whisper的安装过程主要是根据其在github项目的文件的说明进行。
/openai/whisper
我的电脑环境配置情况如下:
操作系统:windows 11;显卡:NVIDIA GeForce RTX 2080 SUPER;python:;cuda:。
1.首先是安装python。文档中说,whisper是基于python 进行的训练和测试,到的python应该都可以。我选择的版本是python 。
2.安装cuda。如果你有英伟达的独立显卡,就需安装合适版本的cuda,使用gpu进行推理比cpu快多了,如果只有cpu可以跳过这个步骤,或者直接使用大佬用c++重写的项目,Buzz。/chidiwilliams/buzz/releases/tag/
3.安装其他前提项。
首先是需要安装ffmpeg,windows系统下文档给出了两种命令行安装方法。一个是使用Chocolatey安装,另一个是使用scoop安装。我选择了第一种方式。
先安装chocolatey,安装过程可以参看官网教程:
再安装ffmpeg,可能需要科学上网:choco install ffmpeg
4.还需要安装rust。文档中说可能需要这个东西。那就不管需不需要,先无脑装了再说。这个不太复杂,直接pip安装就可以了。
pip install setuptools-rust
5.终于到了安装whisper的步骤。
pip install -U openai-whisper
6.使用whisper进行语音转录。
使用whisper之前先说几点,首先是最好使用promot,同时录音避免有静默间隔,不然会出现长录音转录时一直陷入死循环。
下面是从哔哩哔哩上随便扣下来一个视频的音频部分做的转录,效果比较好。
whisper --language Chinese --model medium --device cuda:0 --initial_prompt "以下是普通话的句子"
下面是真实的一份工作会议录音进行的转录效果。可能是因为会议过程中并不是一直都有人讲话,出现了死循环,一直在重复同一段内容。这个问题在转录长录音的时候,时有发生,GitHub上也有人提出类似情况,具体解决办法还未深入了解。
当然不是所有会议录音都出问题,之前也有顺利完成2份真实会议录音的转录,并没有出现死循环,但一些词语错误识别为其他的同音字。
以上是whisper的安装过程,如有任何错误或其他问题,欢迎评论。
标签: