语音轻松转文字，whisper 官方步骤安装及使用

来源：哔哩哔哩
2023-08-26 23:46:33

分享到:

收藏

目前，语音转录文字，市面上似乎不易寻找到好用免费的软件，每次手头有录音需要转为文字时，没有好用的工具软件。

【资料图】

小米自带的录音转文字，在录音文件很长时经常转录失败，还使用过的是网易见外工作台，但每天每个账号只能转录2个小时300M以下的音频文件，文件还需上传。

其实whisper已经是成名已久的语音转录文字的开源软件，并且文件无需上传，就在本地转录，无需顾虑语音内容泄露。

下面就整理记录下我按照官方文档进行的安装过程，供大家参考。

whisper的安装过程主要是根据其在github项目的文件的说明进行。

/openai/whisper

我的电脑环境配置情况如下：

操作系统：windows 11；显卡：NVIDIA GeForce RTX 2080 SUPER；python：；cuda：。

1.首先是安装python。文档中说，whisper是基于python 进行的训练和测试，到的python应该都可以。我选择的版本是python 。

2.安装cuda。如果你有英伟达的独立显卡，就需安装合适版本的cuda，使用gpu进行推理比cpu快多了，如果只有cpu可以跳过这个步骤，或者直接使用大佬用c++重写的项目，Buzz。/chidiwilliams/buzz/releases/tag/

3.安装其他前提项。

首先是需要安装ffmpeg，windows系统下文档给出了两种命令行安装方法。一个是使用Chocolatey安装，另一个是使用scoop安装。我选择了第一种方式。

先安装chocolatey，安装过程可以参看官网教程:

再安装ffmpeg，可能需要科学上网：choco install ffmpeg

4.还需要安装rust。文档中说可能需要这个东西。那就不管需不需要，先无脑装了再说。这个不太复杂，直接pip安装就可以了。

pip install setuptools-rust

5.终于到了安装whisper的步骤。

pip install -U openai-whisper

6.使用whisper进行语音转录。

使用whisper之前先说几点，首先是最好使用promot，同时录音避免有静默间隔，不然会出现长录音转录时一直陷入死循环。

下面是从哔哩哔哩上随便扣下来一个视频的音频部分做的转录，效果比较好。

whisper --language Chinese --model medium --device cuda:0 --initial_prompt "以下是普通话的句子"

下面是真实的一份工作会议录音进行的转录效果。可能是因为会议过程中并不是一直都有人讲话，出现了死循环，一直在重复同一段内容。这个问题在转录长录音的时候，时有发生，GitHub上也有人提出类似情况，具体解决办法还未深入了解。

当然不是所有会议录音都出问题，之前也有顺利完成2份真实会议录音的转录，并没有出现死循环，但一些词语错误识别为其他的同音字。

以上是whisper的安装过程，如有任何错误或其他问题，欢迎评论。

标签：

分享到:

2023年濮阳市濮上家肴“年货美食节”开幕

热点More

为什么20多层的高楼上有蚊子？20层楼蚊子能飞上去吗？