语音轻松转文字,whisper 官方步骤安装及使用

  • 来源:哔哩哔哩
  • 2023-08-26 23:46:33
分享到:
  • 收藏

目前,语音转录文字,市面上似乎不易寻找到好用免费的软件,每次手头有录音需要转为文字时,没有好用的工具软件。


【资料图】

小米自带的录音转文字,在录音文件很长时经常转录失败,还使用过的是网易见外工作台,但每天每个账号只能转录2个小时300M以下的音频文件,文件还需上传。

其实whisper已经是成名已久的语音转录文字的开源软件,并且文件无需上传,就在本地转录,无需顾虑语音内容泄露。

下面就整理记录下我按照官方文档进行的安装过程,供大家参考。

whisper的安装过程主要是根据其在github项目的文件的说明进行。

/openai/whisper

我的电脑环境配置情况如下:

操作系统:windows 11;显卡:NVIDIA GeForce RTX 2080 SUPER;python:;cuda:。

1.首先是安装python。文档中说,whisper是基于python 进行的训练和测试,到的python应该都可以。我选择的版本是python 。

2.安装cuda。如果你有英伟达的独立显卡,就需安装合适版本的cuda,使用gpu进行推理比cpu快多了,如果只有cpu可以跳过这个步骤,或者直接使用大佬用c++重写的项目,Buzz。/chidiwilliams/buzz/releases/tag/

3.安装其他前提项。

首先是需要安装ffmpeg,windows系统下文档给出了两种命令行安装方法。一个是使用Chocolatey安装,另一个是使用scoop安装。我选择了第一种方式。

安装chocolatey,安装过程可以参看官网教程:

安装ffmpeg,可能需要科学上网:choco install ffmpeg

4.还需要安装rust。文档中说可能需要这个东西。那就不管需不需要,先无脑装了再说。这个不太复杂,直接pip安装就可以了。

pip install setuptools-rust

5.终于到了安装whisper的步骤。

pip install -U openai-whisper

6.使用whisper进行语音转录。

使用whisper之前先说几点,首先是最好使用promot,同时录音避免有静默间隔,不然会出现长录音转录时一直陷入死循环。

下面是从哔哩哔哩上随便扣下来一个视频的音频部分做的转录,效果比较好。

whisper --language Chinese --model medium --device cuda:0 --initial_prompt "以下是普通话的句子"

下面是真实的一份工作会议录音进行的转录效果。可能是因为会议过程中并不是一直都有人讲话,出现了死循环,一直在重复同一段内容。这个问题在转录长录音的时候,时有发生,GitHub上也有人提出类似情况,具体解决办法还未深入了解。

当然不是所有会议录音都出问题,之前也有顺利完成2份真实会议录音的转录,并没有出现死循环,但一些词语错误识别为其他的同音字。

以上是whisper的安装过程,如有任何错误或其他问题,欢迎评论。

标签:

分享到:


精彩推送

精彩要闻

博物馆里度暑假
科技 2023/08/25
滨海公园足球场完工
滚动 2023/08/25
亚运主题快闪
科技 2023/08/25
特朗普前竞选律师自首
科技 2023/08/24
电商维权控价怎么做?
科技 2023/08/24