网站流量作用网站风格总结
web/
2025/10/3 13:17:41/
文章来源:
网站流量作用,网站风格总结,网络服务器下载,北京注册公司虚拟地址SpeechRecognition可以支持多种模型语音转文字#xff0c;感觉vosk还不错#xff0c;使用起来也简单一些#xff1b;百度也有PaddleSpeech#xff0c;但是安装起来太麻烦#xff0c;不是这个库版本不对就是那个库有问题#xff0c;用起来不方便#xff1b;
安装SpeechR…SpeechRecognition可以支持多种模型语音转文字感觉vosk还不错使用起来也简单一些百度也有PaddleSpeech但是安装起来太麻烦不是这个库版本不对就是那个库有问题用起来不方便
安装SpeechRecognition库
pip install SpeechRecognition
安装vosk库
pip install vosk
使用vosk库还需要下载对应的模型去官网VOSK Models下载 中文的有3个模型模型小的运行快准确度没有大的好选一个下载完zip解压就行代码里配置目录和模型为了方便直接解压到项目目录里了 另外需要wav语音测试文件可以自己录音或者去在线免费文字转语音 - TTSMaker官网 | 马克配音 制造点wav语音文件
demo
#!/usr/bin/env python3
# coding utf-8# Project: workspace_py
# File: test_speech_recognition_vosk.py
# Author: FlyLikeButterfly
# Time: 2024/4/15 11:05import speech_recognition as sr
from vosk import Modelr sr.Recognizer()
r.vosk_model Model(model_pathvosk_models/vosk-model-small-cn-0.22, model_namevosk-model-small-cn-0.22)
# r.vosk_model Model(model_pathvosk_models/vosk-model-cn-0.22, model_namevosk-model-cn-0.22)
# r.vosk_model Model(model_pathvosk_models/vosk-model-cn-kaldi-multicn-0.15, model_namevosk-model-cn-kaldi-multicn-0.15)
with sr.AudioFile(test_24000_16.wav) as source:audio r.record(source)
result r.recognize_vosk(audio, languagezh-cn)
print(result)运行结果 返回结果是一个string字符串可以用json转一下 结果 注意支持的文件只有3种格式WAV/AIFF/FLAC使用其他格式的会报错 另外SpeechRecognition也可以直接使用麦克风的录音
with sr.Microphone() as mic:audio r.listen(mic, timeout3, phrase_time_limit3)
result r.recognize_vosk(audio, languagezh-cn)
print(result)
但是这个还需要安装pyaudio模块 这个SpeechRecognition似乎没有直接提供读取bytes音频数据的接口不过r.record方法和r.listen方法的返回值都是AudioData类我们可以直接实例化AudioData给recognize_vosk()方法用这个类的构造方法解释如下 第一个参数可以使用音频的bytes数据wav和pcm都可以
第二个参数是音频的采样率Hz8000Hz、16000Hz等等
第三个参数是采样位宽单位是字节16位采样是2个字节8位采样是1字节支持1-4
测试代码块
with open(test_24000_16.wav, rb) as wav_file:wav_data wav_file.read()
wav_source sr.AudioData(wav_data, 24000, 2)
wav_result r.recognize_vosk(wav_source, languagezh-cn)
print(wav_result)with open(test_8000_16.pcm, rb) as pcm_file:pcm_data pcm_file.read()
pcm_source sr.AudioData(pcm_data, 8000, 2)
pcm_result r.recognize_vosk(pcm_source, languagezh-cn)
print(pcm_result)运行结果 只是这个库好像没有标点恢复功能百度的那个有标点恢复
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/86232.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!