阿里 FunASR 开源中文语音识别大模型应用示例(准确率比faster-whisper高)

文章目录

  • Github
  • 官网
  • 简介
  • 模型
  • 安装
  • 非流式应用示例
  • 流式应用示例

在这里插入图片描述

Github

  • https://github.com/modelscope/FunASR

官网

  • https://www.funasr.com/#/

简介

FunASR是一个基础语音识别工具包,提供多种功能,包括语音识别(ASR)、语音端点检测(VAD)、标点恢复、语言模型、说话人验证、说话人分离和多人对话语音识别等。FunASR提供了便捷的脚本和教程,支持预训练好的模型的推理与微调。
我们在ModelScope与huggingface上发布了大量开源数据集或者海量工业数据训练的模型,可以通过我们的模型仓库了解模型的详细信息。代表性的Paraformer非自回归端到端语音识别模型具有高精度、高效率、便捷部署的优点,支持快速构建语音识别服务,详细信息可以阅读(服务部署文档)。

模型

  • https://huggingface.co/funasr

安装

pip3 install -U funasr
# 或从源码安装
git clone https://github.com/alibaba/FunASR.git && cd FunASR
pip3 install -e ./

非流式应用示例

  • https://huggingface.co/funasr/paraformer-zh
  • 下载模型
# 语音识别,带时间戳,非流式
git clone https://huggingface.co/funasr/paraformer-zh
from funasr import AutoModel
from funasr.utils.postprocess_utils import rich_transcription_postprocessmodel = AutoModel(model='./paraformer-zh',vad_model="fsmn-vad",vad_kwargs={"max_single_segment_time": 30000},device="cpu",disable_update=True, disable_pbar=True
)res = model.generate(input=f"./zh_20250329_105237.wav",cache={},language="auto",  # "zn", "en", "yue", "ja", "ko", "nospeech"use_itn=True,batch_size_s=60,merge_vad=True,  #merge_length_s=15,
)
text = rich_transcription_postprocess(res[0]["text"])
print(text)

流式应用示例

  • https://huggingface.co/funasr/paraformer-zh-streaming
  • 下载模型
# 语音识别、流媒体
git clone https://huggingface.co/funasr/paraformer-zh-streaming
from funasr import AutoModelchunk_size = [0, 10, 5] #[0, 10, 5] 600ms, [0, 8, 4] 480ms
encoder_chunk_look_back = 4 #number of chunks to lookback for encoder self-attention
decoder_chunk_look_back = 1 #number of encoder chunks to lookback for decoder cross-attentionmodel = AutoModel(model="./paraformer-zh-streaming", disable_update=True)import soundfile
import osspeech, sample_rate = soundfile.read('./zh_20250329_105237.wav')
chunk_stride = chunk_size[1] * 960 # 600mscache = {}
# 计算总共需要处理的音频块数
total_chunk_num = int(len((speech)-1)/chunk_stride+1)
# 遍历所有音频块,逐块识别
for i in range(total_chunk_num):speech_chunk = speech[i*chunk_stride:(i+1)*chunk_stride]is_final = i == total_chunk_num - 1res = model.generate(input=speech_chunk, cache=cache, is_final=is_final, chunk_size=chunk_size, encoder_chunk_look_back=encoder_chunk_look_back, decoder_chunk_look_back=decoder_chunk_look_back)print(res)

注:chunk_size为流式传输延迟的配置。 [0,10,5]表示实时显示粒度为1060=600ms,前瞻信息为560=300ms。每次推理的输入为600ms(样本点为16000*0.6=960),输出为对应的文本。对于最后一段语音的输入,is_final=True需要设置 ,强制输出最后一个单词。

import sounddevice as sd
import numpy as np
import queue
from funasr import AutoModelmodel = AutoModel(model="./paraformer-zh-streaming", disable_update=True, disable_pbar=True)# 录音参数
SAMPLE_RATE = 16000  # FunASR 需要 16kHz 采样率
CHANNELS = 1
CHUNK_MS = 600  # 每个 chunk 600ms
CHUNK_SIZE = CHUNK_MS * 16  # 600ms 音频 = 9600 采样点
LOOK_BACK = 4  # Encoder 关注的 chunk 数量# 音频缓存
audio_queue = queue.Queue()
cache = {}  # 识别缓存# 录音回调
def callback(indata, frames, time, status):if status:print(f"音频流错误: {status}")audio_queue.put(indata.copy())  # 存入队列# 开始监听麦克风
print("正在监听麦克风... (Ctrl+C 退出)")
try:with sd.InputStream(samplerate=SAMPLE_RATE, channels=CHANNELS, callback=callback, blocksize=CHUNK_SIZE):buffer = np.array([], dtype=np.float32)  # 音频缓冲区while True:if not audio_queue.empty():# 获取音频数据audio_chunk = audio_queue.get().flatten()buffer = np.append(buffer, audio_chunk)  # 添加到缓冲区# 每 600ms 进行一次识别while len(buffer) >= CHUNK_SIZE:chunk = buffer[:CHUNK_SIZE]buffer = buffer[CHUNK_SIZE:]  # 移除已处理部分# 执行语音识别res = model.generate(input=chunk, cache=cache, is_final=False, chunk_size=[0, 10, 5], encoder_chunk_look_back=LOOK_BACK, decoder_chunk_look_back=1)print("识别结果:", res[0]['text'])except KeyboardInterrupt:print("停止监听")

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/899716.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何使用 LLaMA-Factory 微调 LLaMA3

【LLaMa3微调】使用 LLaMA-Factory 微调LLaMA3 实验环境 1.1 机器 操作系统:Windows 10 或 UbuntuPyTorch 版本:2.1.0Python 版本:3.10(针对Ubuntu 22.04)Cuda 版本:12.1GPU 配置:p100 (16GB) …

使用Java ApI 实现Hadoop文件上传

目录 文件传输步骤 windows的本机文件传输 linux的虚拟机文件传输 文件传输步骤 建立连接 在connect2HDFS()方法中,通过设置Configuration对象来指定HDFS的URI(在这个例子中为hdfs://192.168.12.133:9000),并初始化一个FileSys…

喜讯 | 耘瞳科技视觉检测与测量装备荣膺“2024机器视觉创新产品TOP10”

3月28日,全球机器视觉行业盛会VisionChina2025(上海)机器视觉展完美收官。展会期间,由机器视觉产业联盟(CMVU)举办的“2024机器视觉创新产品TOP10”企业名单正式揭晓,耘瞳科技“工业跨尺度场景实…

数据可视化(matplotlib)-------图表样式美化

目录 一、图表样式概述 (一)、默认图表样式 (二)、图表样式修改 1、局部修改 2、全局修改 二、使用颜色 (一)、使用基础颜色 1、单词缩写或单词表示的颜色 2、十六进制/HTML模式表示的颜色 3、RGB…

202518 | Ngnix

Ngnix是什么 Nginx(发音为“engine-x”)是一个开源的高性能HTTP服务器、反向代理服务器、负载均衡器和邮件代理服务器。它由俄罗斯程序员Igor Sysoev开发,首次发布于2004年,旨在解决C10K问题(即如何高效地处理10,000个…

WP Mail 邮件发送:WordPress Mail SMTP设置

在我们WordPress搭建个人网站完成后,读者或者客户发送的电子邮件,包括你的WPForms电子邮件通知,如果无法到达预定收件人收件箱,这会对我们网站的运营造成很大的影响,问题在于WordPress Mail SMTP的发送方式。 SMTP&am…

小智机器人关键函数解析:MqttProtocol::SendAudio()对输入的音频数据进行加密处理,通过UDP发送加密后的音频数据

MqttProtocol::SendAudio()对输入的音频数据进行加密处理&#xff0c;通过UDP发送加密后的音频数据。 源码&#xff1a; void MqttProtocol::SendAudio(const std::vector<uint8_t>& data) {// 使用互斥锁保护临界区&#xff0c;确保同一时间只有一个线程可以访问该…

Hadoop 常用命令集总览

Hadoop 常用命令集总览 在大数据处理领域&#xff0c;Hadoop 作为一种广泛应用的分布式系统基础架构&#xff0c;其重要性不言而喻。熟练掌握 Hadoop 的常用命令对于高效的数据处理和分析工作至关重要。本文将对 Hadoop 的常用命令进行专业而详尽的列举&#xff0c;并结合实例进…

mac m4 Homebrew安装MySQL 8.0

1.使用Homebrew安装MySQL8 在终端中输入以下命令来安装MySQL8&#xff1a; brew install mysql8.0 安装完成后&#xff0c;您可以通过以下命令来验证MySQL是否已成功安装&#xff1a; 2.配置mysql环境变量 find / -name mysql 2>/dev/null #找到mysql的安装位置 cd /op…

GoLand 2024.3 中文 GO语言开发工具

GoLand 2024.3 中文 GO语言开发工具 文章目录 GoLand 2024.3 中文 GO语言开发工具一、介绍二、效果三、下载 一、介绍 JetBrains GoLand 2024 &#xff0c;是一款GO语言开发工具&#xff0c;全行代码补全&#xff1a;能使用本地运行的上下文感知深度学习模型&#xff0c;可以自…

Excel去掉单元格里面的换行的方法

方法一&#xff1a;使用“查找和替换”功能 ‌选中单元格‌&#xff1a;首先选中需要替换换行符的单元格或区域。 ‌打开替换窗口‌&#xff1a;按下“CtrlH”快捷键&#xff0c;打开“查找和替换”对话框。 ‌输入换行符‌&#xff1a; 在“查找内容”框中&#xff0c;你可…

React 中的 Props

Props&#xff08;Properties 的缩写&#xff09;是 React 中用于组件间通信的核心机制。它们允许数据从父组件单向传递到子组件。Props 是 React 组件不可变&#xff08;只读&#xff09;的输入参数&#xff0c;这种特性使得组件更加可预测且易于维护。 Props 的核心特性 单…

基于简单神经网络的线性回归

一、概述 本代码实现了一个简单的神经网络进行线性回归任务。通过生成包含噪声的线性数据集&#xff0c;定义一个简单的神经网络类&#xff0c;使用梯度下降算法训练网络以拟合数据&#xff0c;并最终通过可视化展示原始数据、真实线性关系以及模型的预测结果。 二、依赖库 …

‌19.思科路由器:OSPF协议引入直连路由的实验研究

思科路由器:OSPF协议引入直连路由的实验研究 一、实验拓扑二、基本配置2.1、sw1的配置2.2、开启交换机三层功能三、ospf的配置3.1、R1的配置3.2、R2的配置3.3、重启ospf进程四、引入直连路由五、验证结果随着互联网技术的不断发展,路由器作为网络互联的关键设备,其性能与稳定…

USB——删除注册表信息

文章目录 背景工具下载地址工具使用删除注册表信息背景 注测表中已记录这个设备的信息,但现在设备描述符又指定为了 WinUSB 设备,所以当设备再次插入的时候,不会发送 0xEE 命令,造成了枚举失败。 两种处理方式: 修改枚举时候的 VID/PID删除 USB 的注册表信息工具下载地址…

如何快速解决django报错:cx_Oracle.DatabaseError: ORA-00942: table or view does not exist

我们在使用django连接oracle进行编程时&#xff0c;使用model进行表映射对接oracle数据时&#xff0c;默认表名组成结构为&#xff1a;应用名_类名&#xff08;如&#xff1a;OracleModel_test&#xff09;&#xff0c;故即使我们库中存在表test&#xff0c;运行查询时候&#…

从 0 到跑通的 Qt + OpenGL + VS 项目的完整流程

&#x1f9e9; 全流程目标&#xff1a; 在 Visual Studio 中成功打开、编译并运行一个 Qt OpenGL 项目&#xff08;.vcxproj 格式&#xff09; ✅ 第 1 步&#xff1a;安装必要环境 工具说明Visual Studio 2017 / 2019 / 2022必须勾选 “使用 C 的桌面开发” 和 “MSVC 工具…

鸿蒙开发03样式相关介绍(二)

文章目录 一、样式复用1.1 Styles修饰符1.2 Extend修饰符 二、多态样式 一、样式复用 在页面开发过程中&#xff0c;会出出现大量重复的样式设置代码&#xff0c;可以使用Styles和Extend修饰符将帮助我们进行样式复用。 1.1 Styles修饰符 Styles装饰器可以将多条样式设置提炼…

装饰器模式与模板方法模式实现MyBatis-Plus QueryWrapper 扩展

pom <dependency><groupId>com.github.yulichang</groupId><artifactId>mybatis-plus-join-boot-starter</artifactId> <!-- MyBatis 联表查询 --> </dependency>MPJLambdaWrapperX /*** 拓展 MyBatis Plus Join QueryWrapper 类&…

05-031-自考数据结构(20331)- 哈希表 - 例题分析

哈希表考题主要涵盖四大类型:1)函数设计类(如除留余数法计算地址,需掌握质数p的选择技巧);2)冲突处理类(线性探测法要解决堆积现象,链地址法需绘制链表结构);3)性能分析类(重点计算ASL,理解装填因子α的影响规律);4)综合应用类(如设计ISBN查询系统,需结合实际问…