四川话ASR-微调-语音识别-Paraformer-Large - 教程
四川话语音识别模型 - Paraformer微调版
模型介绍
本项目基于阿里巴巴达摩院的 iic/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch
预训练模型,使用220小时的高质量四川话数据进行微调,专门针对四川方言语音识别任务进行优化。
性能提升
模型版本 | CER (字符错误率) | 改进幅度 |
---|---|---|
原始模型 | 9.703% | - |
微调模型 | 5.998% | 38.19% ⬇️ |
转写结果对比
模型格式
模型权重提供以下格式:
- PyTorch格式 (.pt) - 适用于训练和高精度推理
- ONNX格式 (.onnx) - 适用于跨平台部署
- 量化ONNX格式 (quant_onnx) - 适用于资源受限环境
技术特点
- 基础架构: Paraformer (Non-autoregressive Transformer)
- 训练数据: 220小时高质量四川话语音数据
- 采样率: 16kHz
- 词汇表大小: 8404
- 语言: 中文(四川方言)
模型训练
训练过程可视化
以下图表展示了模型在训练过程中的性能变化:
点击这里查看
训练损失随epoch变化趋势
模型推理
PyTorch推理
使用FunASR框架进行PyTorch模型推理:
from funasr import AutoModel
import os
# 加载微调后的模型
model = AutoModel(model="/path/to/finetuned_model_best")
# 单个音频文件推理
audio_path = "your_audio_file.wav"
result = model.generate(input=audio_path)
print(result)
# 批量推理
audio_list = ["audio1.wav", "audio2.wav", "audio3.wav"]
results = model.generate(input=audio_list)
for i, res in enumerate(results):
print(f"音频 {i+1}: {res}")
ONNX推理
使用FunASR-ONNX进行高效推理:
# 安装依赖
# pip3 install -U funasr-onnx
from funasr_onnx import Paraformer
import time
# 加载ONNX模型
model_dir = "/path/to/finetuned_model_best"
model = Paraformer(model_dir, batch_size=1, quantize=False)
# 推理
wav_path = ['your_audio_file.wav']
start_time = time.time()
result = model(wav_path)
end_time = time.time()
print(f"识别结果: {result}")
print(f"推理耗时: {end_time - start_time:.3f} 秒")
量化模型推理
使用量化ONNX模型进行更快速的推理:
from funasr_onnx import Paraformer
# 启用量化推理
model = Paraformer(model_dir, batch_size=1, quantize=True)
result = model(wav_path)
print(f"识别结果: {result}")
训练前后识别效果对比
详细的识别效果对比数据请参见模型文件中的 val_comparison_best.xlsx
,包含:
- 测试集样本的原始标注
- 原始模型识别结果
- 微调模型识别结果
- 字符错误率(CER)对比
主要改进点
- 方言词汇识别: 四川话特有词汇识别准确率显著提升
- 语音韵律: 更好地适应四川话的语音特点
- 噪声鲁棒性: 在有背景噪声的环境下表现更稳定
- 长语音处理: 对较长语音片段的识别连贯性改善
合作联系
数据与模型获取
如果您需要以下资源,欢迎联系我们:
- 四川话训练数据集 (220小时高质量标注数据)
- 完整的微调模型权重 (所有的模型文件)
- 技术支持与定制化服务
- ️ 模型部署与优化方案
联系方式: 点击这里联系我们
致谢
- 感谢阿里巴巴达摩院提供的FunASR框架和Paraformer预训练模型
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/926053.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!相关文章
茂名专业网站建设公司亚马逊网站建设分析
推荐阅读
给软件行业带来了春天——揭秘Spring究竟是何方神圣(一) 给软件行业带来了春天——揭秘Spring究竟是何方神圣(二) 文章目录 推荐阅读关联查询子查询 关联查询 关联查询 从多张表中查询对应记录的信息,关联查…
手把手教你使用 Docker 部署 Nginx 教程
本文详细介绍了基于轩辕镜像的 Nginx 镜像拉取方法(含登录验证、免登录(推荐)、官方直连等方式),以及三种适合不同场景的 Docker 部署方案(快速部署用于测试、目录挂载用于实际项目、docker-compose 用于企业级场…
建站公司服务网页游戏开服表大全
TJpgDec—轻量级JPEG解码器 本文由乌合之众lym瞎编,欢迎转载blog.cnblogs.net/oloroso 下文中解码一词皆由decompression/decompress翻译而来。 TJpgDec是一个为小型嵌入式系统高度优化的创建JPEG图像的解码模块。它工作时占用的内存非常低,以便它可以集…
网站建设营销模板网站扁平化设计理念
目录
结论先说 实验 结论
实验机器的cpu配置 用EDGE拉九路编辑 google拉五路就拉不出来了
资源使用情况 edge报错编辑 结论先说 实验
用chrome先拉九路,再想用edge拉九路,发现拉五路后怎么也拉不出;
后面发现cpu爆满;切…
自己搭建一个网站需要多少钱?手机网站搭建教程
来源:AI前线作者:Ben Dickson译者:盖策划:凌敏本文来自 BDTechTalks 网站的“AI 研究论文评论”专栏。该专栏提供人工智能最新发现的系列解读文章。尽管人工智能研究人员正力图建立能在围棋、星际争霸到 Dota 等复杂游戏中击败人类…
CF2129 CF1951 VP 记录
非常好 hfu 开发的神秘打一场比赛改两场题,使我的国庆假期旋转.
CF2129 Div1
B
逆序对考虑在较小的数处统计贡献,枚举序列里面每个数,一并枚举逆序对的另一个数. \(p_i\) 有贡献当且 \(i>j\),\(2n-p_i\) 有贡献…
PWN-BUUCTF-test_your_nc
BUUCTF-test_your_nc的WPpwn
题目题解
使用nc连接题目地址,输入ls查看目录。使用cat命令获取flag文件内容得到flag。总结
题目考察nc的使用方法本文来自博客园,作者:ffff5,转载请注明原文链接:https://www.cnblog…
做网站设计需要具备哪些重庆市工程建设服务中心
中国科学院自动化研究所智能交互团队在环境鲁棒性、轻量级建模、自适应能力以及端到端处理等几个方面进行持续攻关,在语音识别方面获新进展,相关成果将在全球语音学术会议INTERSPEECH2019发表。现有端到端语音识别系统难以有效利用外部文本语料中的语言学…
电商网站建设目标分析的方法淘宝客网站建设方案书
机器学习是一项经验技能,经验越多越好。在项目建立的过程中,实 践是掌握机器学习的最佳手段。在实践过程中,通过实际操作加深对分类和回归问题的每一个步骤的理解,达到学习机器学习的目的 预测模型项目模板
不能只通过阅读来掌握…
Kafka Windows 安装启动与 YAML 配置全解析 - 实践
pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …
昆明专业建站装修设计公司服务
参考链接
FFmpeg源代码简单分析:avcodec_close()_雷霄骅的博客-CSDN博客_avcodec_close
avcodec_close()
该函数用于关闭编码器avcodec_close()函数的声明位于libavcodec\avcodec.h,如下所示。 该函数只有一个参数,就是需要关闭的编码器的…
使用rem布局的网站网站开发5人小组分工
. 单论品牌(主要以登山鞋及徙步鞋为主): 高级品牌:SCARPA、ASOLO、MONTRAIL、ZAMBERLAN、vasque、Lowa、La Sportiva 价格都较高,单价都在千元以上,品质一流,做工精细。 中档品牌:Tr…
详细介绍:计算机视觉:OpenCV+Dlib 人脸检测
详细介绍:计算机视觉:OpenCV+Dlib 人脸检测pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", &qu…
怀化 网站建设国内网页加速器
文章目录 企业无线局域网部署最佳实践引言1. 无线网规划和设计a. 选择合适的频宽b. 网络规划工具c. 考虑物理环境d. 用户密度和需求e. 未来扩展f. 安全性和策略g. 测试和验证2. 无线局域网容量2.1 用户和设备预测2.2 应用流量分析2.3 带宽管理2.4 无线技术选择2.5 网络健康检查…
python 老生常谈的找2个excel相同列的行,把其中一个excel行的对应的值放入到另一个excel中
有个excel叫典型草原降水强度,还有个excel叫典型草原数浓度,这两个excel里面time和data_name列,time列里面的数据格式是YYYY-M-D空格H:S,data_name列里面是XXXX-时间戳,53192-20240510101700-20240510105559-0_N…
可信网站标识河南省考生服务平台官网
目录 服务端这么做服务端告知客户端使用 Basic Authentication 方式进行认证服务端接收并处理客户端按照 Basic Authentication 方式发送的数据 客户端这么做如果客户端是浏览器如果客户端是 RestTemplat如果客户端是 HttpClient 其它参考 服务端这么做
服务端告知客户端使用 …
wordpress建站优缺点服务中心网站建设意见
less
用来浏览超过一页的文件
用 / 可用来查找关键字
q键退出
cat -n 3.txt | less行号显示grep
文本处理工具,以行为单位找关键字 ls -l /boot | grep ^l grep 关键字 文件名 grep runlevel /etc/inittab
参数
-i忽略大小写
-n显示行号
-v排除关键字࿰…
【K8S】Kubernetes 调度器深度解析:原理与源码分析
@目录一、调度器架构概述1.1 核心架构设计1.2 调度器工作流程二、调度队列机制2.1 优先级队列实现2.2 Pod 优先级与抢占三、调度框架与插件系统3.1 框架扩展点3.2 插件注册与执行四、调度周期详细分析4.1 调度算法入口…
Elasticsearch MCP 服务器:与你的 Index 聊天 - 指南
pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …
AI大事记4:从 ELIZA 到 ChatGPT—— 对话式 AI 的世纪征程(上) - 详解
pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …