GLM-ASR-Nano-2512是智谱Z.AI开源的1.5B参数语音识别模型,专注于中文方言识别和低音量语音处理,性能超越Whisper。支持粤语等多种方言,能识别低音量语音,错误率仅4.10%。适合企业会议转写、客服中心等场景,支持本地部署和微调。相比Whisper,在中文场景更具优势,但语言覆盖较窄。硬件要求适中,8GB+显存即可运行。对于需要处理中文方言和低音量语音的语音识别项目,是理想选择。
语音识别模型我之前都是用Belle-whisper-large-v3-zh,小巧、快速,但是方言支持和准确性差一点意思。最近智谱Z.AI 开源了 GLM-ASR-Nano-2512,一个专门针对方言识别优化的语音识别模型,支持粤语等多种方言,还能识别超小声音的低音量语音,这下子会议录音转文字的难题有解了!本文就详细介绍一下,介绍本地部署方法。
简介
GLM-ASR-Nano-2512 是智谱Z.AI 于2025年12月发布的开源语音识别模型,只有1.5B 参数,体积不大但性能硬核,官方测评在多个基准测试中超越 OpenAI Whisper V3
核心亮点:
- 方言识别能力🔥:除了标准普通话和英语,模型专门针对粤语和其他中国方言做了优化。做过会议纪要的朋友都知道,方言混着普通话说的场景,传统ASR直接崩溃。这个模型填补了这个空白。
- 低音量语音识别:这个feature我真的爱了。专门训练了"悄悄话"场景——开会时离麦克风远的人、电话录音声音弱的情况、嘈杂环境下压低声音说话……传统模型直接忽略的音频,它能捞回来。
- SOTA性能:在开源模型中,平均错误率只有4.10,在Wenet Meeting(真实会议场景)和Aishell-1(标准普通话)等中文基准测试中表现亮眼。
- 17种语言支持:WER≤20%的高可用性语言多达17种,覆盖面广。
下图是官方的benchmark结果,可以看到GLM-ASR-Nano在多个指标上全面领先:
Benchmark results
支持的语言列表:
Supported Languages List
与 Whisper 的对比
问题来了,OpenAI 的 Whisper 也是开源的,还支持100多种语言,为什么要选 GLM-ASR?
选 GLM-ASR-Nano 的场景:
- ✅ 需要识别粤语、四川话等中国方言
- ✅ 会议录音中有很多低音量发言
- ✅ 需要本地部署,数据不出域
- ✅ 想针对特定领域(医疗、法律、金融)做微调
- ✅ 追求性价比,不想付API费用
选 Whisper 的场景:
- ✅ 需要100+语言的广泛覆盖
- ✅ 需要成熟的社区生态和文档
- ✅ 需要翻译功能(边转写边翻译)
- ✅ 处理全球各地口音的内容
说白了,如果你的业务场景是中文为主、涉及方言、或者有低音量语音识别需求,GLM-ASR-Nano 是更优解。如果是国际化场景、多语种混搭,Whisper 生态更成熟。
硬件要求
这个模型对硬件要求不算苛刻:
最低配置:
- GPU:8GB+ 显存(RTX 3060 起步)
- 内存:16GB
- 存储:5GB 模型权重
生产环境推荐:
- GPU:NVIDIA A100、V100 或同级别
- 内存:32GB+
- 存储:SSD以加速模型加载
官方说用 faster-whisper 优化后,在中端GPU(如降频的1080Ti)上可以实现比实时更快的解码速度。
安装
首先安装依赖:
pip install -r requirements.txtsudo apt install ffmpeg需要从源码安装 transformers 5.0.0:
pip install git+https://github.com/huggingface/transformers使用
基础用法 - transformers 5.0.0
from transformers import AutoModel, AutoProcessorimport torchdevice = "cuda"if torch.cuda.is_available() else"cpu"repo_id = "zai-org/GLM-ASR-Nano-2512"processor = AutoProcessor.from_pretrained(repo_id)model = AutoModel.from_pretrained(repo_id, dtype=torch.bfloat16, device_map=device)messages = [ { "role": "user", "content": [ { "type": "audio", "url": "example_zh.wav", }, {"type": "text", "text": "Please transcribe this audio into text"}, ], }]inputs = processor.apply_chat_template( messages, tokenize=True, add_generation_prompt=True, return_dict=True, return_tensors="pt")inputs = inputs.to(device, dtype=torch.bfloat16)outputs = model.generate(**inputs, max_new_tokens=128, do_sample=False)print(processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True))使用 vLLM 部署服务
我是用vllm起的,首先需要升级至vLLM 0.14.0稳定版
但是它对应的transformers是v4.57.6,需要单独升级它
从源码安装 🤗 Transformers 即可:
pip install git+https://github.com/huggingface/transformers
然后就是V5.0版本了 启动脚本
python -m vllm.entrypoints.openai.api_server --model /data/models/GLM-ASR-Nan0-2512 \--trust-remote-code \--dtype bfloat16 \--host 0.0.0.0 \--port 8000Python 调用:
from openai import OpenAI# Modify with the actual server addressclient = OpenAI(base_url="http://localhost:8000/v1", api_key="dummy")# Transcribe audio filewith open("audio.mp3", "rb") as audio_file: transcript = client.audio.transcriptions.create( model="GLM-ASR-Nano-2512", file=audio_file ) print(transcript.text)使用 SGLang 部署服务
SGLang 支持高吞吐量批处理,适合生产环境:
# 拉取开发版docker镜像docker pull lmsysorg/sglang:dev# 进入容器后运行pip install git+https://github.com/huggingface/transformerspython3 -m sglang.launch_server --model-path zai-org/GLM-ASR-Nano-2512 --served-model-name glm-asr --host 0.0.0.0 --port 8000然后用 OpenAI 兼容的 API 调用:
from openai import OpenAIopenai_api_key = "EMPTY"openai_api_base = "http://127.0.0.1:8000/v1"client = OpenAI(api_key=openai_api_key, base_url=openai_api_base)response = client.chat.completions.create( model="glm-asr", messages=[ { "role": "user", "content": [ { "type": "audio_url", "audio_url": {"url": "example_zh.wav"} }, { "type": "text", "text": "Please transcribe this audio into text" }, ] } ], max_tokens=1024,)print(response.choices[0].message.content.strip())批量推理
如果需要处理多个音频文件,可以一次性传入:
from transformers import GlmAsrForConditionalGeneration, AutoProcessorprocessor = AutoProcessor.from_pretrained("zai-org/GLM-ASR-Nano-2512")model = GlmAsrForConditionalGeneration.from_pretrained("zai-org/GLM-ASR-Nano-2512", dtype="auto", device_map="auto")inputs = processor.apply_transcription_request([ "audio1.mp3", "audio2.mp3",])inputs = inputs.to(model.device, dtype=model.dtype)outputs = model.generate(**inputs, do_sample=False, max_new_tokens=500)decoded_outputs = processor.batch_decode(outputs[:, inputs.input_ids.shape[1]:], skip_special_tokens=True)print(decoded_outputs)应用场景
根据官方和社区反馈,这个模型特别适合以下场景:
- 企业会议转写:支持方言混杂、远距离发言者识别
- 客服中心:不同地区客户口音各异,方言识别是刚需
- 医疗记录:医生口述病历,往往声音轻、语速快
- 媒体与广播:地方电视台、网络主播内容转写
- 边缘设备部署:1.5B参数,可以在消费级GPU上运行
下载地址
| 平台 | 链接 |
|---|---|
| 🤗 Hugging Face | https://huggingface.co/zai-org/GLM-ASR-Nano-2512 |
| 🤖 ModelScope | https://modelscope.cn/models/ZhipuAI/GLM-ASR-Nano-2512 |
| GitHub | https://github.com/zai-org/GLM-ASR |
⚠️注意:如果你在2025年12月27日之前下载过模型,需要重新拉取最新版本,因为模型权重格式已更新以兼容 transformers 和 SGLang。
总结
GLM-ASR-Nano-2512 是目前开源ASR模型中,针对中文方言识别和低音量语音处理最优秀的选择。1.5B的参数量意味着更低的部署成本,对于企业级私有化部署来说,这是个实打实的利好。
优点:
- 🔥 粤语等方言识别能力强
- 🔥 低音量语音处理效果好
- 🔥 开源免费,可本地部署和微调
- 🔥 支持 transformers 5.x、vLLM、SGLang 等主流推理框架
局限:
- 语言覆盖不如 Whisper 广(100+ vs 17种)
- 社区生态还在建设中
- transformers 需要从源码安装(5.0.0)
如果你正在做语音识别相关的项目,特别是面向中文用户、涉及方言场景的,强烈建议试一试这个模型。
AI大模型从0到精通全套学习大礼包
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
只要你是真心想学AI大模型,我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!
如果你也想通过学大模型技术去帮助就业和转行,可以扫描下方链接👇👇
大模型重磅福利:入门进阶全套104G学习资源包免费分享!
01.从入门到精通的全套视频教程
包含提示词工程、RAG、Agent等技术点
02.AI大模型学习路线图(还有视频解说)
全过程AI大模型学习路线
03.学习电子书籍和技术文档
市面上的大模型书籍确实太多了,这些是我精选出来的
04.大模型面试题目详解
05.这些资料真的有用吗?
这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。
所有的视频由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势,构建起"前沿课程+智能实训+精准就业"的高效培养体系。
课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!
如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!
应届毕业生:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能 突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓