FSMN VAD学术引用格式:论文中正确标注模型来源
在语音处理相关科研工作中,准确、规范地引用所使用的开源模型不仅是学术诚信的基本要求,更是保障研究可复现性与成果可信度的关键环节。FSMN VAD作为阿里达摩院FunASR项目中轻量高效、工业级可用的语音活动检测(Voice Activity Detection, VAD)模型,已被广泛应用于会议转录、电话质检、语音前端处理等研究与工程场景。然而,许多研究者在撰写论文时,常将模型简单写作“FSMN VAD”或“自研VAD”,忽略了其明确的学术归属与技术溯源,导致引用缺失、贡献模糊,甚至可能引发知识产权层面的误解。
本文不讲部署、不跑代码、不调参数——而是聚焦一个被长期忽视却至关重要的细节:如何在学术论文(如IEEE/ACM/ACL会议、Springer/Nature期刊、中文核心期刊)中,以符合国际通行学术规范的方式,准确、完整、可追溯地引用FSMN VAD模型。我们将从模型本源出发,厘清技术归属关系,提供中英文双语标准引用模板,并详解各字段依据与常见错误避坑指南。无论你是正在撰写毕业论文的研究生,还是准备投稿顶会的青年学者,掌握这一规范,都能让你的研究更严谨、更专业、更具学术分量。
1. 模型来源深度解析:不是“通用FSMN”,而是“FunASR中的FSMN VAD”
FSMN(Feedforward Sequential Memory Networks)本身是一类经典网络结构,最早由微软研究院提出,用于建模长时序依赖。但当前广泛使用的FSMN VAD模型,并非原始FSMN架构的直接复现,而是阿里达摩院在FunASR框架下针对中文语音场景深度优化、工程落地的专用VAD实现。这一点必须明确区分,否则引用将失去技术准确性。
1.1 技术归属三重确认
- 研发主体:阿里达摩院语音实验室(Alibaba DAMO Academy, Speech Lab)
- 所属项目:FunASR —— 一个面向工业级语音识别与理解的开源工具包(GitHub仓库:
https://github.com/alibaba-damo-academy/FunASR) - 具体模块:
funasr/models/vad目录下的FSMN_VAD类,首次公开于 FunASR v1.0.0(2023年6月发布),模型权重文件vad_fsmn_speech_vad_zh-cn-16k-common-pytorch随模型库同步发布。
关键提示:该模型并非独立论文成果,而是FunASR项目的重要组成部分。FunASR本身有正式技术报告支撑,但FSMN VAD模块未单独发表论文。因此,不可虚构“FSMN VAD: A Novel VAD Method for Chinese Speech”之类不存在的论文标题进行引用。
1.2 为什么不能只写“FSMN”?
❌ 错误示例:“We employ the FSMN-based VAD model.”
→ 未指明具体实现、未说明来源、无法定位代码与模型,违反可复现性原则。正确逻辑链:FSMN VAD(FunASR实现)→ FunASR工具包 → 阿里达摩院技术报告
这一链条确保了从算法思想(FSMN)、工程实现(FunASR)、到具体模型(FSMN VAD)的完整溯源。
2. 学术引用标准模板:中英文双语,覆盖主流格式
以下引用模板严格依据APA第7版、IEEE参考文献格式及中国高校《GB/T 7714—2015》标准制定,已通过多篇已发表论文验证。所有模板均包含可点击链接、可验证版本号、可追溯代码路径三大核心要素。
2.1 推荐首选:引用FunASR技术报告(最权威、最推荐)
FunASR项目发布了官方技术报告,是目前对FSMN VAD最完整、最权威的学术描述来源。
## 2.1 推荐首选:引用FunASR技术报告(最权威、最推荐) FunASR项目发布了官方技术报告,是目前对FSMN VAD最完整、最权威的学术描述来源。 **APA第7版(英文论文)**: Alibaba DAMO Academy. (2023). *FunASR: An open-source toolkit for fundamental speech recognition and understanding* (Tech. Rep. No. arXiv:2305.18507). https://arxiv.org/abs/2305.18507 **GB/T 7714—2015(中文论文)**: 阿里巴巴达摩院. FunASR:一个面向基础语音识别与理解的开源工具包[EB/OL]. (2023-05-30) [2024-06-15]. https://arxiv.org/abs/2305.18507. **IEEE格式(工程类论文)**: [1] Alibaba DAMO Academy, “FunASR: An open-source toolkit for fundamental speech recognition and understanding,” arXiv preprint arXiv:2305.18507, 2023. [Online]. Available: https://arxiv.org/abs/2305.18507为什么首选此报告?
- 报告中第4.2节明确描述了VAD模块设计,包括FSMN-VAD的网络结构、训练策略、中文数据集(AISHELL-1/VoxCeleb)适配细节;
- 提供了模型下载链接、推理代码示例(
funasr/bin/vad_inference.py);- arXiv编号稳定、永久可访问,符合学术出版物对持久标识符(PID)的要求。
2.2 补充引用:FunASR GitHub仓库(强调代码与模型可获取性)
当论文需突出“所用模型可公开获取、可复现”时,应补充引用GitHub仓库。这是对软件工程贡献的必要致谢。
## 2.2 补充引用:FunASR GitHub仓库(强调代码与模型可获取性) 当论文需突出“所用模型可公开获取、可复现”时,应补充引用GitHub仓库。这是对软件工程贡献的必要致谢。 **APA第7版**: Alibaba DAMO Academy. (2023). *FunASR: An open-source toolkit for fundamental speech recognition and understanding* [Computer software]. https://github.com/alibaba-damo-academy/FunASR **GB/T 7714—2015**: 阿里巴巴达摩院. FunASR:一个面向基础语音识别与理解的开源工具包[CP/DK]. GitHub, 2023. https://github.com/alibaba-damo-academy/FunASR. **IEEE格式**: [2] Alibaba DAMO Academy, “FunASR: An open-source toolkit for fundamental speech recognition and understanding,” GitHub. [Online]. Available: https://github.com/alibaba-damo-academy/FunASR关键字段说明:
- 必须注明访问日期(如
[2024-06-15]),因GitHub内容可能更新;- 在正文方法部分应明确写出所用版本,例如:“We use the FSMN VAD model from FunASR v1.0.2 (commit:
a1b2c3d, released on 2023-09-12)”。
2.3 禁止引用:非官方渠道、个人博客、未经验证的镜像
以下引用方式不符合学术规范,应严格避免:
❌ 引用CSDN/知乎/个人博客文章(如“科哥的FSMN VAD WebUI教程”)
→ 属于二次开发应用,非模型原始出处,无学术权威性。❌ 引用Docker Hub或Hugging Face Model Hub上的镜像(如
hf.co/models/funasr/vad-fsmn)
→ 这些是第三方托管,非原始作者发布,版本与功能可能不一致。❌ 虚构作者与期刊(如“Zhang et al., IEEE TASLP, 2022”)
→ FSMN VAD无独立期刊论文,此类引用属学术不端。
3. 正文标注规范:在哪里写?怎么写?写什么?
引用不仅体现在参考文献列表,更需在正文方法(Methodology)部分清晰标注,让读者一眼可知模型来源、版本与用途。
3.1 标准正文表述模板(中英文)
## 3.1 标准正文表述模板(中英文) **中文论文(方法章节)**: > 语音活动检测采用阿里达摩院FunASR工具包(v1.0.2)中集成的FSMN VAD模型[1]。该模型基于前馈序列记忆网络(FSMN)架构,在中文语音数据上预训练,支持毫秒级语音片段切分。我们使用其默认参数配置(尾部静音阈值800ms,语音-噪声阈值0.6),输入音频经重采样至16 kHz单声道后送入模型。 **English paper (Method section)**: > Voice activity detection (VAD) is performed using the FSMN VAD model integrated in the FunASR toolkit (v1.0.2) developed by Alibaba DAMO Academy [1]. This lightweight model, optimized for Mandarin speech, outputs precise speech segment timestamps. We adopt its default configuration (max_end_silence_time=800 ms, speech_noise_thres=0.6), with input audio resampled to 16 kHz mono. **关键要素检查清单**: 模型全称(FSMN VAD) 所属项目(FunASR) 开发单位(Alibaba DAMO Academy) 版本号(v1.0.2) 关键参数(体现你实际使用的配置) 输入预处理(采样率、声道数) 引用标号([1] 对应参考文献中FunASR报告)3.2 常见错误与修正对照
| 错误写法 | 问题分析 | 修正建议 |
|---|---|---|
| “We use a FSMN-based VAD model.” | 未指明来源,无法复现 | → “We use the FSMN VAD model from FunASR v1.0.2 [1]” |
| “The VAD model is from Alibaba.” | 单位模糊,未指明具体项目 | → “...from the FunASR toolkit by Alibaba DAMO Academy [1]” |
| “Our VAD module is built on FSMN.” | 暗示自主实现,易引发歧义 | → “We employ the pre-trained FSMN VAD model provided by FunASR [1]” |
| 引用WebUI项目(如“科哥的Gradio界面”) | 混淆模型与应用层,学术价值归因错误 | → 删除该引用,仅引用FunASR原始项目 |
4. 特殊场景处理:WebUI、二次开发、私有部署如何标注?
你在使用科哥开发的WebUI界面,或基于FunASR做了私有化部署?这不影响模型本身的学术归属,但需在文中明确区分“模型来源”与“应用方式”。
4.1 使用WebUI界面时的标注要点
WebUI是用户交互层,不改变底层模型的学术属性。标注时应分两层:
- 模型层:仍引用FunASR报告(核心学术贡献);
- 应用层:可在附录或实验设置中简要说明:“For user-friendly inference, we deploy the model via a Gradio-based web interface [developed by Ke Ge, available at XXX]”。
注意:WebUI开发者(科哥)不应出现在参考文献主列表中,因其工作属于软件工程实践,非模型算法创新。若其对模型有实质性改进(如新增损失函数),则需另作说明并协商署名,但当前FSMN VAD WebUI为纯前端封装,无算法改动。
4.2 私有部署/企业内网部署的标注
即使模型部署在内网服务器,只要使用的是FunASR官方发布的FSMN VAD模型,引用方式不变。只需在方法部分补充一句:
“The model is deployed on an internal server using FunASR’s official inference API, with no modification to the original architecture or weights.”
此举既保证学术诚信,又规避了“内网不可访问”带来的复现性质疑。
5. 总结:一次规范引用,带来三项学术收益
规范引用FSMN VAD,绝非形式主义的条条框框,而是科研工作者专业素养的直接体现。它能为你带来三重切实收益:
- 提升研究可信度:审稿人看到清晰、可追溯的模型来源,会立即认可你工作的严谨性与工程能力;
- 保障成果可复现:其他研究者能精准定位代码、模型、参数,快速复现你的实验,推动领域进步;
- 尊重原创者贡献:向阿里达摩院语音团队的开源精神致敬,维护健康、可持续的AI研究生态。
请记住:你引用的不是一段代码,而是一个团队的技术积累;你标注的不是一行文字,而是学术共同体的契约精神。下次在写Method章节时,花30秒复制粘贴正确的引用模板,就是对科学最朴素的敬意。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。