如何使用预训练的通用音频表示进行心脏杂音检测

      心脏杂音检测是心血管疾病诊断中的一个重要方面,通过听诊器进行检查是常见方法,但对临床医生的经验依赖很大。为了减少心脏声音解释中对熟练临床医生的需求,探索自动化心脏听诊的深度学习方法很有必要。然而,尽管深度学习模型通常需要大量数据进行训练,心脏声音数据集的大小却很有限,并且没有预训练模型可用。与此相反,已经有许多预训练模型被提出作为通用音频表示,它们是在大规模数据集上预训练的,并且在包括环境声音、语音和音乐在内的多样化任务上显示出了有效性。

     如何使用预训练的通用音频表示进行心脏杂音检测呢?我们使用George B. Moody PhysioNet Challenge 2022 [3]中的心脏杂音检测任务和CirCor DigiScope心脏声音数据集,这是一个三类分类:存在、不存在和未知(无法确定)。

1、实验设置

1.1 通用音频表示方法

通用音频表示我们选用PANNs CNN14、BYOL-A、AST、M2D,PANNs,在AudioSet 上进行预训练,但它们在学习方法和网络架构上有所不同PANNs通过监督学习(SL)预训练CNN,BYOL-A通过自监督学习(SSL)预训练CNN,AST通过SL预训练变换器,M2D通过SSL预训练变换器。如PANNs CNN14使用了1,934,187个样本,而M2D使用了2,005,132个样本。对于预训练,SL模型(CNN14和AST)使用了音频波形和标签,而SSL模型(BYOL-A和M2D)仅使用了音频波形。

1.2 网络架构

使用预训练模型作为特征提取器,并在其上添加了批量归一化层和线性层。

预训练模型作为特征提取器:文档选择了多种预训练的通用音频表示模型作为特征提取器。

批量归一化层:在预训练模型的输出上添加了批量归一化层(BatchNorm),以提高训练的稳定性。

线性层:在批量归一化层之上,进一步添加了线性层,其输出直接用于最终的分类预测。

权重初始化:预训练模型的权重参数用于初始化,随后进行微调,同时训练整个网络的参数。

微调:整个网络,包括预训练模型,都进行了微调训练。

1.3 评估指标

使用加权准确率(W.acc)和未加权平均召回率(UAR)作为评估指标。

加权准确率(W.acc):W.acc是一种加权指标,特别针对心杂音检测任务中的类别“存在”和“不存在”。

无加权平均召回率(UAR):UAR反映了模型在不同类别上的召回率平衡情况。

2、结论

最新模型M2D在W.acc和UAR指标上均取得了较高的分数,分别为0.832和0.713,这表明其在心杂音检测任务上表现良好。通过集成多个模型,可以进一步提高性能。

3、相关名词

3.1 2022 PhysioNet挑战赛

由George B. Moody PhysioNet举办挑战赛的任务之一是检测心音杂音和异常心脏功能。CirCor DigiScope数据集被用作该挑战赛的公开数据集,包含3163个心音样本,其中179个心音杂音阳性样本,695个心音杂音阴性样本,68个心音杂音未知样本。挑战赛设置了加权准确率和无加权平均召回率作为评价指标。(可以通过访问CirCor DigiScope数据集的官方网站下载该数据集,并用于相关的心音研究任务)

3.2 通用音频表示

从音频信号中提取有用的特征,以便于进行分类、识别或其他下游任务。

M2D(Music-to-Description)模型是一种将音乐转换为描述性文本的深度学习模型。这种模型在通用音频表示中的应用是相当广泛的,因为它能够将复杂的音乐信号转换为人类可理解的文本描述。

3.3 AudioSet

一个大规模的音频事件识别和数据集,由Google Research在2017年发布。它包含了超过2百万个YouTube视频片段,覆盖了527个音频事件类别,如婴儿哭声、狗吠、音乐演奏等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/6826.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Redis Cluster集群方案什么情况下会导致整个集群不可用?

Redis 没有使用哈希一致性算法,而是使用哈希槽。 Redis 中的哈希槽一共有16384个,计算给定 密钥的哈希槽,我们只需要对密钥的 CRC16 去取 16384。假设集群中有A、B、C三个集群节点, 不存在复制模式下,每个集群的节点包…

、、、、、

、、 、 transient 关键字总结 1)transient修饰的变量不能被序列化;2)transient只作用于实现 Serializable 接口;3)transient只能用来修饰普通成员变量字段;4)不管有没有 transient 修饰&…

网络工程师必学知识:SSH登录抓包分析报文交互过程

网络工程师必学知识:SSH登录抓包分析报文交互过程 1.概述:2.SSH传输层协议:3.SSH用户认证协议:4.SSH连接协议:5.抓包看看:6.总结:1.概述: SSH(Secure Shell ,安全外壳协议),就是在不安全的协议外层再加一层安全外壳。比如说telnet+SSH=stelnet。 SSH由三个组件构成:…

ASP.NET网上书店

摘要 本设计尝试用ASP.NET在网络上架构一个电子书城,以使每一位顾客不用出门在家里就能够通过上网来轻松购书。本文从理论和实践两个角度出发,对一个具有数据挖掘功能电子书城进行设计与实现分析。论文首先较为详尽地介绍了面向对象分析与设计的有关概念…

C++实验五 : 类的继承 -----CUST

【题目】 1.定义person类,包括数据私有成员:姓名,性别;共用成员函数:带参数构造函数,display函数输出本类对象的所有数据成员值。 2.定义student类,保护继承person类;增加保护数据成…

docker desktop实战部署oracle篇

1、前言 oracle数据库官方已提供现成的镜像,可以直接拿来部署了。 由于项目中需要使用oracle数据库的分表功能,之前安装的是standard版本,无奈只能重新安装。网上查了一番,使用的方法都比较传统老旧:下载安装包手动安…

golang获取变量动态类型

类型断言:data.(Type) 类型断言是最常用的获取变量动态类型的方法之一。允许在运行时将接口值转换为其具体类型。 data 是一个接口类型的变量。 Type 是一个具体的类型。 这个表达式的含义是,如果 data 的底层值是 Type 类型,那么 value 将接…

深度学习之GAN网络

目录 关于GAN网络 关于生成模型和判别模型 GAN网路的特性和搭建步骤(以手写字体识别数据集为例) 搭建步骤 特性 GAN的目标函数(损失函数) 目标函数原理 torch.nn.BCELoss(实际应用的损失函数) 代码…

百度下拉框负面信息如何删除?

百度头条360等搜索引擎,作为人们获取信息的主要途径之一。然而,一些知名的企业或个人可能会面临在搜索的下拉框中出现负面信息的问题,这可能对其声誉和形象造成不良影响。小马识途营销顾问根据自身从业经验,针对这类情况提出以下建…

轻盈高效开源的WEB在线客服平台:Go-Fly

Go-Fly:即刻沟通,非凡服务,轻松连接每一个对话,让客服日常更简单高效!- 精选真开源,释放新价值。 概览 Go-Fly 是一款基于 Go 语言 构建的开源即时通讯与客服管理系统,专为寻求高效、可定制在线…

网安学习笔记day-15,交换机工作原理

交换机工作原理 交换机是二层设备,基于MAC表工作。 MAC地址是有48位二进制组成,也就是6字节,通常分为6段,用十六进制表示。 交换机通信方式: 单播:点对点发送数据 广播:向所有设备发送数据…

【c++算法篇】双指针(上)

🔥个人主页:Quitecoder 🔥专栏:算法笔记仓 朋友们大家好啊,本篇文章我们来到算法的双指针部分 目录 1.移动零2.复写零3.快乐数4.盛水最多的容器 1.移动零 题目链接:283.移动零 题目描述: 算法…

【Linux】进程控制 之 进程创建 进程终止 进程等待 进程替换

👦个人主页:Weraphael ✍🏻作者简介:目前正在学习c和算法 ✈️专栏:Linux 🐋 希望大家多多支持,咱一起进步!😁 如果文章有啥瑕疵,希望大佬指点一二 如果文章对…

A股上市公司财务松弛数据集(2000-2022年)

01、数据介绍 财务松弛是指企业在运营过程中,由于各种原因导致其财务状况出现一定程度的松弛或宽裕状态。这种状态通常表现为企业持有较多的现金和流动性资产,同时负债相对较少,或者企业有较多的未使用授信额度等。 本数据包括:…

【LeetCode】链表oj专题

前言 经过前面的学习,咋们已经学完了链表相关知识,这时候不妨来几道链表算法题来巩固一下吧! 如果有不懂的可翻阅之前文章哦! 个人主页:小八哥向前冲~-CSDN博客 数据结构专栏:数据结构【c语言版】_小八哥…

SQL注入基础-5

一、Access注入 1、asp网站常用数据库:access,mssql 2、access数据库 (1)没有库,没有端口 (2)结构:表--》字段--》数据 3、注入流程: 判断类型判断表名:遍历、爆破判断列名判断列名下的数据长度查出数…

【管理篇】如何处理团队里的老资格员工和高能力员工?

目录标题 两类员工对比🤺老资格员工高能力员工 作为领导你应该怎么做? 在管理团队时,处理老资格员工和高能力员工是一项至关重要的任务。这两类员工在团队中扮演着不同的角色和有着不同的需求,因此需要针对性的管理和激励。下面将…

漫谈音频深度伪造技术

作为人工智能时代的新型媒体合成技术,深度伪造技术近年来在网络媒体中的涉及领域越发广泛、出现频次越发频繁。据路透社报道,2023年,社交媒体网站上发布50万个深度伪造的语音和视频。 1、深度伪造技术的五个方面 音频深度伪造技术&#xff…

Java八股文3

3.垃圾回收 1.对象什么时候可以被垃圾器回收 1.垃圾回收的概念 为了让程序员更专注于代码的实现,而不用过多的考虑内存释放的问题,所以, 在Java语言中,有了自动的垃圾回收机制,也就是我们熟悉的GC(Garbage Collection)…

Unity 性能优化之静态批处理(三)

提示:仅供参考,有误之处,麻烦大佬指出,不胜感激! 文章目录 前言一、静态批处理是什么?二、使用步骤1.勾选Static Batching2.测试静态合批效果 三、静态合批得限制1、游戏对象处于激活状态。2、游戏对象有一…