语音识别--单声道转换与降采样

⚠申明: 未经许可,禁止以任何形式转载,若要引用,请标注链接地址。 全文共计3077字,阅读大概需要3分钟
🌈更多学习内容, 欢迎👏关注👀【文末】我的个人微信公众号:不懂开发的程序猿
个人网站:https://jerry-jy.co/

❗❗❗知识付费,🈲止白嫖,有需要请后台私信或【文末】个人微信公众号联系我

语音识别--单声道转换与降采样

  • 单声道转换与降采样
    • 一、任务需求
    • 二、任务目标
          • 1、掌握单声道转化方法
          • 2、掌握音频降采样方法
    • 三、任务环境
          • 1、jupyter开发环境
          • 2、python3.6
          • 3、tensorflow2.4
    • 四、任务实施过程
      • 1、单声道转换
      • 2、降采样
    • 五、任务小结
  • 说明

单声道转换与降采样


一、任务需求

在本实验中,我们将通过平均跨通道的样本将音频信号转换为单声道。

从应用的角度上看,多声道转单声道,与降采样都可以有效降低音频的大小,当然,伴随而来的是质量下降。但很多情况下,并不是越清晰的音频越好,因此单声道转换和降采样就能够派上大用途了。

要求:在librosa中,使用函数librosa.to_mono实现单声道转换的功能。

二、任务目标

1、掌握单声道转化方法
2、掌握音频降采样方法

三、任务环境

1、jupyter开发环境
2、python3.6
3、tensorflow2.4

四、任务实施过程

1、单声道转换

import librosa
filename = '/home/jovyan/datas/sorohanro_-_solo-trumpet-06.hq.ogg'

y, sr = librosa.load(filename, mono=False)
y.shape

(2, 117601)

从音频的shape上看得出来,这是一个双声道的音频。

为了让你能看的更加清晰,对声道变换理解的更加透彻,我们在这里将双声道声波绘制出来。

import matplotlib.pyplot as plt
plt.figure(figsize=(15,5))
# 绘制双声道声波第一个通道
plt.subplot(2,1,1)
plt.plot(y[0,:1000])
# 绘制双声道声波第二个通道
plt.subplot(2,1,2)
plt.plot(y[1,:1000],c='g')

这是同一个音频文件的双声道声波图,接下来我们要将双声道音频,转化为单声道。转化方法非常简单,通过librosa.to_mono就可以实现。

y_mono = librosa.to_mono(y)
y_mono.shape

(117601,)

plt.figure(figsize=(15,2))
# 将双声道合并为一个通道
plt.plot(y_mono[:1000],c='r')

2、降采样

filename = '/home/jovyan/datas/sorohanro_-_solo-trumpet-06.ogg'
# 获取采样率
sr = librosa.get_samplerate(filename)
sr

22050

y, sr = librosa.load(filename, sr=sr, mono=False) len(y),sr

(117601, 22050)

# 使用resample降采样
y_8k = librosa.resample(y, sr, 8000)
y.shape, y_8k.shape

((117601,), (42668,))

可以看到,经过librosa.resample降采样后的音频采样点,从117601降低到42668,降低一半还多。

当然,降采样的采样率并不能随意减少,想象一下,一个音频文件,只有一个采样点会怎样?所以通常来说,在音频的一个最小周期上,至少要保证两个采样点才可以。

为了比较降采样前后的变化,我们播放两个声音。

import IPython.display as ipd
ipd.display(ipd.Audio(y,rate=22050))
ipd.display(ipd.Audio(y_8k,rate=8000))

听起来好像并没什么不同,为了加强确认,我们画出波形图看一看。

plt.figure(figsize=(14,4))
plt.subplot(211)
plt.plot(y)
plt.subplot(212)
plt.plot(y_8k)

五、任务小结

本节实验我们学习了如何将双声道转换为单声道,并学习了音频降采样方法。

从波形图上看,两个声音在细微上还是存在一些不同,但差距不大,如果并不是特别追求音频质量的话,显然8k音频也是能用的,最关键的是,文件大小缩小了一半有余。

–end–

说明

本实验(项目)/论文若有需要,请后台私信或【文末】个人微信公众号联系我

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/832508.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据结构学习/复习8--树与二叉树的概念与基本性质练习

一、树 1.概念 2.树的表示 二、二叉树 1.二叉树的概念 2.与性质相关的题

OpenHarmony实战开发-如何使用Web组件加载页面

页面加载是Web组件的基本功能。根据页面加载数据来源可以分为三种常用场景,包括加载网络页面、加载本地页面、加载HTML格式的富文本数据。 页面加载过程中,若涉及网络资源获取,需要配置ohos.permission.INTERNET网络访问权限。 加载网络页面…

如何在一个高并发的应用中进行调试和测试!

在一个高并发的应用中进行调试和测试是一项挑战性的工作,因为它涉及到了系统性能、资源竞争、同步机制以及潜在的并发编程错误等多个方面。下面我会详细解释如何在高并发环境中进行调试和测试,并提供相应的策略和技术。 1. 单元测试 在多线程环境下&…

从线索到成交:HubSpot全渠道销售流程的精准打磨

在当今数字化时代,企业面临着越来越复杂的市场环境和激烈的竞争压力。在这样的背景下,如何利用科技手段提升营销和销售效率,拓展客户获客渠道,成为了企业发展的关键之道。作为HubSpot合作伙伴,我们深谙全渠道营销与销售…

multipass launch失败:launch failed: Remote ““ is unknown or unreachable.

具体问题情况如下: C:\WINDOWS\system32>multipass launch --name my-vm 20.04launch failed: Remote "" is unknown or unreachable.​C:\WINDOWS\system32>multipass lsNo instances found.​C:\WINDOWS\system32>multipass startlaunch fail…

谁能取代迈巴赫,征服互联网安全大佬周鸿祎?

‍作者 |老缅 编辑 |德新 4月18日,「周鸿祎卖车」登上了微博热搜。这位360创始人、董事长发微博称:自己做了一个艰难的决定,将把陪伴9年的迈巴赫600给卖掉。 随后,他解释道:「这是因为我需要体验新一代车的感觉。古人…

虚拟化界的强强联手:VirtIO与GPU虚拟化的完美结合

近距离了解 VirtIO 和 GPU 虚拟化 这是一篇 Linaro 开发团队项目组的科普文章。我们在处理器虚拟化项目中,经常会遇到 VirtIO 相关的问题;比如运行 Andriod 系统的时候需要运行 VirtIO 组件。‍‍‍随着 Cassini 项目和 SOAFEE(嵌入式边缘可扩…

HFSS学习-day1-T形波导的内场分析和优化设计

入门实例--T形波导的内场分析和优化设计 HFSS--此实例详细步骤1.创建项目2.设置求解类型3.设置与建模相关的一些信息设置默认的建模长度单位 4.创建T形模型的三个臂基本参数端口激励进行复制 5.创建被挖去的部分设置正确的边界条件和端口激励方式添加求解设置添加扫频项检查一下…

大模型_基于医疗领域用lora微调ChatDoctor模型

文章目录 ChatDoctor目标方法结果结论收集和准备医患对话数据集创建外部知识数据库具有知识大脑的自主聊天医生的开发模型培训结果数据和模型: 微调推理 ChatDoctor 目标 这项研究的主要目的是通过创建一个在医学建议中具有更高准确性的专业语言模型,来…

【毕业设计】基于SSM的运动用品商城的设计与实现

1.项目介绍 在这个日益数字化和信息化的时代,随着人们购物习惯的转变,传统的实体商店已经无法满足人们日益增长的在线购物需求。因此,基于SSM(Spring Spring MVC MyBatis)框架的运动用品商城项目应运而生&#xff0…

最原理的一集——Mathtype公式编号设置(Mathtype7.8+Word)

版本 Mathtype7.8Office2019 Word 读完本文你将会 随心所欲,想怎么给公式编号就怎么给公式编号,想从(X.1)开始,就从(X.1)开始大概了解Mathtype公式设置原理给作者点赞 如果你想自己跟着文章做的话 请不要在自己的论文里边直接操作&#…

【6D位姿估计】数据集汇总 BOP

前言 BOP是6D位姿估计基准,汇总整理了多个数据集,还举行挑战赛,相关报告被CVPR2024接受和认可。 它提供3D物体模型和RGB-D图像,其中标注信息包括6D位姿、2D边界框和2D蒙版等。 包含数据集:LM 、LM-O 、T-LESS 、IT…

Python数据清洗与可视化实践:国际旅游收入数据分析

文章目录 概要整体流程名词解释NumPyPandasMatplotlibre 技术细节数据清洗可视化 小结 概要 在本篇博客中,我们将通过一个实际的案例,演示如何使用Python进行数据清洗和可视化,以分析国际旅游收入数据。我们将使用Python中的Pandas库来进行数…

磐石云最版本使用教程

磐石云外呼系统是一款集成了呼叫平台、电话线路和话术系统的软件,旨在提高企业的电话营销效率。以下是磐石云外呼系统的基本操作步骤: 安装和配置: 首先需要在Linux操作系统上安装磐石云外呼系统,通常需要至少4核CPU、8GB内存以及…

软件设计师-应用技术-数据库设计题2

基础知识及技巧: 1. 数据库设计过程: 四个阶段:需求分析、概念结构设计、逻辑结构设计、物理设计。每个阶段的产物: 需求分析:数据流图、数据字典、需求说明书。概念结构设计:ER模型逻辑机构设计&#xf…

设计模式之传输对象模式

在编程江湖里,有一种模式,它如同数据的“特快专递”,穿梭于系统间,保证信息的快速准确送达,它就是——传输对象模式(Data Transfer Object, DTO)。这不仅仅是数据的搬运工,更是提升系…

设置定位坐标+请按任意键继续

设置定位坐标 目的 在编程和游戏开发中,设置定位坐标的目的是为了确定对象在屏幕或游戏世界中的具体位置。坐标通常由一对数值表示,例如 (x, y),其中 x 表示水平位置,y 表示垂直位置。设置定位坐标的目的包括: 1. **精…

如何快速掌握DDT数据驱动测试?

前言 网盗概念相同的测试脚本使用不同的测试数据来执行,测试数据和测试行为完全分离, 这样的测试脚本设计模式称为数据驱动。(网盗结束)当我们测试某个网站的登录功能时,我们往往会使用不同的用户名和密码来验证登录模块对系统的影响&#x…

软考之零碎片段记录(二十九)+复习巩固(十七、十八)

学习 1. 后缀式(逆波兰式) 2. c/c语言编译 类型检查是语义分析 词法分析。分析单词。如单词的字符拼写等语法分析。分析句子。如标点符号、括号位置等语言上的错误语义分析。分析运算符、运算对象类型是否合法 3. java语言特质 即时编译堆空间分配j…

引领智算变革,九章云极DataCanvas公司激活油气行业新质生产力

近日,“2024中国石油石化企业信息技术交流大会暨油气产业数字化转型高峰论坛”在京成功举办,九章云极DataCanvas公司携“油气行业AI智算服务全栈解决方案”震撼亮相,为油气行业数智化转型和新质生产力发展提供领先的技术视角和前瞻实战经验分…