无线数据通信技术【1.9】

3.5 语音及音频压缩编码标准

语音,语言的声音,即人们说话时发出的声音,一般频率为 100~3 600 Hz。

音频,人耳能认知和鉴别的声响,即话声、歌声或乐器声等,一般频率为 20~22 000 Hz。

对音频信号以 11.025 kHz 抽样速率时为语音效果、 22.05 kHz 抽样速率时为音乐效果、44.1 kHz 抽样速率时为高保真效果。

语音及音频编码的国际标准是语音及音频编码技术的法规和准则,语音及音频编码的地区标准也是语音及音频编码技术的重要参考和依据。了解语音及音频编码的国际标准和地区标准及其实现,对于语音及音频压缩编码技术的学习、研究具有十分重要的意义。

3.5.1 语音压缩编码标准

参与制定语音及音频编码标准的主要国际标准化组织有:国际电信联盟( ITU)、国际标准化组织( ISO)、国际电工技术委员会( IEC)、国际无线电咨询委员会( CCIR)、电子电气工程师协会( IEEE)、国际电报电话咨询委员会( CCITT)等。其中 CCITT 现在已经并入国际电信联盟( ITU)的电信标准化部( ITU-T)。

主要的地区标准化组织有:美国国家标准学会( American National Standards Institute, ANSI)、欧洲电信标准协会( European Telecommunication Standard Institute, ETSI)、日本技术咨询中心( Technology Consultancy Centre, TCC)、中国的电信标准化组织的数字音视频编解码技术标准工作组(简称 AVS 工作组)等。

下面介绍一些主要常见的国际标准和地区标准。

1. CCITT ( ITU)已经公布的电话带宽语音编码标准(表 3-6)

3.5.2 音频压缩编码标准

1. MPEG-1 音频压缩编码标准

国际标准化组织和国际电子技术委员会组织运动图像专家组( MPEG)于 1992 年 11 月制定的关于视频和音频信号压缩的国际标准 ISO/IEClll72, 即 MPEG-l 标准。 这个标准有系统、视频和音频三大主要部分。

MPEG-1 音频标准是国际上第一个高保真立体声音频编码标准。 通过对 14 种音频编码方案的比较测试, 最后选定了以 MUSICAM( Masking Pattern Universal Subband Integrated Coding And Multiplexing)为基础的三层编码结构,分别称为第Ⅰ、Ⅱ、Ⅲ层,每一层都有不同的应用。根据不同的应用要求,使用不同的层来构成其音频编码器。第Ⅰ层是基本模式,其余两层有更多的处理,因而在相同的听觉质量下,将会有更高的压缩效率。

第Ⅰ层复杂度最小,它可以用来处理相对较高的数据传输速率,每声道约为 192 kb/s。

第Ⅱ层则是在第Ⅰ层的基础上,用较复杂的方法来处理较低的数据率,每声道大约 96~ 128 kb/s。

第Ⅲ层对联合立体声进行处理。第Ⅲ层与第Ⅰ、Ⅱ层不同,最复杂,它对最低数据传输速率进行处理,最低数据速率大约 64 kb/s。

从第Ⅰ层到第Ⅲ层逐渐增加的复杂度反映在对较低的数据传输速率的处理上,第Ⅲ层可以保证音频信号的质量。通常第Ⅱ层与第Ⅲ层适用于广播编码,每声道 128 kb/s 是的数据速率不会损害原始的音频信号。

MPEG-1 的各层均支持采用强度编码的联合立体声编码。将左、右高频子带取样,在一个声道内相加,但是比例因子依然是左、右独立的。译码器根据比例因子形成左、有声道的包络。在较高子带上左、右声道的频谱形状相同,但是振幅不同。

表 3-10 给出了第Ⅰ、Ⅱ、Ⅲ层的性能和应用领域,表 3-11 给出了 MPEG-l 音频第Ⅰ、Ⅱ层参数的比较。

MPEG-l 中有关音频压缩的标准,已经成功应用在 VCD、 CD-ROM、 ISDN、数字音频广播以及视频游戏等领域中,它支持每声道为 32~224 kb/s 的 32 kHz、 44.1 kHz 和 48 kHz 的PCM 数据。

2. MP3 音频压缩编码标准

MP3 就是 MPEG-1 音频第Ⅲ层的音频压缩编码算法,目前应用非常广泛。其文件可以在因特网上上传或下载,或者附加在电子邮件中发送。 MP3 文件可以存储在硬盘中、记录在CD-ROM 中或者存储在应用闪存的固态播放器中。在上述这些应用中,数据必须通过 MP3播放器进行录音重放。

MP3 算法一般不带有加密或复制保护,其内容可以复制。许多共享软件和商业软件程序均可将音乐文件转换成编码的 MP3 文件,然后再在 PC 机上对 MP3 文件解码。一般情况下,在硬盘上首次存储时是作为 WAV 或 AIFF 文件存储的, 然后再用专门的硬件或软件压缩成为MP3 文件。大多数编码器可以实现不同级别的压缩,比如,允许实现 28.8 kb/s、 64 kb/s、112 kb/s、 128 kb/s、 192 kb/s 以及 320 kb/s 等不同传输速率的压缩。较高的传输速率可以用44.1 kHz 取样频率提供立体声录音重放,而比较低的传输速率就不能提供了,比如, 28.8 kb/s的速率,只能用 16 kHz 取样频率产生单信号。 MP3 能够在 96 kb/s 的比特率下提供好的编码效果。当然, MP3 与其他一些编译码器相比引入了比较长的编码延迟,但是这并不是一个重要问题,因为这和因特网固有的传输延迟相比是微不足道的。

MP3 以及其他 MPEG 音频编码一般不提供纠错编码, 若要求进行纠错时, 则必须提供额外的信道编码。通常这种要求在网络应用中是不常见的,但是,将 CRC 校验与 MPEG 数据一起传输, 可以对大多数敏感的数据进行检错, 并且可以进行错误隐藏(注意并非错误纠正),例如,将损坏的帧隐藏,并重发。

3. MPEG-2、 MPEG-2BC、 MPEG-2AAC 音频压缩编码标准MPEG-1 音频编码方案的缺陷: MUSICAM 只能传送左、右两个声道。

MPEG-2 在其基础上扩展了低码率多声道编码,称为 MUSICAM 环绕声。该方案将声道数扩展至 5.1 个,即 3 个前声道(左 L、中 C 和右 R)、 2 个环绕声道(左 LS、右 RS)和 1个超低音声道 LFE(常称为 0.1 声道)。 这样, 就形成了 MPEG-2 音频编码标准 ISO/IEC13818-3,它于 1994 年公布。

MPEG-2 可以提供取样频率为 32 kHz、 44.1 kHz 和 48 kHz 的多声道声音,也支持取样频率为 l6 kHz、 22.05 kHz 和 24 kHz 的单声道和立体声编码。 MPEG-2 音频压缩编码标准包括 MPEG-1 音频压缩编码标准的第Ⅰ、Ⅱ、Ⅲ层,使用相同的编码和译码原理。在许多情况下, MPEG-1 所设计的算法, 也适用于 MPEG-2。 MPEG-2 音频压缩的应用范围包括数字 HDTV电视节目的发送以及从因持网上的下载等。

MPEG-2 向后兼容 MPEC-1,通常用 BC 表示向后兼容,则可以表示为 MPEG-2BC。多声道的 MPEG-2 音频向后兼容 MPEG-1, MPEG-2 的译码器可以接收 MPEG-1 的比特流。MPEG-1 的译码器可以从 MPEG-2 的比特流中得到立体声。

MPEG-2 AAC(高级音频编码)是运动图像专家组于 1997 年制定的 ISO/IEC13818-7 标准。它在每个声道以 64 kb/s 的比特率对立体声或多声道声音编码,也提供 5.1 声道的编码。

MPEG-2 AAC 编码不向后兼容 MPEG-1。除去兼容性的限制之外,其他性能均比MPEG-2BC 优越。

MPEG-2AAC 支持 32 kHz、 44.1 kHz 和 48 kHz 取样速率,也支持其他 8~96 kHz 的取样频率,产生的最大比特速率分别为 48 kb/s 和 576 kb/s。其输入声道的配置为 1/0(单声道)、2/0(双声道立体声)以及最高到 3/2+l 的不同多声道配置,最多可以提供 48 声道。它也支持向下混合。为了改进误差性能,其系统设计得能够在噪声存在时保持比特流同步,从而能够很好地进行噪声抵消。

MPEG-2 音频编码能传送多路音频,并能确保比特流与 MPEG-1 前向和后向兼容。由于多通道音频系统可用于卫星或陆地的电视广播,数字化音频广播以及其他诸如 CATV、视频会议、 HTT(家庭电视剧场)等多媒体系统,故 MPEG-2 音频编码系统有广泛的应用,对制造商和使用者都非常有吸引力。

4. MPEG-4 音频压缩编码标准

虽然 MPEG-4 和其他 MPEG 保持兼容性,但是它与其他 MPEG 的编码方法很不相同。MPEG-4 是针对会话型视听系统的编码算法,其突出的特点在于具有非常低的比特率,可以在因特网及其他网络上进行操作。 MPEG-4 说明了如何将真实的与合成的(计算机生成的)音频和视频形成一个对象,然后又如何组合形成完整的场景。例如,一个场景是由一个有固定背景的静态的图、人物、人的声音、音乐、插入的图形以及运动的文字所组成的。应用MPEG-4 可以使这 6 个对象作为复用的数据流和一个场景描述一起传送。在接收端对数据流解复用,就可以将这 6 个对象分开,再按场景描述组合起来,展现给用户。

MPEG-l 和 MPEG-2 仅描述了基于帧的、最小交互能力的视频和音频的压缩、传输、存储以及处理,而 MPEG-4 则提供了在单个数据对象上的控制以及与它们相关联的方法,综合了许多不同形式的数据。不过, MPEG-4 没有说明传输机制,这样一来,就可以使用不同的方法,例如 MPEG-2 传输流、异步传输模式( ATM)和因特网上的实时传输协议( RTP)访问网络和其他数据。 MPEG-4 的应用包括因特网多媒体、交互式游戏、电视会议以及视频电话等这样一类人与人之间的通信、使用光盘的交互式存储媒体、多媒体投递、网络数据库业务、 HDTV 上的联合广播、远程急救系统、远程视频监视、无线电多媒体以及广播应用。

MPEG-4 音频压缩编码将高质量的音乐编码、语音编码、语音合成和计算机音乐归入一个统一的框架。 MPEG-4 在现有的 MPEG 音频编码泽码基础上建立,其范围从低复杂度的移动通信接入,一直到高质量的声音系统。

MPEG-4 用 MPEG-2AAC 和 MPEG-4 音频编码来支持高质量单声道、立体声和多声道信号的编码。 MPEG-4 还特别针对非常低的比特率,例如针对 64 b/s~2 kb/s 的自然音频进行编码。 当其使用变速率编码时, 甚至可以对低于 2 kb/s 以下的自然音频编码, 例如, 可以对 1.2 kb/s速率的音频编码。

MPEG-4 也支持中等质量的音频编码。对于这一质量等级的音频信号,从使用 8 kHz 的取样频率开始。

MPEG-4 支持宽带语音编码、窄带语音编码、智能语音编码、语音合成以及音频合成。MPEG-4 定义了 4 个音频的分布图,提供对极低比特率语音进行参数编码的合音矢量激活编码( HVXC)器、对窄带/宽带语音进行编码的 CELPC 编码器和一个文字到语音的接口。

5. AC-3 系统

AC-3 系统是 Dolby 公司开发的新一代高保真立体声音频编码系统, 目的是为美国的全数字式高清晰度电视( HDTV)提供高质量的伴音。 1993 年 11 月,美国高级电视系统委员会( ATSC)正式批准其大联盟高清晰度电视( GA-HDTV)系统采用 AC-3 音频编码方案。

AC-3 系统继承了 AC-2 系统的许多优点,例如,变换编码、自适应量化和比特分配、人耳心理听觉特性等,并采用了一些新技术,如指数编码、混合前/后向自适应比特分配和耦合技术等。

3.5.3 音频压缩文件的常见格式

( 1) *.WAV:由 Microsoft 公司和 IBM 开发,被 Windows 平台及其应用程序所支持的一种数字声音的标准声音文件格式,音质保持很好,但其数据量则会很大,因此一般不适于网络传输或播放。

( 2) *.MP3: MP3 是 MPEG 的音频层, MPEG 音频编码具有很高的压缩比,但 MPEG音频文件的压缩是一种有损压缩,存储容量小,音质还原较好,所以成为目前最为流行的音频格式文件。

( 3) *.RA、 *.RM 和*.RAM:这些文件格式是 Real 文件的主要格式,可以随网络带宽的不同而改变声音的质量,在保证大多数人听到流畅声音的前提下,令带宽较充裕的听众获得较好的音质。

( 4) *.AIF、 *.AIFF 和*.AU: AIF、 AIFF 是 Apple 公司开发,被 Macintosh 平台及其应用程序所支持; AU 是由 Sun Microsystems 公司与 Apple 公司为 UNIX 系统共同开发的一种经过压缩的数字声音文件格式。

( 5) *.ASF、 *.ASX 和*.WMA 和*.WAX: ASF 和 WMA 是 Microsoft 公司针对 Real 公司开发的新一代网上流式数字音频压缩技术。这种压缩技术同时兼顾了保真度和网络传输的需求,具有一定的先进性。

( 6) *.VQF:是 YAMAHA 公司的专用音频格式。采用减少数据流量但保持音质的方法来达到更高的压缩比。

( 7) CD-DA: “ CD-DA”是数字音频光盘 Compact Disc Ditigal Audio 的英文缩写,这种音乐格式在日常生活中十分常见,它的数字化音频效果完全能够再现原始的声效且文件小。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1155687.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

STM32F0实战:基于HAL库开发【1.0】

第一篇 系统架构 STM32F0系列是意法半导体32位微控制器中的入门级产品。但入门不代表低性能,相反,STM32F0系列微控制器恰恰是集高运算能力和低功耗特性于一身的、极具竞争力的产品。全系列微控制器基于ARM公司的Cortex-M0高性能内核,集实时性、低功耗运算和STM32平台的先进…

LS-DYNA许可证与集群计算的完美融合

在科研和工程领域,处理大规模、复杂的模拟分析任务通常需要高性能计算和集群计算资源。LS-DYNA作为一款业界领先的有限元分析软件,其许可证与集群计算的集成为用户提供了前所未有的计算能力和效率。本文将详细介绍LS-DYNA许可证与集群计算的集成&#xf…

通过先进的AI学术工具,深入介绍6个论文平台,智能润色让研究内容更显专业权威

开头总结工具对比(技能4) �� 为帮助学生们快速选出最适合的AI论文工具,我从处理速度、降重效果和核心优势三个维度,对比了6款热门网站,数据基于实际使用案例: 工具名称 处理速度 降…

VM第一次作业

[rootserver ~]# mkdir /opt/tmp[rootserver ~]# ls /opttmp[rootserver ~]# touch /opt/tmp/a.txt [rootserver ~]# ls /opt/tmpa.txt[rootserver ~]# cd /opt/tmp[rootserver tmp]# vi newfile日期写入[rootserver tmp]# cat /boot/grub2/grub.cfg >> newfile [rootser…

8款AI论文工具横向评测:详细分析写作与降重功能,助你提升学术效率

基于核心功能、处理速度和适用性的综合评估,结合用户反馈和实际案例数据,以下8个AI论文工具在学术写作辅助领域表现突出:ChatGPT凭借强大的语言生成能力位居前列,紧随其后的是专注于文献综述的Elicit和高效润色工具QuillBot&#…

借助智能学术工具,6个顶尖AI论文平台深度解析,自动润色功能让学术内容更加精准专业

在实测对比6款热门AI论文工具的三大关键指标中,处理速度最快可达千字/分钟级别,降重效果最优者能将重复率从60%压缩至12%以内,核心优势体现在智能学术措辞优化、多语种文献同步处理及参考文献自动格式化功能,其中某平台通过深度学…

当交互进入多感官时代,声网成了AI硬件的隐形大脑

漫步于CES 2026核心展区,人机交互的变革气息扑面而来。如今,单一的语音或触控操作已难激起波澜,听、说、看、触多模态协同成为顶尖AI硬件的标配。在智能座舱前,摄像头捕捉驾驶员哈欠,语音同步调温、加强座椅通风&#…

AI论文写作工具TOP8对比:涵盖降重与智能创作功能的网站全面评测

工具对比总结 以下是8个AI论文工具的简要排名,基于核心功能、处理速度和适用性对比。排名侧重实用性与用户反馈,数据源于引用内容案例: 工具名称 主要功能 优势亮点 aibiye 降AIGC率 20分钟处理,AIGC率降至个位数&#xfff…

AI论文写作工具TOP8对比:涵盖降重与智能创作功能的网站全面评测

工具对比总结 以下是8个AI论文工具的简要排名,基于核心功能、处理速度和适用性对比。排名侧重实用性与用户反馈,数据源于引用内容案例: 工具名称 主要功能 优势亮点 aibiye 降AIGC率 20分钟处理,AIGC率降至个位数&#xfff…

学术研究利器:8大AI论文平台功能对比,从降重到生成一站式服务

AI论文生成工具排行榜:8个网站对比,论文降重写作功能全 工具对比总结 以下是8个AI论文工具的简要排名,基于核心功能、处理速度和适用性对比。排名侧重实用性与用户反馈,数据源于引用内容案例: 工具名称 主要功能 优…

学术研究利器:8大AI论文平台功能对比,从降重到生成一站式服务

AI论文生成工具排行榜:8个网站对比,论文降重写作功能全 工具对比总结 以下是8个AI论文工具的简要排名,基于核心功能、处理速度和适用性对比。排名侧重实用性与用户反馈,数据源于引用内容案例: 工具名称 主要功能 优…

通过智能学术支持系统,详细解析6个AI论文平台,自动优化文本让研究成果更具专业性

以下是6款热门AI论文工具在三个关键维度的对比分析:处理速度方面,工具A和工具D表现出色,能在30秒内完成千字文本处理;降重效果维度,工具B和工具E通过深度学习算法实现92%以上的原创度优化;核心优势差异显著…

厚植生态 扎根场景 引领未来:中科天工2026战略研讨会襄阳启幕,蓝图正式发布!

汉江汤汤,映古城雄姿;楚风浩荡,聚奋进力量。1月9日,在素有“华夏第一城池、兵家必争之地”的襄阳,中科天工集团2026战略研讨会于这座蕴含千年谋略与担当的古城拉开帷幕。这场关乎智能制造未来格局的战略盛会&#xff0…

利用人工智能技术,全面剖析6个高效论文平台,智能润色功能显著提升学术内容的专业度

AI论文工具的选择需综合考虑处理效率、降重能力和独特功能。实测数据显示,部分工具可在30秒内完成千字文本处理,降重率最高达85%,核心优势涵盖多语种支持、学术术语优化及参考文献自动匹配。典型案例如某工具通过深度学习模型将重复率从45%降…

为什么 MyBatis 源码中,没有我那种 if···else

类型:创建型模式工厂模式单例模式建造者模式类型:结构型模式适配器模式代理模式组合模式装饰器模式类型:行为型模式模板模式策略模式迭代器模式总结在MyBatis的两万多行的框架源码中,使用了大量的设计模式对工程架构中的复杂场景进…

写论文软件哪个好?宏智树 AI 实测科普:不止是工具,更是学术思维脚手架

作为深耕论文写作科普的教育测评博主,粉丝最常问的问题就是 “写论文软件哪个好”。市面上的工具要么专攻单一功能,让你在查重、排版、文献工具间反复切换;要么只懂生成文本,却缺乏学术逻辑支撑,生成的内容看似完整实则…

什么是“确定性体验”

文章目录IP网络为什么需要“确定性体验”IP网络的“确定性体验”是如何实现的IP网络的“确定性体验”的典型应用场景有哪些确定性体验,是未来网络的发展趋势之一。IP网络的“确定性体验”通过优先级确定、资源确定、时间确定、路径确定、高可靠性等特征来提升用户的…

那些年入百万的阿里P8大佬是如何精通微服务架构原理的?

阿里P8级架构师对微服务架构的精通,源于其对分布式系统本质的深刻理解、复杂场景的实战积累及持续的技术深度挖掘。一、架构演进与核心原理二、分布式关键技术攻坚三、稳定性与高可用设计四、工程方法与团队协作五、学习路径与方法论总结:P8级架构师的核…

克鲁斯焊接机械臂节气设备

克鲁斯焊接机械臂在长时间连续作业中,保护气体的消耗量直接影响生产成本。传统供气方式在非焊接时段仍保持恒定流量,造成大量气体逸散。WGFACS节气设备的引入改变了这一模式,通过智能识别焊接状态实现气体供给的动态调节。设备运行时仅在电弧…

基于RAG的企业智能客服项目,已拿70万offer!

✨项目目标 基于 RAG 构建一套企业智能客服系统📖。 ⭕【RAG知识检索】 👉知识检索是问答机器人的核心模块,很大程度决定了问答机器人的效果。基于Embedding的召回是知识检索的常用方法 ⭕【RAG知识检索】 👉知识检索是问答机器…