网站分辨率自适应代码佛山企业网站seo
web/
2025/10/6 1:06:10/
文章来源:
网站分辨率自适应代码,佛山企业网站seo,张家港网站开发,wordpress 显示备案信息音频编程时游戏开发中最容易忽略#xff0c;学习资源又是很少的环节。接下来#xff0c;你将和我探索人耳的工作机制。 what is sound? 我们可以解释电视机是如何通过眼睛传递视觉信息的#xff0c;但却往往无法对听觉信息做出类似的解释。 对声音的科学研究被称为声学学习资源又是很少的环节。接下来你将和我探索人耳的工作机制。 what is sound? 我们可以解释电视机是如何通过眼睛传递视觉信息的但却往往无法对听觉信息做出类似的解释。 对声音的科学研究被称为声学美国国家标准学会将其定义为 关于声音的科学包括对声音的产生传播和影响。生物和心理影响。大多数与人类相关的声音物理特性都可以通过声波方程模拟为弹性介质中的波。但也有一些有趣的例外情况如长号和超音速飞机这两种飞机对空气的压缩足以产生显著的非线性。
与所有波现象一样声音可以通过衍射、干涉、反射和折射等方式相互作用。考虑到声速约 340 米/秒和人类能听到的频率稍后详述墙壁、椅子和杯子等日常物品都能产生所有这些相互作用。这些相互作用的数量和复杂性使得精确模拟音频传输比模拟人类感知频率的光更为困难。 全面解释物理声学远远超出了本章的范围。 但我将为有兴趣了解更多信息的读者提供一段历史和参考资料。 对声音物理学的最早书面探索可以追溯到希腊人。毕达哥拉斯和亚里士多德都花了大量时间从物理和音乐的角度研究和撰写有关振动弦性质的文章。文艺复兴为我们对声音物理学的理解带来了许多进步。物理声学的现代参考书目有《物理声学基础》和《理论声学》。 直到十九世纪亥姆霍兹等人的著作《论音调感觉作为音乐理论的生理基础》才出版了第一部将声音作为一种生理和心理现象进行研究的详尽著作。二十世纪人们对耳朵的功能和大脑对声音的感知有了极大的了解。这一研究领域被称为心理声学它直接造就了现代科技的奇迹如 mpeg 音频压缩和当今令人惊叹的助听器。 声学中最重要的一个概念就是频率。频率的定义是重复现象在一定周期内重复的次数在音频中频率的单位是赫兹用来衡量每秒的重复次数。频率之所以特别有用是因为任何带限信号都可以通过傅立叶变换分解为一定数量的纯音正弦波。在分析或修改信号时将信号视为可线性分离的简单部分的有限总和而不是复杂的整体是非常有用的。您的听觉也是这样认为的耳朵最重要的行为就是分离频率。 How Do We Hear Audio? 声音无处不在。无论我们走到哪里都会被振动的空气所包围。这些声波与我们的头部和耳廓耳朵从头部伸出的部分相互作用并被导入耳道。在耳道中电波会使鼓膜一层薄薄的膜产生与空气压力成比例的位移。这层膜将压力振动传导到一组骨骼这些骨骼就像杠杆一样将振动传递并放大到耳蜗。 耳蜗是一个复杂的器官是一个自适应降噪压频探测器。它的外形是一个卷起的圆锥体内部的毛细胞沿长度方向排列。耳蜗的尺寸就像一种滤波器在锥体上的每一点都有不同的频率响应。这种频率响应差异导致耳蜗长度方向上每一点的振动都不同音调映射。沿着耳蜗长度方向存在着成千上万个毛细胞它们通过将振动传导到毛囊来充当信号检测器从而将物理振动转换成神经系统中的电脉冲。这些信号在耳蜗和大脑中经过处理形成我们对声音的感知。图 显示了人耳各部分的示意图。 《听觉心理学导论》是一本关于这一主题的极好的入门参考书它以更深的深度涵盖了本节中介绍的大部分内容。我认为无论是否从事音频技术工作这本书都是必读书。更深入的书籍是同名的《心理声学》。
Dynamic Range
我们的听力有一个惊人的事实那就是耳朵的动态范围。人类听力的范围约为 120 分贝dB。分贝是一个对数单位用来表示两个数值的比值。当用于测量声压级时比率中的参考电平是人类能听到的最安静的声音。耳朵实现这一目标的主要方式是通过骨头将信号从鼓膜传输到耳蜗。它们能够动态地重新配置根据传入的信号实时调整增益。 Spatial Hearing空间听力 人类能够辨别声音的方向主要是由于头部和耳朵的几何形状。大脑用于辨别方向的两个物理线索是耳际时差ITD和头部相关传递函数HRTF。 声音的移动速度很慢以至于你的大脑可以测量出声音波到达一侧耳朵与到达另一侧耳朵之间的时间延迟。 声音波到达一侧耳朵与到达另一侧耳朵之间的时间差。这个时间差称为 ITD。如果声音在人的正前方延迟时间为零因为声波会同时击中两只耳朵。当声音向一侧移动时这一延迟会随着声音到两耳距离的变化而变化。这是大脑对声音相对于头部前方的角度的主要提示。 头部和耳廓的结构就像一个滤波器可根据信号的角度改变频率响应。例如如果声音通过耳廓传播高频率的功率就会减弱。我们可以通过为每只耳朵定义一个滤波器来模拟这些效果该滤波器的频率响应因声音与耳朵的入射角度不同而不同。这种基于角度的滤波器就是 HRTF。大脑通过分析信号的频率响应来推断方向信息。这是一种学习行为因为每个人耳朵的具体形状会影响 HRTF因此不同个体的 HRTF 会有很大差异。 提供给大脑的信息不足以让大脑分辨出所有传入声音的角度。这种模糊性形成了一个锥形被恰当地称为 混淆锥。大脑会利用其他感官的输入例如将声源与视觉输入相匹配和上下文知识例如直升机很少在人的脚下来帮助缩小声音的实际方向。 《 Spatial Hearing 》一书对此进行了详尽的评述。 Reflections 我们周围的环境主要通过反射与我们的声音环境相互作用。当声波与表面相互作用时表面会反射声波。在频率较高、表面光滑的情况下反射的原理与镜面反射很相似。反射包含大量有关周围环境的信息。反射的结构是大脑了解听者与声音之间距离的主要线索。它还能让我们估计周围环境的大小。 反射还会干扰更重要的信号因此耳朵会忽略某些反射。当一个声音后面紧跟着另一个声音时大脑只会使用第一个声音来判断声音的方向。这就是所谓的 优先效应。
Time and Sensory Fusion (时间与感官的融合) 人类对时间的感知是非直觉性的。例如有文献记载一个刺激会改变对先前接收到的刺激的感知这显然违反了我们的因果关系概念。在所谓的 感觉融合 方面已经进行了大量有趣且与游戏极其相关的研究。这是一项关于两个刺激需要接近到什么程度大脑才会认为它们是同一物理原因的一部分的研究。例如两个音频脉冲的距离有多近大脑仍能将它们区分为不同的声音约 5 毫秒声音与某人说话的视频在时间上的距离有多远听者才会不再将声音和音频视为一体唇音同步。这个特殊的例子显示了心理声学中常见的复杂性因为唇音同步的时间并不对称。如果音频领先于视觉而不是相反您就会发现同步偏离的时间间隔要短得多。不同人群的灌注感差异很大最准确和最不准确的人之间可能相差五倍之多。音乐家和其他受过正规音频训练的人往往比普通人的阈值低得多。我过于简化的唇音同步经验法则是将音频保持在视频的 50 毫秒以内。音频轶事》中 可感知的听觉延迟 一章 数字音频的工具、技巧和技术》11 中的 可感知的听觉延迟 一章对与感觉融合有关的研究进行了出色的概述任何从事交互式音频工作的人都应该熟悉这些研究。 Frequency 听觉的第一近似值是窗口时间频率转换器。窗口式的意思是它只关注一小部分时间。耳朵可以精确地检测到大约 20 赫兹到最多 20 千赫兹的频率。间距类似于指数因此耳朵的精确度以赫兹为单位会随着音调的增加而降低。为了更接近耳朵的音高空间人们开发了许多单位如 Mel、Bark 和 ERB。
Masking 我们听觉最引人注目的能力之一就是能够根据同一信号的时频内容过滤掉信号中的频率内容。概括地说就是响亮的声音会让较安静的声音听不见。具体细节相当复杂超出了本文的讨论范围。掩蔽模型是有损音频压缩算法如 mpeg用来减少存储音频信息量的方法因为耳朵会移除的任何信号都无需保留在压缩音频中。 为了说明这种复杂性的特点我将举两个掩蔽行为的例子。首先较小的宽带声音可以掩盖较大的纯音声音频率掩蔽。这在游戏中很常见因为枪声和爆炸声是非常常见的声音。这些声音的频带极宽这意味着它们在几乎所有可感知的频率上都有威力。正因为如此它们能非常有效地掩盖局部频率较高的声音。根据我的经验一种几乎听不见的宽带声音通常是爆炸声会导致其他各种声音变得听不见这种情况很常见。仅仅移除大的爆炸噪音就会使其他声音变得嘈杂而且由于其他声音不再被掩盖往往会使整个场景显得更加响亮。 另一个例子是一个声音在另一个声音之后出现会导致在时间上先出现的声音听不见时间掩蔽。在 100 毫秒左右的感知中因果关系是一个模糊的量。
HOW IS AUDIO REPRESENTED,PROCESSED, AND REPRODUCED?音频是如何表现、处理和再现的 一维物理属性可以用来表示某一时刻的空气压力。如果该属性随时间变化它可以表示音频。常见的例子包括电压最常见的模拟信号、电流动态麦克风、光透射率胶片、磁定向磁带和物理位移唱片。所选的属性随时间变化以表示随时间变化的压力。在存储介质中时间通常用长度来表示磁带、光学、唱片。在许多声音模拟中时间是由时间本身来表示的例如通过电缆的电压。 大部分源音频都是通过麦克风录制的物理声音。麦克风将气压转化为其中一种压力模拟信号电压和电流是最常见的两种。扬声器将电流或电压几乎总是电流转换为气压。 在游戏中以及在所有数字音频处理中处理声音的通用表示法是脉冲编码调制或称 PCM。这种表示法由一串整数组成以等间隔的时间表示声压。 与所有近似方法一样数字表示法并不完美。由于我们是用固定大小的整数来捕捉连续量因此量化会造成信息损失。用于表示压力的整数的比特大小称为bit depth比特深度。最常用的位深度是 16 位。以固定速率采样也会造成信息损失但具体情况难以量化。 尼奎斯特-香农采样定理是了解采样如何影响信号的最有力工具之一。这一理论略显简单它指出对于带限信号需要以其最高频率的两倍以上的速率进行采样才能正确重建信号。奈奎斯特以上的高频成分会反射到采样信号带宽内的频率上这种现象被称为混叠。从音频角度来看混叠听起来很不自然一般应避免。 许多书籍中都有这方面的内容。我最喜欢的一本书是《 数字信号处理的理论与应用》。 几乎所有音频数字信号处理 (DSP) 都是通过对这些整数序列进行基本运算、-、∗来完成的。这也是一个涵盖广泛的巨大课题。我强烈推荐 Julius O. Smith III 的音频 DSP 系列丛书这套书既有在线版也有印刷版。
CONCLUSION 听觉是一种复杂的感觉有时并不直观。要想在视频游戏音频技术和艺术上取得成功就必须了解其特殊性。要掌握与游戏编程相关的音频知识需要具备物理学、心理学和信号处理等领域的大量知识。
1. American Standards Association. 1960. Acoustical terminology SI, 1–1960.New York: American Standards Association.
2. Blackstock, David T. 2000. Fundamentals of Physical Acoustics. New York: John Wiley Sons.
3. Morse, Philip McCord, and K. Uno Ingard. 1968. Theoretical Acoustics.Princeton: Princeton University Press.
4. Helmholtz, Hermann L.F., and Alexander J. Ellis. 2009. On the Sensations of Tone as a Physiological Basis for the Theory of Music. Cambridge: Cambridge University Press.
5. Smith, Julius O. 2007. Mathematics of the Discrete Fourier Transform (DFT): With Audio Applications. W3K.
6. Brockmann, Chittka L. A diagram of the anatomy of the human ear. https://commons.wikimedia.org/wiki/File:Anatomy_of_the_Human_Ear_en.svg licensed under Creative Commons Attribution 2.5 Generic license.
7. Moore, Brian C.J. 2012. An Introduction to the Psychology of Hearing. Leiden,The Netherlands: Brill.
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/87653.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!