空间听觉

在最理想的条件下，即使闭着眼睛，人类定位声源的精确度也可达到几度。这并不是一项轻松的事情。试想一下，如果你只能通过分析悉尼港中波纹和涟漪模式来确定所有船只、鱼群和游泳者等的位置，那将是多么艰巨的任务。即使你能够观察整个水域的波纹，也相当困难，但你的听觉系统仅通过分析双耳所在的两个空间位置的声波便可解决类似的问题。《Auditory Neuroscience》的第五章讨论了空间听觉、声源定位线索以及处理这些信息时涉及的神经机制。以下网页提供了额外的材料，以进一步探索空间听觉。

狐狸利用声源定位捕猎

这段来自BBC《Yellowstone》自然纪录片的小片段展示了一只狐狸利用其声源定位能力来捕捉隐藏在雪地下的猎物。

声源定位的声学线索

这个图显示了关于声源方向的声学线索。它是《Auditory Neuroscience》里Fig. 5-2的彩色版本，是基于威斯康星大学麦迪逊分校Doris Kistler教授 对我的耳朵进行声学录音获得的。

spatial cues

数据以球形地图的形式呈现，以我的头部为球心，颜色代码表示相应声源方向的方位角和仰角的双耳线索值。图A和B展示了以分贝（dB）为单位的双耳声级差（interaural level differences，ILD）。可见ILD高度依赖于频率，即高频（如接近11 kHz，图B）可以产生30 dB或更大的ILD，而低频（如接近700 Hz，图A）则产生远低于10 dB的ILD。

ILD的模式要比双耳时间差（Interaural time difference，ITD）的模式（如图C所示）更加不规则，这是因为ILDs还受到头部、外耳和肩膀的几何形状的显著影响。ITD几乎是围绕耳间轴球对称的，对频率的依赖性较低，ITD数值在头部一侧的位置时是最大的，且不超过约700微秒。

ITD和ILD都是定位声源的重要线索，但即使是单侧耳聋的听者有时也能在一定程度的准确地定位声音所在的空间位置。这些定位判断被认为是基于单耳的频谱线索（图D中显示了声源位于正前方，方位角为0度但仰角不同时的耳廓增益）。频谱线索产生的原因是外耳会基于声波入射角对声音进行滤波，从而在声音的高频段产生峰和谷的模式。

杰弗里斯模型——动画

Jeffress模型长期以来一直是解释哺乳动物的内侧上橄榄核（Medial Superior Olive，MSO）或鸟类的层状核（nucleus laminaris）如何提取双耳时间差用于声源定位的一种常用模型。Jeffress模型假设了一个“延迟线和重合检测器”的阵列，这在动画中进行了阐释。动画生动地传达了Jeffress模型的吸引力。由于系统性的延迟线阵列和对MSO神经元激活的精确同步要求，MSO的不同部分对特定方向的声音变得敏感。但请注意，这里展示的动画图在许多方面都是“生物学上的简化”，对解剖学和生理学进行了过度简化。关于Jeffress模型（如此处所示）是否真正描述了哺乳动物MSO的运作方式，正变得越来越有争议。
（注：视频没有声音）

致谢：这个视频来自威斯康星大学Tom Yin教授的实验室网页，Tom Yin教授是哺乳动物MSO生理学研究的先驱之一。

耳间距较大的双耳

声源定位在很大程度上依赖于耳间差异（即左右耳接收到的信号之间的差异），若两只耳朵位置相距较远，这些耳间差异会更大，使声源定位更容易。
通过人为方式增加耳间距，例如通过合适的管道，可以更容易确定声源方向。一个令人印象深刻的例子就是Oldenburg Hearing-Gardens的“听觉宝座”，如图所示：

Hearing throne

此外，如果耳朵在垂直方向上有所偏移，而非水平对齐，这可能有助于判断声源的高度。下面图片来自荷兰 Waalsdorp博物馆的收藏，展示了在尚未广泛应用雷达的时代，利用这一事实开发用于定位敌机的设备的尝试：

Big Ears 1 Big Ears 2

更多旨在改善空间听觉的设备示例，包括这个精巧的便携装置，可以在以下网站查询 http://www.damninteresting.com/can-you-hear-me-now

Portable Big Ears 2

双耳线索和线索交换——音频演示

本页有一些小动画，用于说明定位声源方向的两个主要双耳线索：双耳时间差（ Interaural Time Differences, ITDs）和双耳声级差（Interaural Level Differences, ILDs）。

你需要使用耳机听视频中的音轨。为了感知效果，你需要双耳听力良好。若你的一只耳朵有暂时性或永久性听力损失，这些演示对你来说可能无效（抱歉！）。如果你的耳机或计算机的声卡质量不好，它们也可能无法正常工作。许多笔记本电脑声卡在精确重现声音的某些时域特征时存在缺陷，这将导致这些演示无法正确工作。还要注意的是，很多无线蓝牙耳机也无法正确重现ITD，因此如果你使用无线耳机，演示中的ITD部分可能也无法正常工作。此外，如果你戴错了耳机（即本应连接到左耳的传感器连接到右耳），那么声音可能会从 "错误的一侧 "传来。

要观察什么

下面的演示展示并播放了 500 Hz 短纯音，这些短纯音要么仅有ITD的变化，或者仅有ILD的变化，或者ILD和ITD同时变化。

第一个演示仅显示ITD的变化，开始时左耳领先0.4毫秒，然后ITD以0.2毫秒的步长变化，直到右耳领先0.4毫秒，然后再变回来。如果演示正常工作，你将听到声源似乎从稍微偏左的位置移动到稍微偏右的位置。

仅ITD变化

第二个演示中，将ITD恒定为零，但改变ILD，使得左耳声音初始强度相较右耳高6 dB。然后，ILD以3 dB的步长向右移动，然后再返回。这些ILD在立体音乐中被利用，你可能不会惊讶于它们可以使声源听起来向左或向右移动，但你可能会觉得奇怪的是，改变ITD 或者改变ILD，尽管它们对声音的影响非常不同，但它们都能导致类似的声源位置感知变化。

仅ILD变化

当然，对于正常的自由场声源，ITD和ILD是共变的，即声音在距离较近的耳朵中既出现得更早，也会更强。因此，最自然的情况是第三个演示中的情况，即ITD和ILD同时变化。如果你的耳朵和我的一样，那么在这第三个示例中，移动声源的印象会更清晰、更有说服力，并且声源似乎在更广泛的范围内移动，比前两个示例更为明显。

ITD和ILD同时变化

通过耳机播放人为处理的声音时，我们还可以使ITD和ILD的线索相互矛盾，即声音可能在左耳出现较早，但在右耳更响。在存在这种矛盾线索的情况下，我们的大脑倾向于感知位于中线附近的“折中（compromise）”位置，这种现象被称为“线索交换（cue trading）”。这在第四个示例中进行了说明。在这个示例中，声源的移动范围应该比第三个示例小得多，可能也比第一和第二个示例小。

对ITD和ILD的权衡

个体对ITD的敏感度可能会有所不同，如果你对ITD的敏感度非常低，那么你可能听不到第一个示例中的任何声源移动效果，并且在第二到第四个示例中也不会有太大的差别。（然而，就像我在Acer Aspire 1810笔记本电脑上遇到的情况一样，也有可能是你计算机上的声卡或声音软件存在问题，所以无法准确地重现ITD）。相反，如果你对ITD非常敏感，你可能会发现第一个示例比第二个示例具有更强烈的声源移动效果。你对ITD的个体敏感度将影响你在第四个示例中所听到的移动程度及移动方向（如果有的话）。

ILD / ITD practical

以下是由Matthieu Lesburgueres和Jan Schnupp编写的Matlab源代码，你可以使用该程序运行心理声学实验，以测试你对ITD和ILD的敏感度。

点击此处下载Matlab源代码的压缩包。
将其解压到你选择的文件夹中。
启动Matlab并将Matlab的工作目录更改为你复制了压缩文件内容的文件夹。
戴上耳机，确保你的声卡音量不要设置得太大。
开始实验，请运行“Experiment.m”。

当你完成了上述步骤后，点击下面的“收集ILD数据”以获取接下来的操作说明。

收集ILD数据

当你启动Experiment.m时，你应该会看到一个类似于下图的窗口：

ITD-ILD-experiment main screen

在运行实验之前，我们需要检查电脑是否知道耳机的哪个声道对应哪只耳朵。戴上耳机，然后点击“Experiment”窗口右上方的“Test Headphone”按钮。你应该只能在一只耳朵（通常是右耳，但不一定）听到一个短的突发噪声。如果声音出现在左耳而不是右耳，请不要担心，只需确保右上方的按钮被设置成你听到声音的那一边便可。

现在你已经准备好运行实验了。在中间的框中输入你的姓名或昵称（这将用于标记数据文件名和图表），然后选择两个声音频率来测量你对双耳线索的敏感度。我们建议采用500 Hz和2000 Hz，这是较好的频率选择。

问题：你认为500 Hz和2000 Hz是低频还是高频？请记住，人类听觉系统的频率范围大约为50-16000 Hz，但频率大致以对数方式表示，即100-200 Hz的100 Hz频率跨度是一个八度，而8000 Hz-16000 Hz的8000 Hz频率跨度也同样是一个八度。

一旦你输入了姓名、频率1 和 频率2，请点击"ILD" 以启动实验的第一部分。请注意聆听，因为你点击"ILD"后不久，你将开始听到第一个声音。

然后会出现一个弹出窗口，如下所示：

ITD-ILD-experiment main screen

请指出你听到的最后一个声音是来自左侧还是右侧。请注意：许多声音听起来会非常接近中间，而其他声音则更明显位于左侧或右侧。因此，有时你可能会发现很难判断。在这些情况下，给出你的“最佳猜测”便可。当测试的ILD值变小时，你的最佳猜测有时可能会错误，这也是实验的一部分。

你可以通过单击"Left "或"Right "按钮，或按下电脑键盘上的左右箭头键来表示你的判断。当你已经判断完播放的最后一个声音后，软件将在短暂延迟后自动播放下一个声音，因此请继续聆听，直到完成所有的试验。软件将以随机顺序播放具有不同ILD的高或低的声音。请注意，就像一枚硬币有可能在连续5或6次掷硬币时出现正面朝上一样，你也可能听到连续左侧或右侧的声音。

我个人认为，将两个手指分别放在键盘的左、右箭头键上，闭上眼睛聆听，并连续快速进行实验是有帮助的。如果你是第一次做这个实验，你可先进行约20个试次的测试来适应程序，然后点击上方的""Cancel"" 来停止实验，然后再次点击主窗口上的 "ILD" 来重新开始实验。

一旦你觉得适应这个程序了，就可运行完整的试验。软件将自动生成本次实验中你的响应结果图。如何分析这些数据将在下一节中解释。

解读ILD数据

当你完成试验后，程序将为你生成一个结果图，它看起来应该差不多是这样的：

ILD results

如果做这些试验是属于教学课程的一部分，你应该考虑打印这些结果图表，以便在必要时向你的老师展示（图表左上方应该有一个"File | Print"菜单）。

图中的三角形或圆形符号表示你对x轴给定的ILD值响应为“右侧”的频率。实线连线是软件根据你的结果数据所拟合的"高斯累积"S型曲线。像这样的拟合曲线是通过获得的数据样本来估计出"潜在心理测量函数（underlying psychometric function）"（即描述你对特定感官参数变化的敏感性的函数）的好方法。

问题：在你获得的心理测量函数中，哪些ILD值与50%的“右侧”响应相关联？你预计哪个ILD值与50%“右侧”响应相关联？

心理测量曲线有助于确定你对ILD的敏感性。S型曲线的斜率越陡，需要产生“可察觉”差异的 ILD 变化就越小，即% right的变化越小。然而，人们很少用斜率值（%right/dB）来报告感觉表现。相反，他们倾向于报告“阈值（thresholds）”，即将%Right 判断从50％（完全随机猜测）提高到某个“阈值性能水平”所需的ILD变化。

练习：选择一个阈值水平（75%的正确率可能是一个不错的选择），并确定两个测试频率的相应ILD阈值。记下这些ILD阈值。

两个频率的阈值可能非常相似或稍有不同。你能感觉到它们是否具有“有意义的差别”吗？这个问题实际上有两个部分：1）差异是否“实质性”（在生理上显著），2）差异是否可能在统计上具有显著性？对于第一部分，没有通用的标准来确定何为差异显著，你需要根据自己的判断进行评估。但是，如果差异在统计上不显著，那么观察到的两个频率的阈值差异可能并不真实。

然而，要对这个问题的第二部分做出严谨地回答，需要进行适当的统计分析，例如某种类型的bootstrap检验。这种统计技术在某种程度上超出了本实践的范围。然而，如果你以以下方式思考这个问题，你可能会对此有一些直觉：你的“真实”心理测量函数将指定每个特定的ILD下你会报告声音来自右侧的概率。但是实验无法直接测量这个概率，只能根据在有限试次的试验中实际的右侧响应频率来估计它（这里每个ILD测试了约8次）。假设某个特定ILD的真实潜在概率是75％。那么测试该ILD有点像投掷一个有75％的概率在试验中“正面”朝上的有偏硬币。在仅有8次试验的短时间内，这样的有偏硬币可能只会产生50%的“正面”朝上结果。如果你仔细思考，你可能会意识到在这个非常短的实验中观察到的右侧响应频率只是对你真实心理测量函数的非常粗略的估计。你可能还好奇图上的虚线曲线代表什么，这些是拟合到你结果数据的心理测量函数的95%置信区间。拟合S型曲线的算法会意识到它所生成的S型曲线只是一个估计，而真实的潜在函数可能与该“最佳估计”相当不同。因此，当比较两个不同频率下获得的数据时，你可以自问上图中的数据点是否来自下图绘制的置信区间，或反之亦然。

问题：在这两个测试频率下，你认为你对ILD的敏感性是基本相似的，还是存在实质性差异？

评估ILD作为定位线索的作用

根据之前描述的方法，你现在应该已经获得了在两个不同测试频率下（如果你按照建议的值运行，频率为500和2000 Hz）自己的ILD敏感性的估计。对于两个频率，你的ILD阈值（以dB为单位）可能相似，也可能不相似。然而，ILD是声源方向的一种线索。声源方向并不是以dB来表示的！为了在空间中定位声音，大脑需要将ILD值转换为相对于耳间轴的角度。为了了解特定的ILD在检测声源方向与“正前方”（0度方位角）的变化方面有多有用，我们需要知道不同声音频率下不同声源方向通常所关联的ILD值。下图显示了以声源方向（方位角）为函数的ILD值，这些ILD值是在成年男性的耳道中插入小型麦克风进行测量得出的。图中绘制了多个频率和声源方向（方位角）下的ILD值。

plot of ILDs for various freqs

这张图比较复杂，但希望你能够注意到这些图在接近0度方位角的斜率在不同频率下是不同的。

在接近500 Hz的频率附近，斜率约为7.35度/dB，而在接近2000 Hz的频率附近，斜率更接近4度/dB。利用这些斜率值以及你先前估计的那些频率的ILD阈值，计算你估计的“最小可听角度（minimum audible angles, MAA）”，即与你先前估计的ILD阈值相对应的声源方向变化。然后记录下MAA的数值。

较小的MAA意味着空间定位能力更好还是更差？

你是在较高频率还是较低频率上获得了更小的MAA？

收集和解读ITD数据

一旦你收集、解释和评估了你的ILD数据，请返回软件的主界面，通过点击"ITD ”按钮收集ITD数据。

ITD button image .

软件将再次播放高频或低频的声音，并要求你通过鼠标点击或键盘上的方向键表明你听到的是左边还是右边。按照收集ILD数据时的相同步骤进行试验。注意：大多数人发现对于高频的ITD，很难判断其左右偏侧化。因此，你可能会听到大多数或所有的高频声音都非常接近中间，很难判断它们是在左侧还是右侧。如果你觉得这很困难，不要担心，这很正常。只需仔细听，尽力猜测即可。

完成实验后，软件将绘制你的结果数据，你可能会得到一个类似于这样的图形。

ITD results

如果你正在参加一门教学课程并进行这些练习，你应该考虑打印这些结果图表，以便在必要时向你的教师展示。

根据你在解释ILD数据时所使用的相同考虑因素，回答以下问题：

问题：对于每个测试频率，你的“ITD阈值”是多少？

问题：你认为你对这两个测试频率的ITD阈值是相似的，还是存在显著差异？

评估ITD的作用

与ILD不同，普遍认为ITD在不同频率下变化不大。下图显示了以声源方向（方位角）为函数的ITD值，这些值是通过在成年男性的耳道中插入小型麦克风进行测量得出的。

问题：利用下图来计算你获得的ITD阈值所对应的MAA是多少。这些MAA与你获得的ILD的MAA相比如何？

ITD function

Rayleigh正确吗？

根据Lord Rayleigh提出的声源定位的“双工理论”，大脑对低频声音主要依赖ITD，对高频声音主要依赖ILD。

最后一个问题：用你自己的话来说，你在这个实践中得到的结果是否与双工理论一致？

这个实践到此结束。

（请注意，这个实践是独立地分别改变ILD或ITD。在自然界中，它们通常是同时变化的，所以左侧声音更响的声音也倾向于更早到达左侧。那么大脑是如何将ITD和ILD结合起来的呢？如果你感兴趣，可以在下一页探索这个问题。）

时间-强度交换

请将鼠标移动到下面网格表上，听一听具有不同ILD和ITD的谐波复合音。

你应该戴上耳机听这些声音，如果你的一只耳朵有明显听力损失，或者你计算机的声卡质量较差，不能很好地分离两个立体声通道，那么此演示可能无法正常工作。还要注意，许多无线蓝牙耳机无法正确再现ITD，因此，如果你使用的是无线耳机，可能无法正常工作。

正值的ILD和ITD应该使声音听起来来自右侧。因此，网格表最右上方的声音应该听起来最右，网格表最左下方的声音听起来最左。（请确保你的耳机正确佩戴。）

这里要观察的有趣现象是，如果你从中间开始，可以通过将鼠标向上移动或向右移动来将声音移到右侧。你以两种非常不同的方式改变声音（一种是改变双耳间的时间差，另一种是改变相对声强），虽然操纵的性质非常不同，但它们产生相同的效果：声音听起来来自右侧。通过仔细聆听，你能否判断声音位置的变化是由时间还是强度线索的变化引起的？

None selected

另一个可以尝试的操作是：从中间开始，通过将鼠标向右移动来将声音移向右侧，然后向下移动鼠标。当你将鼠标向下移动时，声音应该会向中间移动，因为此时时间差和声强差指向相反的方向，你的大脑会将声音感知为在两者之间的某个折中位置。

双耳拍音 - 声音实例

正如在《Auditory Neuroscience》的Figure 5-5所讨论的那样（此图为转载），声源定位的ITD线索来自双耳相位。因此，轻微失调的音调分别传输到左右耳中可以给人一种从声音向左耳或右耳移动的印象。下面的声音示例展示了这一点。我们在左耳播放500 Hz的纯音，右耳播放500.25 Hz的纯音。因此，左右耳每4秒进行一次相位变化。左右耳开始处于同相位，因此当通过耳机收听时，声音应该开始听起来像是在中间。然而，由于右耳的频率略高（振荡较快），在接下来的2秒钟内，右耳的相位开始领先多达1毫秒，给出了一个不断变化的ITD线索，表明声音向右移动。超过2秒后，右耳相位领先超过1毫秒，但由于音调的周期为2毫秒，大脑可能将其解释为左耳不到1毫秒的相位领先。因此，在演示约2秒钟后，声音会听起来突然来自左侧，然后在接下来的4秒钟内逐渐再次向右移动，然后再跳转到左侧，依此类推。

binaural beat figure

稳定的纯音听起来令人不愉悦，而且它们还会在听觉神经系统中产生很多的适应效应，使其难以被清晰地感知。因此，我们在这个演示中添加了一个5 Hz的正弦振幅调制，这样效果更容易听到。

这个演示是为通过立体声耳机收听而设计的。在扬声器上它可能无法正常工作。此外，一些人可能会难以听到这种效果，特别是如果他们有耳部疾病史，可能会影响到双耳听力。

这个演示是如何工作的呢？你可以选择声音的频率，并选择两个声音之间的频率差来生成声音。频率差使你能够听到声音在你周围移动的效果。为了听到这种效果，选择一个频率和一个幅度来进行调制。你可以按下“Start/Stop”按钮来播放或结束声音。

频率：频率：0 2000 频率差值：

频率1值：

Hz 频率2值：

调制： 频率：0 10

调制频率值：

调制幅度： 振幅：0 1

振幅值：

虚拟声学空间

数字方块表示一系列“虚拟声学空间”刺激相对应的声源方向，这些刺激是通过将一个刺激（在本例中是一系列敲击声）与本书的一位作者的头相关传递函数进行卷积而生成的。

最好戴上一副不错的耳机，并将它们插入电脑的耳机插孔。通过在方块上移动鼠标，你会听到声音的位置发生变化。大多数立体声录音只基于两耳之间的声级差，因此产生的声音会偏向左耳或右耳。相比之下，虚拟声学空间刺激包含了完整的定位线索，在原则上重现了真实的自由场声音。因此，当你移动鼠标时，你应该能听到声音上下移动，左右移动，甚至感觉它们在你的前方或后方。当然，这种效果的好坏在一定程度上取决于你的头部和耳朵与进行声学测量用于生成这些刺激的受试者的头部和耳朵的匹配程度。

None selected