发声和语音

发声和语音

人类听觉系统的关键功能之一当然是让我们通过语音交流思想。人类语音的复杂性似乎是独一无二的,但许多动物都或多或少地使用声音交流。《Auditory Neuroscience》第四章着眼于中枢神经系统的发声和语音的编码与处理。以下页面提供了有关此主题的补充材料。

会说话的海豹Hoover

会说话的海豹Hoover

尽管在细节上存在差异(有些人认为差异很大),但其他哺乳动物的声道与人类的声道基本相似。 一些哺乳动物能够利用这些相似性来模仿人类的声音。 一个例子是“会说话的海豹Hoover”,这是一只由渔民抚养长大的斑海豹孤儿,它开始模仿养父雄浑的声音。 Hoover的“讲话”(以下有声音样本)有些含糊不清,但“come over here”和“hurry”这两个词仍然清晰可闻。

一个有关“会说话的哺乳动物”的可爱例子可以在下一页看到,它是一只名叫Mishka的会说话的狗

我们发现,这样的例子引人注目的一个原因是它们相当不寻常,即使是最有天赋的会说话的海豹或狗也很难在任何时间段内保持有意义的对话。我们可以从研究动物的发声中了解到多少人类语音是一个非常有争议的话题。

 

Hoover the seal

Mishka,会说话的狗

Mishka,会说话的狗

这段youtube视频显示了一只名叫“Mishka”的哈士奇狗,它与主人进行了一些令人惊讶的表达爱的口头交流。

 

 

语音作为“调制信号”

语音作为“调制信号”

与许多有趣的自然声音一样,语音是一种动态信号,即其幅度和频率内容随时间变化。Elliott & Theunissen提出的一个有趣问题是语音是否具有“特征性”时变幅度和频率分布。语音的“时间和频谱调制”是否必须遵循某些参数范围才能使语音可理解或可识别?语音通常表现出什么样的时间和频谱调制?是否存在使语音可识别或可理解的“必要”特定调制?

Elliot 和 Theunissen 通过计算语音的“调制频谱”解决了这个问题,如下所示:

modulation spectra of speech

 

这样的调制频谱是“可逆的”,这意味着(如果您精通数字信号处理)可能是在从原始信号中去除某些调制范围之后,您可以从调制频谱回到原始声音,然后您可以思考:如果删除特定的调制,语音是否仍然是可理解的。

这里有一些例子。首先是原始语音:

现在,除了具有小于 4 周期/kHz 的频谱调制和 1 到 7 Hz 之间的时间调制的“核心”区域外,过滤掉具有所有时间和频谱调制的相同语音样本,示例仍然可以理解,但听起来很不自然。

这种分解为频谱和时间调制的有趣结果是,语音样本的“含义”与音调或说话者身份“存在于调制空间的不同部分”。

考虑此示例,其中保留了所有时间调制,但仅保留了低于 0.5 周期/kHz 的所有频谱调制。 这保留了语音共振峰,因此语音仍然可以理解,但丢失了大部分音调信息,我们无法再判断说话者是男性还是女性:

并将其与滤除所有快于 3 Hz 的时间调制的样本进行比较。 现在我们缺少了承载“意义”的重要时间结构,句子变得更难理解,但我们仍然可以轻松识别说话者的音高和性别:

音高在语音中的作用

音高在语音中的作用

在印欧语系中,改变声音的音高通常不会改变口语或句子的意思。我们在这里说明一点,使用21世纪早期政治修辞的一个较好的例子作为我们的语音样本。 (不是奥巴马,是布什的语音样本。与鱼和平共处是可能的杜比亚断言是非常令人放心的政治修辞),除了原始语音样本之外,我们还添加了两个样本,这些样本已使用Hideki Hawakara 的“Straight”软件进行了处理, 它可以将语音分解为其音高和共振峰轮廓,并在音高轮廓改变后重新合成。 结果听起来非常真实。 因此,布什在这里恳求与鱼和平相处的语音,首先是正常的音调,然后稳定上升,最后是下降的音高轮廓。 你会注意到,在音高被操纵之后,语音仍然可以理解(至少,它的可理解性并不亚于原始语音)。

 

 

布什恳求与鱼和平相处。(原始音高轮廓,在大约 110 和 200 Hz之间变化)

布什恳求与鱼和平相处。(从80到350Hz稳定线性上升的音高轮廓)

布什恳求与鱼和平相处。(从350到80Hz稳定线性下降的音高轮廓)

在上面的示例中,我们操纵了语音的音高,使其在较宽的范围内上升或下降,这对句子的可理解性没有明显影响。 这可能会给人一种印象,即语音音高在英语口语中并不重要,但这只是部分正确。 虽然在英语中,声调没有“语义”作用,但它是“韵律”的一个关键特征,例如,它可以为我们提供说话者意图或情感的非语言线索。 为了说明这一点,请考虑接下来的两个示例,我们采用原始录音的音高轮廓,然后将音高变化范围减半或加倍。 当音高范围减半时,声音听起来明显压抑,当音高范围加倍时,听起来非常兴奋。

布什-郁闷。(从正常 110 - 200 Hz 范围压缩到更小的 110-120 Hz范围的正常音高轮廓)

布什-兴奋。(从正常110-200Hz范围扩大到更大的50-350Hz范围的正常音高轮廓)

人类声带的运动—youtube视频

人类声带的运动—youtube视频

人类语音有两种类型:带音(voiced)和不带音(unvoiced)。当声带产生快速的咔哒声,即所谓的“声门脉冲串”,然后在声道中产生共鸣时,就会产生带音。 这段关于人类喉镜检查过程的 youtube 视频显示了发声过程中振动的声带。注意当受试者深呼吸时可以张开声带肌肉,或者改变声带上的张力可以改变音高。

人类发音器官的运转—视频

人类发音器官的运转—视频

这段影片来自南加州大学语音产生和知识小组(SPAN) (SPAN)的网站。

 

 

它用磁共振技术成像,显示了一位年轻女士的声道,同时这位女士在表达她对音乐的热爱。你可以清楚地看到舌头、嘴唇和下巴的移动,以及软腭的起伏,这动态地改变了声道的共振特性,将“时变共振峰结构”施加到语音信号上。

口语元音中的共振峰和谐波

口语元音中的共振峰和谐波

此图(《Auditory Neuroscience》)显示了“hot”、“hat”、“hit”和“head”这些词的声谱图,这些词用高音说一次(上图),然后用低音再说一次(下图)。 您可以看到语音的元音是由规则间隔的谐波(红色条纹)组成的,这些谐波源自声门脉冲序列并决定了口语的音高。 您还可以看到谐波的强度并不完全相同。 例如,元音 /a/ 在大约 1.8 kHz 处比 /o/ 或 /i/ 具有更多的能量。 语音携带大量能量的频率空间区域被称为“共振峰”,这些共振峰来自声道共振。 说话者通过移动他们的“发音器官”(嘴唇、下巴、舌头、软腭)来改变共振频率,同时也改变了声道中共振腔的尺寸。

spectrograms of spoken words

High Pitched Voice

Low Pitched Voice

 

Source: full color version of Figure 1-16 of "Auditory Neuroscience"

仅包含两个共振峰的人造元音

局部时间反转和语音理解

局部时间反转和语音理解

人们普遍认为,当语音被时间反转时,它变得难以理解,但它仍然听起来很像语音,与外语的声音没有什么不同。 然而,正如Saberi 和 Perrott 在 1999 年发现的那样,如果将语音切成小条并且每个条都足够短,那么语音仍然可以理解。 此页面上的声音示例说明了这种效果。在 200 或 100 毫秒宽的条带中反转的声音通常是完全无法理解的,而在 50 毫秒宽的条带中,一些听众开始理解个别单词,而 20 毫秒宽的条带中,时间反转根本不会影响声音的可理解性。

200 ms time reversal


100 ms time reversal


50 ms time reversal


20 ms time reversal


original

寻找能够从具有频谱旋转的语音中提取语义的脑区

寻找能够从具有频谱旋转的语音中提取语义的脑区

Sophie Scott 及其同事尝试使用神经影像学方法确定大脑中可能参与将声音映射为意义的区域。他们使用经过特殊声码器编码的语音样本,因此它们听起来不同但仍然可以理解,或者他们“旋转”语音以使其难以理解,同时保持与正常语音的“声学相似性”。然后他们计算了对比度,以确定哪些区域被一种类型的刺激而不是另一种刺激更强烈地激活。 与难以理解的语音样本相比,只有左前颞叶中以黄色显示的区域对可理解语音表现出明显更强的激活。

Scott et al Brain (2000) figure 2

 

(Sp=语音,VCo=声码器编码过的语音,RSp=旋转语音,RVCo=旋转的声码器编码语音)。

如果您对频谱旋转的语音听起来如何感到好奇,请听下面的示例。 (我感谢Stuart Rosen 提供了他的频谱旋转算法,感谢 乔治·沃克·布什 提供无尽的语料,这些语料说明了可理解和不可理解的语音之间的区别,好吧,我们应该说“细微差别”。)

Original speech


Spectrally rotated speech

布罗卡失语症 - 视频

布罗卡失语症 - 视频

这段视频来自 威斯康星大学麦迪逊分校生理学系的档案,展示了对布罗卡失语症患者的采访。 患者很难清楚地表达句子,只能说出孤立的单词和话语。然而,请注意他的话语是“切题”的,这表明他在理解面试官的讲话方面没有什么困难。 这种发音困难而不是理解困难导致布罗卡失语症被描述为“运动性失语症”

 

 

布罗卡失语症通常与布罗卡区损伤有关,布罗卡区是法国神经学家保罗·布罗卡 (Paul Broca) 发现严重失语症患者 Leborgne 先生的前额叶皮层区域受损,该患者绰号“Tan tan”,因为除了“tan, tan, tan...”他什么也说不出来。这张图片展示了 Leborgne 先生的大脑,现在保存在巴黎的一家博物馆中。

Mr Leborgne's brain

尽管布罗卡区被认为是与运动性失语症有关,但脑成像研究表明,当我们听语音时,该区域通常也会被激活。

这是另一个更近时期的视频,这是青少年失语症患者Sarah Scott。请注意Sarah有时如何通过写字来帮助自己表达。然而,布罗卡氏失语症患者同时在产生书面语言和口头语言方面存在困难的情况并不少见。

 

韦尼克失语症

韦尼克失语症

 威斯康星大学麦迪逊分校生理学系档案中的另一段视频显示了对一名韦尼克失语症患者的采访。 与 Broca 失语症患者不同,韦尼克失语症患者说话往往很流利,但他们的言语往往退化成看似随意、很难跟上的“意识流”,其中可能夹杂着非词或虚构的词。 此外,韦尼克失语症患者的讲话往往无法很好地回答向他们提出的问题,这表明他们并不真正理解面试官的讲话。 这种理解困难而不是发音困难导致韦尼克失语症被描述为“接受性失语症”

韦尼克失语症通常与“韦尼克区”的病变有关,“韦尼克区”是顶叶和颞叶之间边界处的一块皮质组织。

麦格克效应

麦格克效应

麦格克效应”说明我们的眼睛看到的会影响我们听到的。 下面的视频展示了 Prof Patricia Kuhl 的演示 这个效果。 她嘴里念着音节 /ga-ga/,但视频配上了她说 /ba-ba/ 的音轨。 你的眼睛可以看出嘴唇在音节开头没有闭合,因此它们告诉你的大脑音节不能是/ba/,尽管实际上它是。 试图调和来自您的眼睛和耳朵的相互矛盾的信息,大脑将决定这些音节是声学上最接近 /ba-ba/ 的音节,它们是张开嘴唇发出的,您将“听到”/da-da/ 或/tha-tha/。 然而,如果您再次播放视频,但闭上眼睛,您将能够说服自己音轨确实是 /ba-ba/。 一遍又一遍地播放,随意睁眼闭眼。 根据您的眼睛是否睁开,您听到的声音会从 /tha-tha/ 变为 /ba-ba/。