合成声音已经变得无处不在。它们早上为我们指明方向,白天通过电话指导我们,晚上通过智能扬声器播报新闻。随着技术的进步,这些声音变得越来越像人类的声音。这是合成语音的最后边界:不仅复制我们说的话,而且我们怎么说。

卢帕尔·帕特尔他领导着东北大学一个研究语言的研究小组韵律-音高、音量和持续时间的变化,我们通过声音传达意图和情感。“有时人们认为它是蛋糕上的糖衣,”她解释说。“你有了信息,现在是你如何调整信息,但我真的认为是脚手架给信息本身赋予了意义。”

帕特尔说,她对韵律产生了兴趣,因为她发现韵律是语音交流的唯一元素,似乎对某些严重语言障碍的人是有效的。这些患者即使不能清晰地说话,也能发出富有表现力的声音。2014年,帕特尔成立了一家公司,为不会说话的人定制合成声音。VocaliD已经扩展到商业品牌和有影响力的人。

多年来,合成语音已经取得了很大的进步。9岁的Siri是世界上年龄最大的虚拟助手,但在语音机器世界里,她只是个婴儿。至少从18世纪开始,人们就一直在尝试合成语音,当时一位奥匈帝国的发明家创造了一个粗糙的人类声道复制品,可以清晰地表达整个短语(尽管是单调的)。

目前的机器学习技术可以模拟人类的语言,包括尴尬的停顿和咂嘴。尽管如此,对于大多数真实世界的系统来说,每秒训练数千个样本是非常昂贵的。研究人员,包括VocaliD的研究人员,正在不断实施更新和更有效的方法。

但是,即使人类语音和合成语音之间的剩余差距正在稳步缩小,真正逼真的韵律仍然难以实现,即使是最复杂的系统。也许我们还缺少的是机器不仅要模仿人类,还要感觉像我们这样的。