跳转到主要内容

计算

人工智能现在惊人地善于模仿人类

通过梅根·麦克唐纳在2020年12月9日

合成声音已经变得无处不在。它们早上为我们指明方向，白天通过电话指导我们，晚上通过智能扬声器播报新闻。随着技术的进步，这些声音变得越来越像人类的声音。这是合成语音的最后边界:不仅复制我们说的话，而且我们怎么说。

卢帕尔·帕特尔他领导着东北大学一个研究语言的研究小组韵律-音高、音量和持续时间的变化，我们通过声音传达意图和情感。“有时人们认为它是蛋糕上的糖衣，”她解释说。“你有了信息，现在是你如何调整信息，但我真的认为是脚手架给信息本身赋予了意义。”

帕特尔说，她对韵律产生了兴趣，因为她发现韵律是语音交流的唯一元素，似乎对某些严重语言障碍的人是有效的。这些患者即使不能清晰地说话，也能发出富有表现力的声音。2014年，帕特尔成立了一家公司，为不会说话的人定制合成声音。VocaliD已经扩展到商业品牌和有影响力的人。

多年来，合成语音已经取得了很大的进步。9岁的Siri是世界上年龄最大的虚拟助手，但在语音机器世界里，她只是个婴儿。至少从18世纪开始，人们就一直在尝试合成语音，当时一位奥匈帝国的发明家创造了一个粗糙的人类声道复制品，可以清晰地表达整个短语(尽管是单调的)。

目前的机器学习技术可以模拟人类的语言，包括尴尬的停顿和咂嘴。尽管如此，对于大多数真实世界的系统来说，每秒训练数千个样本是非常昂贵的。研究人员，包括VocaliD的研究人员，正在不断实施更新和更有效的方法。

但是，即使人类语音和合成语音之间的剩余差距正在稳步缩小，真正逼真的韵律仍然难以实现，即使是最复杂的系统。也许我们还缺少的是机器不仅要模仿人类，还要感觉像我们这样的。

相关的视频

滚动到顶部

订阅者将获得更多获奖的科技进步报道。

看到订阅选项