不是人声胜过人声小鹏P7为何执着于声音改变？

2021-07-27 09:17:06来源：盖世汽车

在去年10月，小鹏P7发布智能语音交互系统之后，经过9个月的打磨，这套系统有了新的提升，此前的很多功能都已经可用一句“您好小P”来对话解决，那么此次再升级的内容是什么？答案是对AI的理解。

AI发展到今天，逐渐进入到寻常生活，从家居到车载、从个人穿戴到公共娱乐，AI通过语音交互带给人类的感受最为直接，关于这份“感受”，小鹏汽车在寻找最接近人类的可能。

声音只有亲耳听到最为真实，小鹏收集包括P7在内的8款车加上真人语音，进行系统盲测，依次根据与真人的相似度、音质清晰度和喜欢该声音的程度来打分。最终小鹏P7得到平均7.48分，位列第一。意想不到的是，真人语音播报的声音竟然只有5.87分，排在第三位。通过此次测试表明，真人声音搭载在车机系统中，并不一定是最令人舒适的声音。

有没有人性？

即将在小鹏P7 Xmart OS 2.6.1版本上线的智能语音交互系统，主要内容是新增了全新AI声音。小P的新声音与常规的车载语音助手声音有着代际的差别，这一点用语言难以叙述，但有几项指标可以表明小P新声音的变化。

小鹏汽车，小鹏P7

更真实——采用“全新一代超大规模在线神经网络引擎+小型离线拼接引擎”的技术组合，使全新AI声音更加细腻、自然，更像真人般的气息顿挫，能表达更多情绪。新声音的MOS语音质量评测得分4.49，是目前微软MOS得分最高的车载语音助手。语音质量评测指标MOS（Mean Opinion Score）是一项被国际普遍认可的语音质量评测方法，它可以判断一个机器声音多大程度像真实人声，满分为5分，分数越高证明声音越完美，越令人舒适。同时，全新AI声音拥有包括助理、聊天、客服、愉快、温和、亲热、抒情、新闻、严肃、不满、生气、害怕、悲伤、冷静等14种强烈情绪的变换能力，后续版本将逐步开发其应用场景。

更生动——小P全新AI声音采用24K采样技术，现有声音为16k，各种场景下的声音反馈都被精心调教，新旧声音对比有明显的音质差距。HiFi级高保真音质配合高品质音响组合，给用户带来沉浸感十足的交互体验。

更极致——通过小鹏汽车自研的端云融合多级缓存技术，车辆可预测当下的网络情况，智能选择在线神经网络引擎或离线引擎进行声音合成，在弱网或无网络环境下，依然带来高音质语音播报。同时，通过一系列创新性落地解决方案，包括智能预测算法、智能拼接等，可做到97%超高在线率。

只听你的话

与一般的车载语音助手不同的是，小P能够连续对话，无须重复唤醒，每25秒最多达10个指令。而且在倾听时，可自行过滤无效语句，不是对它说的指令，它不会执行。这一点还可以区分主副驾的不同指令，一人唤醒小P后，小P只与这一人语音对话，进一步防止穿插进干扰声音。

小鹏汽车，小鹏P7

小鹏汽车表示，对车载语音系统的深度探索，终极目标是实现整车功能的全语音控制。从而在真正的无人驾驶到来之前，用智能语音实现智能座舱的功能，比如在用户不便于用手进行操作时，协助用户完成设置导航、搜索音乐、调整空调等功能。当无人驾驶真正到来时，智能座舱将更多的体现出其娱乐、办公、休息等属性，此时车载智能语音将成为人车交互最重要的交互方式，承担更多的车辆控制和信息娱乐功能，实现整车功能的全语音控制。

目前，小鹏全语音车载系统也支持在NGP自动导航辅助驾驶状态下，通过语音控制车辆自动变道。驾驶员可唤醒小P说“请帮我向左变道”、“请把前面的车超了”，控制车辆实现向左变道和向右变道语音控制变道功能，该功能是业内首个通过语音控制驾驶辅助变道的功能。

自研新CP

小鹏汽车AI产品专家郝超表示，这套车载语音系统的“耳朵”和“嗓子”可以是市场上已成熟的通用技术来提供，但“大脑”一定是小鹏自研的。比如说语义识别和语义理解，即该语言属什么领域、要表达的内容是什么，要如何做出回应……简而言之，如何把声音带上车并服务于车主，是小鹏研发的根本。

从技术角度讲，语音合成的方式有很多种，主流方法有单元拼接；合成器；基于深度神经网络合成。不同技术有不同的特点，但新一代技术会比上一代更加自动化，运算力更强，生成的声音更加逼真。小P新声音采用了“全新一代超大规模在线神经网络引擎+小型离线拼接引擎”的技术组合。

前两种方法会产生机械的嗡嗡声，或者跳音这种强烈不平衡感，用户能明显感受到它并不像人。第三种基于深度神经网络技术合成声音是近些年突破的新技术，该模型通过大量数据和算力打磨后，可以输出无限逼近真人的声音，小鹏称这是一个更前瞻也更冒险的技术尝试。

小鹏汽车，小鹏P7

如何理解这个技术组合，需要明确“在线”和“离线”的概念。这里可以参考游戏场景：离线可以理解为像“纸牌”这种不需要上网的本地小游戏；在线则是像“王者”、“吃鸡”这样需要大量计算的联网游戏。相对应的，在线技术的目标是生成更优质的声音，离线技术则是一种兜底策略。

当前通过“在线技术”生成声音的业务主要应用在智能音箱领域，汽车领域寥寥无几，因为音箱的网络稳定性很高，行车场景常有弱网和无网的情况。如果不解决弱网无网的声音问题，体验会非常差。所以小鹏汽车为了解决用户在车内绝大多数时间都能听到通过在线技术生成的声音，自研了一系列解决网络问题的创新性落地解决方案，并且目前已向国家申报专利。

据小鹏官方介绍，其解决方案包括“智能离在线融合”：车机端采用了多策略融合模式，通过网络、车机负载、播报业务场景策略综合决策；“端云融合的多级缓存”：所有文本内容采用了多级缓存策略，以提升响应速度；“智能拼接”：为保证用户在弱网或无网状态下仍能收到完整在线声音，采用了动态在线转离线切换策略，以实现卡在哪里就从哪里转离线；“智能预加载算法”：小P会越来越聪明，能不断提升个性化内容播报的响应速度，对用户常用的指令反应越来越快。“智能打断”：让NGP、导航等重要内容优先播报，不让用户错过高优紧急内容，最大限度为用户提供更流畅的声音体验。

由此可见，深度神经网络技术在车载领域的运用，需要解决很多不曾出现的工程难题，不断挖掘科技带来的价值最大化。

车云小结

小鹏汽车正将自己定调为一家科技公司，何小鹏称在成立时的想法就是希望能把智能汽车大众化、普及化。

全语音车载系统为智能座舱提供了基础可靠的智能体验，目前小鹏已经首创了连续对话、语音控制辅助驾驶功能。在越来越多科技公司踏入汽车市场的时候，小鹏也在不断累积自研技术的实力，深入对全链路的把控。