贾磊认为,人工智能近10年的发展是伴随着 GPU 算力、数据增加和深度学习算法创新的发展而发展的。目前训练数据的增加和深度学习算法的创新速度确实是变慢了,但是AI算力这个维度,还有很大的增长潜力。无论是云端的GPU服务器,还是端侧的AI芯片,都有很大的增长空间。2018 年,OpenAI 的研究人员发布了一份分析报告显示,从2012年到2018年,在最大规模的人工智能训练中使用的算力增长了30多万倍,3.5 个月的时间就翻一番,远远超过了摩尔定律的速度。未来5年,GPU的算力将达到CPU算力的1000倍。这些都将对语音交互产生巨大的推动作用。比如端侧 AI 芯片的发展,很快将使得端侧芯片具备完成和现在云端服务一样的语音交互能力,在一些场合比如汽车智能座舱等领域,语音交互的主体都将是由端上芯片在不需要联网情况下独立完成,大大提升了汽车行驶过程中的语音交互的可靠性和流畅性。
GPU 算力增长趋势图
贾磊认为智能语音交互技术落地作为 AI 落地的一个关键组成部分,破局的关键点是从简单的识别和合成的能力提升,到更加场景化聚焦发展、更加综合性发展。之前我们提到的 AI 能力提升,都是单体的 AI 技术,比如语音识别技术、语音合成技术等单体技术的学科发展。但是综合语音、视觉、NLP 和知识图谱等 AI 综合能力,在特定场景下的 AI 体验打磨,将使得 AI 技术从“旧时王谢堂前燕,飞入寻常百姓家”,这是以语音交互为代表 AI 能力破局的关键。语音交互的发展也不单单是单一的从语音这个维度进行发展,而是在具体场景下,综合视觉、语义、对话、通讯等技术在内的综合性技术。在这一发展过程中,场景化数据的积累和用户反馈的收集将成为成败的关键。贾磊认为语音交互的算法能力,针对特定的个人和特定的场景,做充分的打磨,应该是能够满足特定需要的。“打磨”的过程,需要我们更清楚的理解用户的场景,同时反馈个性化场景化数据。 未来语音交互的成熟,一定是伴随着个性化和场景化的聚焦而实现的。
谈谈新冠疫情给 AI 行业带来的影响
贾磊认为,类似新冠疫情这样的事件,确实是对人类社会的生产和生活产生了巨大的影响。新冠疫情将使得非接触生产和生活成为社会生活的必要组织部分。为非接触生产和生活服务的一些语音交互技术,也会得到持续的发展。比如音视频通讯技术,在疫情时代就得到了很大的发展,伴随音视频通讯的在线翻译需求就会继续增加。在线会议内容的实时识别和翻译系统、音视频通讯的内容分析和挖掘等也都会蓬勃发展。这些都对语音技术的发展提出了更高的需求。全社会应对疫情,很多也是靠科技手段,语音技术在这个过程中,也起到了很大的作用,比如语音自动外呼业务,对于落实人员状态,沟通紧急信息,都起到了不可缺少的作用。
智能语音未来发展趋势展望
在谈及智能语音未来发展时,贾磊认为,基于 AI 语音芯片的端侧语音交互、多模态语音交互以及个性化语音交互是他个人比较看中的语音交互的发展方向。以上3个领域是他觉得很有希望的语音技术发展方向。百度语音团队会发展端侧 AI 语音芯片,端侧执行语音交互,云端定义语音交互,沿着视觉语音一体化和语音语义一体化的发展方向发展多模态交互技术。针对语音交互的环境噪音和个体口音差异,发展个性化语音识别、个性化语音合成和情感语音合成等个性化相关的语音交互技术,让语音技术不但可靠流畅还同时具备亲情和温暖。