对话百度高亮:百度输入法8.0 语音+AR多模态发展 相对正确率超同行20%

20180117064455917.jpg


2018年1月17日下午,百度在北京达美会议中心正式推出百度手机输入法8.0版本,以“开启全感官输入时代”为主题,正式宣布百度手机输入法在Deep Peak2技术上的一项重大突破和几大新增功能。


1516182886276.png


百度副总裁、AI技术平台体系总负责人王海峰在致辞中提到:“当AI发展到一定阶段,输入法甚至不需要独立存在,它将融入人机交互系统,支持人和机器以各种形式进行信息交互。”

 

百度输入法负责人蔡玉婷上台正式发布百度手机输入法8.0版本,并宣布百度输入法全面开启全感官输入时代。根据介绍,百度输入法此次主要加入了六大AI功能:语音修改、语音翻译、语音轻声识别、场景化语音识别、语音联想表情、OCR扫描输入。此外,百度输入法还推出了语音速记和AR表情功能。


会后,声学在线与少数媒体受邀对百度语音技术部总监高亮进行了专访,分享了百度关于百度输入法技术实现、未来发展等更多信息。

 

技术突破难关,语音识别相对正确率超同行20%

 

专访中,高亮详细介绍了百度此次取得的语音技术突破。百度输入法此次搭载了百度第二代深度尖峰技术(Deep Peak2),建模单元比之前更少,解码速度较之前提升了10倍,并支持中英文混合建模,实现了技术突破。


新技术区别于传统语音技术中使用上下文相关的三因素进行排列组合建模,选择将高频因素作为一个独立的建模单元,这样一来,无论左右两边的因素如何,都和该高频因素不再关联。

 

20180117064455917.jpg


其主要特点在于建模单元大量减少,高亮对此解释道:“假设传统的以上下文相关联的三因素法在建模需要大概1000因素组合,但采用新的与上下文无关的独立因素建模,则只需要1000个。”


原因在于传统建模并没有相应的先进技术,计算能力上不去,会造成建模过程中资源的大量浪费。而如果舍弃以前的建模方法,只将高频组合因素组合在一起,则只需要1000个因素组合。

 

高亮进一步解释道:“这样的话,数据和神经网络参数的适应度都能达到良好,我们不用再去考虑因素之间的联合,只用专注于可识别的单个因素,就能更好地发挥神经网络参数的作用。”

 

原来的10000个因素变为1000,这意味相较于原技术,数据成本可以减少10倍,识别速度和准确率也成10倍增加,这是个非常惊人的数字。除此之外,高亮还提到了另外一个技术特点,新的百度输入法将能够识别中英文混合音频,且总体识别相对正确率要超过目前行业最好水平的20%!

 

为了进一步验证百度输入法的超高识别率,百度还请来了知名快嘴主持人华少进行了现场测试,测试结果显示,百度输入法8.0在58秒内准确无误识别记录了426个字。其中,有大量的叠字、英文单词,以及绕口令式的语句。而一般文员在电脑键盘上一分钟平均只能输入50-70个字,专业速记员借助专用速录设备平均每分钟200个字。

 

融合语音、视觉多模态,高亮畅谈未来之路

 

在此次主推的两大功能中,百度输入法结合了语音和AR技术。其中语音速记加入了声纹识别角色技术,用户在通过百度输入法进行语音输入时,不同人的声音会被准确识别成不同的人物,在系统中标注出来,用户还能修改角色名称,适用于单人模式和多人会议模式;


AR表情功能则是通过内置大量丰富搞怪的角色背景,支持用户通过控制自身的表情来控制角色表情,同步变化,从而自由创作表情包,该功能主要面向年轻用户群体。


被问到未来发展方向时,高亮表示:“我们最大的优势在于我们身后有整个百度AI技术的支持,不论是智能语音还是智能图像方面,我们都会得到最大程度的支持。所以,在未来,百度输入法不但会抓住麦克风,还会抓住摄像头,比如此次的表情包互动,做多模态发展。输入法行业内大家都有各自的特色,比如科大讯飞的语音识别,搜狗的品牌,那我们希望,我们的特色会是多模态。”


本文由 袁媛发表。转载请注明出处(声学在线)及本页链接。原文链接http://soundonline.org/2018/01/255.html



热文