一直致力于技术探索的百度再次以领先的研究成果获得了新的荣誉。百度硅谷人工智能实验室(SVAIL)研发的新一代深度语音识别系统Deep Speech2入选《麻省理工评论》2016年十大突破技术。
值得注意的是,这也是本次评选入选的惟一一家来自中国科技公司的科技成果。同时入选的还有免疫工程、精确编辑植物基因、DNA商店、太阳能电池工厂、特斯拉自动驾驶、可回收火箭,及空中取电、知识分享机器人、slack通信软件等产品和技术,分别来自谷歌、微软、SpaceX等多个领域的知名前沿科技公司,以及加州大学伯克利分校、华盛顿大学、首尔大学等科研机构。
“百度的深度语音识别系统(Deep Speech 2)包含了一个非常大的、"深"的神经网络,它引入了数以百万计的转录语音。有时它在识别汉语语音片段方面,要比人为识别更加准确。”《麻省理工评论》在文中评价道。
据了解,深度语音识别系统(Deep Speech 2)开发于去年年底,前身是百度首席科学家吴恩达及其团队2014年底发布的第一代深度语音识别系统Deep Speech。该系统使用了端对端的深度学习技术,主要专注于提高嘈杂环境下的英语语音识别的准确率,在噪音环境下,Deep Speech语音系统表现要比谷歌、微软以及苹果的语音系统更好。
事实上,语音识别和自然语言理解相结合,将为互联网市场创造切实可用的语音接口。由于汉字通过微型触摸屏进行输入的过程耗时且十分繁琐,因此,中国是发展语音接口的理想市场。但是,汉语语音识别字符数据量大,声调的不同往往还会影响词的意思,技术上很难进行准确识别。而百度通过收集整理大量数据,省去复杂的预处理环节,直接输入音频文件,再通过深度神经网络输出字符,从而大大提高系统运算效率。目前该系统还在收集更多方言及口音信息,扩大训练数据。
业内人士表示,更多人使用语音命令是市场发展的一个方向,尤其是在物联网领域,语音识别技术的研究是把握市场先机的一个必要手段。据了解,国内有科大讯飞(002230,股吧)、虫洞、尚科语音等多家做语音识别的独立公司,非独立的语音识别业务,在BAT、搜狗、盛大、360等公司里也都是标配。
据了解,在去年的“松果计划”深度语音合作项目中,百度与高校的合作展开了在语音人机交互方向的研究。而包括联想智能电视、信利智能可穿戴设备、特斯拉电动汽车、去哪儿App、陌陌App、神武手游等厂商,都使用了百度语音开放技术。
随着百度在语音技术方面的不断进步,语音接口变得更为实用和有效,将深度语音模型在更小的系统上运行是重要的趋势之一。百度正致力于将该语音模型缩小并植入手机等移动设备,以方便用户与身边设备进行交流互动。