我们所说的语言:它们在未来的计算中将有多普遍?我们经常被告知,我们离电脑越来越近,电脑理解我们的语言就像我们身边的人类一样容易。 现在,微软的研究人员完全有理由感到特别自豪。据报道,微软已经在语音识别领域的竞争中走在了前面。 该公司声称,他们对机器理解语音的探索取得了重大的测试结果。描述他们工作的研究已经在arXiv服务器上发布。题目是微软2016会话语音识别系统。作者有8人:熊伟雄、卓波、黄世兴、塞德、萨尔茨、斯托尔克、于丹、茨威格。 WallStreetPit有一份关于他们工作的报告,这是众多关注微软研究人员成果的网站之一。华尔街Pit表示,微软团队转向了一种被用作行业标准的对话电话语音识别测试。该测试是美国国家标准与技术研究院(NIST)2000总机语音识别任务。 微软首席语音科学家黄学东说,他们的研究人员得出的单词错误率(WER)为6。3,被认为是业内最低的。 RichardEckel也在微软网站上发表了一篇文章。这条微博记录了他们努力的一些特点。今年早些时候,微软的研究人员通过使用一种利用新型跨层网络连接的深度残差神经网络系统赢得了一项计算机视觉挑战。 它还说,微软研究人员最近成功的另一个关键组成部分是计算网络工具包。CNTK实现了复杂的优化,使深度学习算法的运行速度比以前快了一个数量级。关键的一步是图形处理单元(gpu)并行培训的突破。 (文章称,gpu以计算机图形著称,但研究人员发现,它们在处理复杂算法方面也非常擅长,比如用于理解语音的算法。) 至于错误率的重要性,上周末,名为‘Interspeech’的国际演讲交流与技术会议在旧金山举行,WallStreetPit表示。在发布会上,IBM自豪地宣布,它的回答能力仅为6。6。20多年前,发表最好的计算机语音识别研究系统的最高错误率为43。 作者表示:我们最好的单一系统在NIST2000交换机上的错误率达到了6。9。我们认为,这是迄今为止所报道的最佳性能,它不是基于系统组合的识别系统。 ZDNet的LiamTung指出了这方面的进展。董建华写道:20年前,语音识别的最低错误率是43,IBM在1995年达到了这一水平。到2004年,IBM已经将错误率降低到15。2。 董建华指出,然而,随着越来越多的研究资金被投入到深度神经网络中,科技巨头们吹嘘自己的错误率远低于10,但还没有达到超过人类水平的准确度,IBM估计大约为4。 在描述该系统时,作者说,受机器学习集成技术的启发,该系统使用了一系列卷积和递归神经网络。 文中解释了他们的工作与以往工作的区别。与之前CNNs在语音识别方面的应用相比,我们的网络更加深入,在卷积层之间使用了线性旁路连接。 董说,像它的竞争对手一样,微软已经把人工智能作为人机交互战略的关键支柱,而Cortana等基于语音的平台将在可穿戴设备、移动设备、家庭、车辆和企业中发挥关键作用。 我们描述了微软的对话语音识别系统,在该系统中,我们结合了基于神经网络的声学和语言建模的最新发展,以提高交换机识别任务的技术水平。受到机器学习集成技术的启发,该系统使用了一系列卷积和递归神经网络。Ivector建模和无网格MMI训练为所有声学模型体系结构提供了显著的收益。语言模型与多个前向和后向运行的RNNLMs重新匹配,以及基于单词后验的系统组合提供了20的提升。最好的单系统使用了带有RNNLM重取心的ResNet架构声学模型,在NIST2000交换机任务中实现了6。9的单词错误率。组合系统的错误率为6。3,比之前报告的基准任务的结果有了改进。