更清晰、更准确、更便捷,智能语音识别带我们通向未来世界
说到科大讯飞,在中国应该很少有人不知道吧?但你要说清楚科大讯飞是做什么的,十之八九你说不明白,因为从本世纪初开始,讯飞从智能语音技术起步,如今触角已经遍及人工智能的几乎所有领域,除了我们熟知的翻译机、输入法、文字转换、录音笔、智能耳机之外,还涉及到更多行业领域,比如智慧教育、智慧医疗、智慧城市、智能汽车等等产品,可以说,讯飞正以迅猛的速度深入我们日常生活的很多场景。
而这一切的基础——语音识别技术,从讯飞创业开始就一直在不断升级,今天,我们来聊聊讯飞的“智能语音识别技术”。
科大讯飞研究院高级算法工程师胡尹:讯飞智能语音识别技术采用最新自主研发的端到端神经网络技术方案,支持26种方言和民族语以及69种外国语的语音识别,真正赋予了机器像人一样听音识字的能力。
科普时间到:
初中物理课本上介绍了声音是以声波的形式通过空气传播的,语音识别技术就是通过对声波进行接收、分析、处理,形成一套可以和我们对话的智能语音系统。这里要解决两个问题:听得清楚、听得准确。
首先,要“听得清楚”就得接收声波的“信号”。
平时我们说话声音小了,或者周围噪音大了,别人是很难听清我在说什么的。机器也一样,所以提高信号接收器的信号质量是关键。在接收器后面,科学家布置了一张神经网络,它会像人的大脑一样对声音的方向、频率、音色等不同特点进行区分,然后转译成不同的数据。通过科学家事先设计好的算法,神经网络对噪音弱化,对人声强化,再区分出不同方向、不同频率的人声,于是,呈现的录音就能更加清晰了,理论上甚至可以比人耳听到的更清晰。随着技术的不断进步,新的算法会将声音处理得更好。
再来说“听得准确”。
汉语中有很多同音字词,比如“切jì”,到底是千万要记住的切记,还是千万不能做切忌呢?单独听很难分辨。
最早的神经网络方案叫DNN,只能联系上文固定长度语音数据来识别语音,出错就会多;后来,升级的RNN方案,理论上可以记录无限长的历史数据,系统就能联系更多上文信息来提高识别的准确度。那么,如果能提前看到未来,识别会不会更准确呢?当然。再次更新的CNN神经网络方案就是通过对已经听到的信息数据的学习,不仅学习历史数据信息,也学习未来的数据信息,这种同时学习上下文的信息的神经网络,就能更准确地识别出它所对应的语意了。
但不管是DNN、RNN还是CNN,这些都属于声学模型,还不能解决对应文字的问题,所以神经网络又链接了一个语言模型,之前的语音数据被输入到这张拥有3亿多个节点的神经网络上去解码,然后匹配出对应概率最大的文字,实现文本的识别——这个过程特别有意思,技术人员要像驯养宠物一样不断去“喂数据”和“驯算法”,只要语音和文本的基础数据够多够准确,神经网络这只“小宠物”就会吸收足够的营养,快快长大,输出更准确的结果。
而刚才胡尹的语音中提到的“端到端”,是指现在讯飞的语音识别可以把声学模型和语言模型放在一起来训练,从而直接实现从语言到文字的同步转换了,这是语音识别技术一项新的进步。
那当不同的语言混合的时候,机器又该如何识别呢?
这时,科学家们又在这张神经网络上分布不同的模块,语音被识别出是普通话、某种方言还是哪门外语,就进入哪个语言模块,这个模块就开始启动计算。于是我们就看到转换出的文本能够灵活地呈现中文、英文、粤语等等,这一切都源自科大讯飞在语音识别技术上的不断探索。
最后,讯飞向我们推出了离线语音识别技术这盘压轴大菜。之前因为计算量很大,所以语音文字转换都是通过云端来实现的,我们先上传语音,文稿完成后会发送回手机,一旦没有网络就不行了。为了解决这个问题,科学家们通过优化算法,最后终于实现了离线识别。
好了,聊了这么多,我很想和您分享采访讯飞语音识别技术的一个感受:我们正在走向未来社会,智能设备越来越多,而它们和人之间的连接,最方便直接的方式就是语音,所以,语音识别是人与智能设备之间交流的一把钥匙,科大讯飞正是通过这把钥匙,帮我们打通了走向未来世界的通道。作为合肥高新区的一张名片,科大讯飞撑起了“中国声谷”这四个大字,在高新区建成30周年之际,科大讯飞研究院的胡尹说:
合肥市高新区书写激昂30载,昂首迈入新征程,愿合肥市高新区继续坚持敢闯敢干的拼搏精神,朝向世界一流高科技园区迈进,在新的时代发展中创造新的辉煌。
【制作团队】
统筹 | 吕律
采访 | 吕律 郑思齐
文字 | 主播:吕律
编辑 | 郑思齐
还没有评论,快来发表第一个评论!