您现在的位置是: 首页 > 新闻动态 > 公司新闻 公司新闻   行业新闻   常见问题  
谈谈语音技术发展与未来

日期:2017-03-07   浏览次数:123

在语音方面,实际上真正最早能够形成实用化的语音技术是从语音合成开始的,也就是我们说的TTS技术。一些大型的场馆会议,像奥运会、世博会,包括一些公共场所,像高铁站、机场听到的广播声,很多实际上都是通过语音合成技术合成出来的。

另外,推出了可以唱歌的TTS技术,歌唱TTS实际上就是在标准的语音合成基础上,结合现在一些应用场景,比如说一些娱乐机器人、教育机器人、玩具等等,在应用场景当中,我们做的更加娱乐化的TTS技术。现在大家都在探索和研究一个新方向——情感TTS。因为不管怎么样的一个算法,达到完全像人一样的自然、有情感、富有喜怒哀乐情绪的TTS技术,还是有很多的研究工作要做。当前TTS作为一种信息的交流、信息的播报是完全可以达到实用化的程度。经过这十几年的时间,捷通华声在TTS方面,国内市场占有率超过了50%。

我再说说语音识别,昨天钱博士(《从全球格局、最新技术到开源工具,一文告诉你语音识别发展现状》),我们清华的一个师弟特别提到了语音识别技术的发展。现在实际上就是说在语音识别方面国内也有一些从事语音识别技术应用和研究的企业,但是从语音识别目前发展的现状看,普通话在一个自然的场景中识别率达到96%,97%,其实已经不是什么太高的目标。但实际上96%、97%并不是一个真实应用场景下的指标,只是在技术层面达到的高度,在实用化方面,要达到这样一个高度,恐怕国外语音公司也不敢这么说,我们国内的一些人有时候在这方面会更多的注入一些商业化宣传。

大家知道,语音识别是从2001年、2002年就进入了中国市场,但当时的语音识别,主要是基于命令词条的识别。经过十几年的发展,语音识别技术进入到自由说的状态,当人自然说话、自然表达时,能够准确识别,这推动语音识别进入到实现应用的阶段。比如说在手机端用输入法这样的一些app或者是工具,对着手机尤其是现在的手机,都支持多麦克风,在近讲模式下,如果你的普通话说得比较好,比如说像我这样讲话,98%、99%的识别率也是可能的。但是如果说话带着很重的方言,要在识别上达到这个高度不是太容易,现在没有看到哪家在方言普通话或者普适性人群上面达到这样一个高度。当然,这里边还包括不同的输入设备,比如说在电话端,8K的窄带数据识别率如果能达到97%,那真的是效果非常好了,现在大家的水平基本上在80%上下。

在一些特殊领域里边,通过一些垂直领域的优化,模型的优化,能达到85%,这已经是一个很好的水平。在很多智能家居、家电、机器人等智能终端场景下,有很多环境噪音,语音识别如果不解决这些数据信号、声学信号的抗噪问题,语音识别的应用会受很大的制约。所以现在从事语音的厂家,在麦克风阵列这方面也都开始做自己的研究,推出了两麦、四麦甚至六麦的抗噪模块,来解决实际应用场景下的噪音干扰问题。四麦降噪模块上面这个四麦降噪模块,已经在一些机器人里边,包括一些服务机器人、儿童教育娱乐机器人中使用,其中包括线阵和圆阵,重点是解决麦克风在远讲、定向、回声消除,还有语音增强等实际应用情况。当然,语音识别还包括方言、多语种识别,以及中英文混合等情况,这些问题我们也在不断的研究、实践。

开始时我们提到,在认知功能方面,尤其是像语义理解(NLU),这方面有一些国内企业在做,捷通在这方面也做了大量的工作,有很多的实践和应用。例如,在智能终端方面,我们做了对话,包括意图理解,以满足智能终端在语义理解和语音识别共同使用过程中的一些“理解”用户指令的要求。另外,在一些行业的智能客服的系统里边,我们也采用了支持多轮对话、同音字智能纠错、上下文语义分析、相关问题联想等功能的语义理解技术,能够达到更好的用户体验和准确率。当然,语义理解方面要研究的东西还很多。

深圳网站建设公司-AG亚游网络,拥有专业设计团队为企业提供网站设计,网页制作,移动端整体解决方案,互联网品牌顾问机构。网址:www.szmiaowei.com

上一篇:AI技术的融合从语音到全方位人工智能发展之路
下一篇:已经没有了

AG亚游网络 :   专业网站建设 SEO优化 企业邮箱 整体网络营销

深圳市AG亚游网络有限公司 热线:4006-999-501 联系电话:0755-33132828 传真:0755-33132828
E-mail:miaowei@szmiaowei.com 广东省深圳市龙华新区工业东路尚游公馆5楼
Copyright © 2014 AG亚游网络 All Right Reserved 粤ICP备14082736号