情感合成、远场方案、唤醒二期技术和长语音方案……这些听起来有些陌生的技术,未来将可能改变我们的生活。
11月22日,百度公司首席科学家吴恩达在谈到百度语音技术的最新进展时,对外介绍了百度这四项语音技术,并宣布将免费开放给用户和开发者。
“我们已经站在人工智能的黎明。”吴恩达对包括第一财经在内的记者作出乐观的预测,他希望通过开放人工智能技术,让每个人都能更容易地开发出“智能应用”。
不过,站在“黎明”的人工智能何时能有“质”的跨越,或许还需时日。一个细节是,在接受记者采访的会议室里,吴恩达座位不远处还是坐了一位实时整理文字的速记人员。
智能语音:已超正常人类的识别能力
事实上,开放语音API(应用程序编程接口)已经成为行业趋势。
今年3月时,谷歌在Next云计算大会上发布了面向开发者的新机器学习平台,并开放语音识别的API,即谷歌语音搜索和语音输入的支持技术。GoogleCloudSPeechAPI一开始将免费提供,以后再进行收费。这一应用包括了80多种语言,适用于各种实时语音识别与翻译应用。
在开放背后,互联网公司希望借此推动智能语音模型的进一步演进和智能语音技术的快速普及。
对于百度公布的四项语音技术,吴恩达告诉第一财经记者,目前百度还没有收费的计划,这些技术旨在解决用户在使用语音交互的场合时,普遍感到困扰的一些关键问题。“目前的语音识别已经超过了正常人的语音识别能力。”
以情感合成为例,主要是基于深度学习和大数据处理技术,在数据采集、处理、建模等环节进行一系列创新,实现更富有表现力的自然朗读效果。
读者甘肃数码科技有限公司总经理金大时告诉记者,目前“读者数字农家书屋”在甘肃庆阳市试点,根据百度大数据合成情感语音实现书籍有声阅读,让很多不识字的老年人和留守儿童也享受到了阅读的乐趣。
而远场方案技术则是百度自主研发的远场识别技术,基于麦克风阵列,利用麦克风阵列束形成、语音增强、回声消除、声源定位等技术综合实现高准确率远场识别。
百度称,开发者可以通过这一新的技术接口,使语音识别距离增加到3~5米,设备的语音唤醒率提升到95%以上,或解决长时间语音识别的准确率问题。这将为语音技术带来远比现在更多的想象空间,而不只是遥控电视或解锁手机。
例如,百度在上海肯德基旗舰店投入使用的“小度机器人人机语音交互点餐”,可远距离随时应答点餐。
百度语音唤醒技术,主要是通过通用唤醒词解析、大数据声学模型、双层解码等技术优化,唤醒率达95%,支持用户自定义唤醒词。唤醒二期加入指令唤醒,优化唤醒和识别性能。
长语音技术则在LSTM(LongShort-TermMemory,一种时间递归神经网络)音频切分技术、深度学习预测停顿、说话人自适应、智能纠错等方面技术突破。这意味着它将在方便语音输入、内容记录、智能客服、视频转写等应用场景表现出想象空间。
这也令来到中国的斯坦福大学的人工智能专家JamesLanday感慨:“近两年,受益于大数据和深度学习技术的不断发展,语音识别技术突飞猛进,速度及准确性都有了长足进步。”
智能语音混战
语音技术作为人机交互方式的入口,是人工智能重要的一环。不只是BAT(百度、阿里巴巴、腾讯),搜狗、科大讯飞等也在加速智能语音的布局,不少围绕AI的创业团队如云知声也都将语音作为探索人工智能的方向。
要想顺利进入这一领域,需要的是多年的技术与经验积累。
吴恩达告诉第一财经记者,语音识别技术非常复杂,最难的是核心技术的提升,例如识别率的提升,几年前语音识别率还只有80%多,当时用起来还是相当困难;还有大数据语音合成等,现在的目标是如何才能远远超过人类的识别能力。此外,百度语音识别97%的准确率是在比较安静的环境下达到的目标,在噪音干扰的情况下如何提升识别率,百度还有工作要做。
除了百度之外,可以看到的是,今年9月,腾讯云技术团队和微信AI团队开放微信语音处理技术,推出了智能语音服务。在语音识别、语音合成、声纹识别等功能上提供了垂直领域定制化的语音产品。阿里的人工智能系统,已具备智能语音交互、图像识别、交通预测、情感分析等功能。
在语音识别领域,搜狗CEO王小川在不久前的世界互联网大会上透露,搜狗输入法一天处理的语音输入请求达到1.9亿次,产生超过16万小时的语音数据。在庞大的用户基础和数据积累后,可以把语音输入做到更极致的状态,如语音合成、声纹识别等。
公开资料显示,在技术指标方面,百度语音识别、搜狗输入法语音识别、讯飞输入法语音识别准确率达到97%,腾讯云智能语音识别技术在通用领域中准确率达95%。
在投资人士看来,智能语音仍是一个好的投资机会。此前,峰瑞资本早期项目负责人朱祎舟提到,尽管各家根据实验数据得出的语音识别准确率达到95%甚至更高,但在实际使用时并没有那么高,前端的语音/声学交互的很多问题如果得不到解决,整体的体验始终不够好;而包括家居、车载、可穿戴设备、机器人等大量智能终端的爆发,智能语音将变得更加友好和重要。
在IBM前全球副总裁、赛伯乐投资集团总裁王阳看来,未来人工智能在医疗、无人驾驶、金融、零售、安防、个人助理等七个领域有强大的应用空间。他提到,人工智能个人助理目前普遍应用于智能手机上的语音助理,语音输入、家庭管家等,最终是在收集消费者的消费习惯,从而提供各类服务。
ResearchandMarkets研究报告显示,预计2016年全球智能语音产业规模可达82.3亿美元以上,到2020年,全球语音市场规模预计将达到191.7亿美元。
发布时间:2019-06-03 00:52
上述文字是💠《混战语音识别,人工智能的黎明快来了》✨的美文内容,大家如想要阅读更多的短文学、文学名著、精品散文、诗歌等作品,请点击本站其他文章进行赏析。
版权声明:本文由互联网用户自发贡献,该文仅代表作者观点。芒果文学仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件进行举报,一经核实本站将立刻删除。
岁月静好,念一段素颜淡妆紅颜未老;紫陌纤尘,叹一句向来緣浅奈何情深。尘世迷离,唯愿静心,然而誰又在时空隧道中苦苦寻望緣分?我欲淡然微笑提筆改写紅尘,怎知浮生若夢半世...
雨落在这个不起眼的角落 积水坑坑洼洼 一只只小脚丫 兴冲冲的跑着 跑近的我们的视线 嘴里念叨着新鲜的绰号 雨落在这个正成长的角落 我们来了 好像是大巴载来的 更像是梦中的召唤...
在消逝的日子里,关于你的故事我慢慢学习去忘记,没有刻意的去回忆,没有刻意的去想起。但是,每当夜深人静的时候,一个人,天台,独自喝着苦涩的酒,眼泪一滴一滴的滑落,还...
依旧左顾 期待你调皮的右盼 却不见 你熟悉的脸庞 依旧狂放 回忆那昔日的不羁 只不过 落得物是人非 无处话凄凉 依旧思乡 回首那年蹉跎时光 明眸中折射几分忧伤 到如今 来往于喧嚣的...
都说清官难判家务事,又说家家有本难念的经。 在我看来,家务事不难判,家的经书也不难念。这其实都是生活判官在自导自演的一出心理战争戏。 不信看看下面这个事,就知道谁是判...
现在,有很多人活得很累,过得很不快乐。其实,人只要生活在这个世界上,就会有很多烦恼。痛苦或是快乐,取决于你的内心。人不是战胜痛苦的强者,便是向痛苦屈服的弱者。再重...
「世上只有妈妈好」每当听到这首歌时、我每一次都忍不住的哭了。是的、我是一个没有妈疼的苦孩子、出生七个月、就没有妈妈了、长这么大都无法理解妈妈的爱是怎样的、从没有感...
给曾今深爱过的人:只愿你比我过的好。 很多时候,我们成全了我们在意的人,却总是忘了成全自己。 很多时候,我们太在乎我们自己爱的人,却总是忘记了爱我们的人。 很多时候,...
失望攒够了,就放手吧 ——题记 “雨打梨花深闭门,忘了青春,误了青春。” 深秋,是没有梨花的,可此时正下着小雨。 秋末的冷雨 绵绵的下着,黯淡了旻天,剪断我仰望的视线。...
不知是因为一直相信命运之说,还是亲身经历的诸多艰难苦楚,自打懂事那一刻开始,我便断然的相信着,有些人的忧愁,是孕育在前世因果里的,几经轮回,辗入今生宿命里,当生命...
如果你是河里的清泉! 那我就是河边岩石上快干枯的小草! 如果我是沙滩上的一条小鱼! 那你就是路过沙滩上的人! 从河里流过的水很多! 却没有一滴水留意过我! 我是一颗扎根在...
湘西之美,在于可视却难以尽收眼底;湘西之魅,在于可触却难以揣摸悟透,湘西之奇,在于可听却难以预料想象。行走湘西,不由得让你感受神赐造物之谜、不由得让你情融自然山水...
当漫天风沙袭来时,尘土几乎掩盖了一切,让天地失去了原来的色彩。但是时间的风沙抹不去思念。再大的风沙,再长的时间,都无法让思念消失。 虽然时间能够治愈一些伤痕,但是并...
梦想是用来追求的! 实现一个会还有一个! 所以我们总是有追求不完的梦想! 我有个闺蜜+发小+死党! 我们从小一起长大! 我们结婚相差整整10天! 在婚前,我们和大多人一样! 为...