讯飞“听见”:语音人工智能技术的集大成者

供稿:研华(中国)公司

  • 关键词:听见智能会议系统,人工智能
  • 摘要:“听见智能会议系统”是核心语音技术的集大成者,其包含了自然语言处理、声纹识别、语音识别、语音转写引擎、篇章处理、口语风格处理等几乎最关键的语音人工智能技术。

公司简介:科大讯飞股份有限公司成立于1999年,是一家专业从事智能语音及语言技术、人工智能技术研究,软件及芯片产品开发,语音信息服务及电子政务系统集成的国家级骨干软件企业。作为中国智能语音与人工智能产业领导者,在语音合成、语音识别、口语评测、自然语言处理等多项技术上拥有国际领先的成果。


当今年3月5日两会工作会议进行网络直播时,首次用机器替代人,将李克强总理的现场报告实时转写成文字,自动同步。这个人工智能技术来自科大讯飞研发的“讯飞听见”,准确率在95%以上。


“讯飞听见”还为两会期间安徽代表团会议提供全程转写服务,21场会议205位代表的发言同步转写成文字,在会议结束时,即刻打印成稿,代表能进一步深入讨论,会议也能立刻存档。




语音技术“集大成者”


“2013年,当深度神经网络技术应用到语音识别领域时,犹如给语音识别实用化安装了加速器,直接引发了今天各类语音识别应用的大爆发。”科大讯飞听见科技政企业务线总监洪源说。


两年后,在2015年底的公司年度大会上,聚焦在智能语音技术和信息服务的科大讯飞迅速推出“讯飞听见智能会议系统”,这是全球首个会议实时转写系统。


洪源形容,听见智能会议系统是“核心语音技术的集大成者”——因为它包含了迄今为止人类最关键的语音人工智能技术,像自然语言处理、声纹识别、语音识别、语音转写引擎、口语风格处理等。


在这中间,语音识别让机器“听懂”人类的语音,将语音中的文字信息提取出来,相当于给机器安装了“耳朵”;自然语言处理能“理解”语言,让机器有了思维,具备翻译、信息检索的能力;语音转写引擎将持续语流转写成文字;声纹识别能分辨说话者;口语风格处理能处理口语词、犹豫词、重复词,让转写的文字更流畅简洁……


在系统推出的最初两个季度中,洪源和同事深入一线,让产品与政企市场充分磨合。在经过数次迭代后,系统现在基本能满足客户在各种场景下的典型需求,趋于稳定和标准化。


中欧商学院的选择


中欧商学院、马云湖畔大学开学典礼、罗辑思维跨年演讲、政企单位内部会议……各类机构正在采用听见智能会议系统。


从用户的共性需求中,洪源他们将应用场景分为三类——会议、教学和演讲。


在中欧商学院的办公会议中,发言能实时转写为文字,会议结束即可同步出会议纪要。利用会议回溯功能,点击会议纪要的某部分,录音会自动回溯到相应音节,方便修正和查找重点。


在北京联合大学特殊教育学院的教学中,课堂语音能实时转写成文字,让听力障碍学生群体也能像正常学生一样获取信息;在课后的课件制作中,字幕能自动转写,不再需要人工听录音、做录入。


在罗辑思维跨年演讲中,现场语音被实时转写成文字,同步在“得到”APP上做图文直播,不在现场的观众也能获取第一手信息。


在这些典型场景下,用户也有着“言必谈安全”的需求,科大讯飞提供了离线部署方案。一种是软硬件一体的单机版。这是科大讯飞与合作伙伴研华科技一起形成的高集成化、能支撑语音识别核心引擎和服务的一体化方案,适用于单个会议室。另一种针是对智能楼宇多个会议室的网络版部署方案,服务器可部署在客户机房,统一管理。


因为智能会议系统解决了客户的业务痛点,同时顾及政企市场对安全的要求,中欧商学院管理层甚至向来学院学习的全球行业精英推荐该系统。


现在,该系统正在政府机构、高等教育机构、大型企业展开全面布局。


推进“智慧检务”建设


不仅通用场景,公检法垂直行业也迫切想要利用人工智能改善核心工作环节的痛点和效率。


在今年全国检察长会议中提出要加快“智慧检务”建设。基于讯飞听见打造的听见智能会议系统、讯(询)问笔录系统、检务语音输入法、双语教学平台,正在检察机关日常办公会议、审讯、双语培训等场景下探索深度应用。


安徽省人民检察院检委会办公会议应用听见智能会议系统,实时记录会议委员的发言和意见。


听见的讯(询)问笔录系统也在安徽、浙江、江苏、北京、新疆、西藏等17家检察院,在涉黑、非法吸收公众存款、妨碍公务、盗窃、贪污等30种不同案件类型中试用。在审讯过程中,首创的麦克风阵列技术定制硬件加软件一体化方案,实现审讯室远距离拾音、自动降噪及说话人分离功能,让办案过程全程留痕、精准回溯,有效固定关键证据。系统还可通过与录音录像第三方系统对接,实现“远程提审”创新模式。


安徽、浙江、新疆三省的检察院还在办公办案中试用听见检务语音输入法。它能在各种终端设备上,将口述内容自动转为文本,借助针对检务语音资源的定制优化,实现最快1分钟可识别400字,相比传统方式快3~5倍,让工作高效便捷。


在新疆自治区人民检察院及新疆兵团正试点应用听见维汉双语翻译及双语教学平台。在审讯场景下,它实时将维汉互译,还将语音转换成维汉对照笔录,扫除语言交互障碍,缩短案件审理周期。双语教学平台还提供精品学习课件,供民族检察官自由学习。在新疆检察官学院,每年有1300多检察官参与学习,举办50多场主题会议。在教学培训和主题会议上,双语互译平台让不同民族检察官能轻松交流和学习讨论。


正在发生的未来


“我们要开会了。”伴随用户的一句话,会议室的灯光、音响、窗帘、空调、投影仪、幕布等设备会自动调节到会议模式。这是在听见智能会议系统基础上,科大讯飞在今年3月推出的“自适应语控智能会议系统”。


通过自然的语音交互,会议系统告别了传统模式下会前手动调试设备的不便,化繁为简。在会议中,麦克风能根据发言者的声音大小、外部噪音强弱自动调节增益,不用再像过去那样“人去配合麦克风”。“技术很炫,也解决了我们的痛点。在此之前,真没有什么好办法解决这些问题。”客户对洪源反馈说。


“这是公司愿景‘用人工智能建设美好世界’驱动的。”洪源说,“期望人工智能技术为政企市场创造自然舒适的会议体验。”


与此同时,2016年底,讯飞听见融合多语种翻译技术,推出听见智能会议系统的实时翻译和语音转写新功能,将中文演讲实时翻译成英语、日语、韩语和维吾尔语并同步展示在大屏幕上。在2017年美国CES展分论坛中,这个人工智能技术在现场充当了“一名翻译”。


“语音转写是个全新市场,我们对它非常乐观。”洪源说,“但这块蛋糕能做多大,有赖于我们对应用场景的探索拓展、技术提升等因素。”


科大讯飞还在进一步提升语音转写技术,这包括优化识别效果、方言识别、分段效果,它们可提升转写文字的可读性;还包括提升关键词提取与主题提取技术,便于用户提炼价值信息;还有多语种翻译技术,让国际会议交流无障碍。


这些技术结合市场的探索,听见系统将实现神机妙用。



这篇案例收录在《物联网·智慧城市创新2017案例精选集》,了解更多案例,请访问http://select.advantech.com.cn/whitepaper2017/



扫描下方二维码,完成注册,获取纸质档。



发布时间:2017年6月8日 16:06  人气:   审核编辑(王静 )
更多内容请访问(研华(中国)公司
相关链接

我有需求