机器视觉离消费市场有多远?
供稿:上海方千光电科技有限公司
作为人工智能的两个分支,计算机视觉与机器视觉在近年都取得了长足的进步。前者自2010年以来,随着深度学习再度流行并用于目标识别,在人脸识别等方面已经超过了人类;而后者在工业应用方面,也有不少突破性的应用。
但是,在消费级市场方面,计算机视觉与机器视觉的进展并不大。不少人对于计算机视觉与机器视觉在消费级市场能有多大实质性地应用,存在深深地担忧。
▌计算机视觉与机器视觉
首先,我们有必要理清楚机器视觉与计算机视觉之间的关系。从学科分类上, 二者都被认为是 Artificial Intelligence 下属科目,不过计算机视觉偏软件,通过算法对图像进行识别分析,而机器视觉软硬件都包括(采集设备,光源,镜头,控制,机构,算法等),指的是系统,更偏实际应用。简单的说,我们可以认为计算机视觉是研究“让机器怎么看”的科学,而机器视觉是研究“看了之后怎么用”的科学。
计算机视觉与机器视觉的问题是,前者太学术,后者太工业,因而一直以来在消费级市场缺乏好的产品。图漾创始人费浙平向雷锋网记者说,机器视觉的很多核心技术和原理多年前就比较成熟了,近年来的进展主要集中在工程化,比如GPU和视觉计算加速器的出现解决了计算量问题。但与此同时,要想把视觉技术实现真正产品落地,中间还有不少其他问题,他们也在摸索中。
视觉技术在消费级市场最早的尝试是微软的Kinect。2010年,微软联合深度摄像头技术方案提供方PrimeSense正式对外推出Kinect,利用骨骼捕捉技术,Kinect可以捕捉游戏玩家的骨骼动作,从而让游戏玩家可以不接触屏幕即可玩游戏。在Kinect之后,华硕、Intel、谷歌以及苹果也相继在深度摄像头的应用场景上跟进,一切都看起来往好的方向发展。
但深度摄像头作为独立产品,市场化难度颇大。例如Intel在13年在开发者会议上宣布,将推出自己的微型深度感知模块,华硕、戴尔、惠普、联想等多家 PC厂家都将从2014年下半年开始在产品线中部署这款深度感知模块。而两年多过去了,曾经预言的集成深度摄像头的产品迟迟未见。
那么,处于计算机视觉和机器视觉交叉部分的深度摄像头,应该如何打开消费级市场?
▌深度摄像的瓶颈
深度摄像头也称RGBD摄像头。我们常用的摄像头是RGB摄像头,单一个摄像头便能感知彩色可见光信息(Red、Green、Blue),而RGBD摄像头是在我们常见的RGB摄像头基础上,增加了深度信息。
深度摄像头获取图像方式分为主动式获取和被动式获取。二者的主要区别集中在观测传感器是否主动向环境发出探测光。
如大疆精灵4上的双目视觉便是被动式获取深度图像,其技术特点是摄像头不主动向环境中发射能量,而通过两个以上摄像头计算特征点的坐标差得出感知环境中现有能力得到信息,这一方式与人类双眼获得时差的方式最为相近,但最大的弊端在于限于目前的技术,目前的识别精度还不高,过于依赖光线,而且无法处理特征不明显的场景,所以强光暗光都会导致深度计算的失效。
主动式获取所采用的方式则是从蝙蝠等生物上寻找灵感,通过主动发射探测光通过计算获取深度图像。这当中又分为三类:“RF-modulated light sources with phase detector”、“Range gated imagers”、“Direct Time-of-Flight imagers”,如Kinect一代所采用的PrimeSense就属于第二类,随着苹果收购PrimeSense,微软也在Kinect二代中改为微软自有技术,一般认为二代采用的是直接TOF的技术。
以Kinect的深度摄像头为例,它包含了一个红外投射器、一个RGB摄影头和一个红外感应器,由于深度摄像头自带光源,而且是不可见的红外光,对我们的生活无任何影响。似乎深度摄像头获取景深信息就已经完美了,但也有他的弊端。由于是主动方式,两个同波段红外光会出现干涉,导致两台一样的深度摄像头没有办法一起使用,而且受发射功率的影响,检测距离也会受到很大影响。
市面上常见的深度摄像头,Kinect距离最远,但也需要最高达到12W的用电供给,拖一根供电线很是累赘。同时,深度摄像头还难以应用于户外,因为阳光中也有红外成分,会对主动红外光部分造成干扰。红外光对于玻璃情景,也无计可施,出现无法探测距离的情况。
Kinect获取的深度图像
▌艰难中的尝试
Kinect一代售罄一空之后,对Kinect二代的绑定更加严厉,这更加抑制了销售量;Leap Motion两年前由于销售情况不如预期,不得不解雇了 10% 的员工,切入虚拟现实;苹果收购了Primesense之后也不知道在盘算什么小九九,有分析称苹果打算放在iPhone上,这样我们拍照时就能拍出3D效果的了;另一边Intel则将目标对准了机器人无人机,比如小米的机器人Segway Robot以及昊翔的无人机Typhooon H。
机器人和无人机正是这两年的大热产品,看起来Intel可能会成为赢家,但因为Segway Robot和Typhooon H都还未正式上市,因此效果如何还有待验证。也就是说,在消费级市场还没有一个特别成功的案例。
Intel CEO 科再奇展示应用了RealSense模块的的Typhooon H
而在国内,Intel的RealSense出来之后,给了国内一些创业者的信心,因此催生了一批相关的创业企业,但目前成规模的应用也寥寥无几。
奥比中光是其中最早实现量产的,其深度摄像头与Kinect一样,主要应用在一些电视游戏上;与奥比中光有直接竞争的是华捷艾米,只不过在产品量产上,华捷艾米的进度慢了一步;图漾的产品则正在准备量产阶段中,瞄准的方向都是些行业应用,似乎对消费应用还在观望阶段;格灵深瞳正在做应用在自动驾驶汽车上的深度摄像头;速感看好机器人;
机器人是目前热门的应用领域,目前机器人的路径规划大多使用雷达,雷达虽然只能建立平面的深度图像,但市场上已经有公开产品,而且雷达的导航所用到的SLAM方案已经比较成熟,而视觉导航的SLAM方案则还很少见,iRobot是较早开始在其扫地机器人上使用SLAM方案,不过也不到1年时间,因此想要在机器人上使用视觉避障与导航,看起来还需要一段时间。
▌要解决的问题有哪些
那么,深度摄像头消费级应用的春天何时才会到来?通过与相关从业人员的交流,我们感觉到深度摄像头只是一个产业链中的一环,当他们在做深度摄像头的时候,相关的产业链上的工作还有很多,比如芯片,比如后续的图像识别、视频分析等等。以下是他们的回答:
格灵深瞳技术人员:
“CV在消费领域落地的其中一个障碍还是支持高性能运算的低功耗低价位芯片选择太少,有限的几个也很难用。所以目前只能在工业领域,机器视觉本身是工业术语。在大消费领域我们倾向于叫 embedded vision(嵌入式视觉)。这一类产品都是光、机、电、软件、算法一体,跨多个专业领域,对系统集成的难度要求更高。”
uArm机械臂创始人邓世韬:
“主要是芯片的处理能力、红外投影模组的分辨率提升。我自己更关注批量生产的稳定性,因为这些零配件装在一起,需要校正、标定等,这是一个挺大的挑战,特别是对创业公司。”
速感科技创始人陈震:
“单从机器人领域来看,机器视觉有很大一块儿需要解决的问题是,目前在产业上游的核心传感器和下游的机器人落地应用中间存在一定的断档。也就是我们看到的国内有厂商专门搞摄像头,雷达这样的元器件,专门有厂商做机器人整机,但是几乎没有一个成熟的视觉技术方案可以把不同的传感器串联起来,做成一个可以商用的统一的方案。
机器人是个复杂的系统,机器视觉也是机器人上一个复杂的部件,通过现有的技术,已经证明单纯的依靠单一的传感器是无法在现有机器人上较好的实现各种功能的。
也就是说,在机器人上,需要有雷达、超声波、摄像头、3D传感器配合在一起,才可能实现各种复杂的功能和任务。
而目前的机器人产业的现状是,大家各自低头研发自己的核心元件,使得下游的机器人厂商变成了机械式的集成商,从讯飞拿语音,从视频门户拿内容,从深圳拿移动底盘公模等等,视觉上面,也呈现出零星的发展态势。
我们认为,机器人在接下来的发展中,必然会出现一两套整体的标准集成方案,类似PC时代的windows操作系统和手机时代的IOS操作系统一样。”
图漾创始人费浙平:
“视觉计算处理器:由于视觉计算数据量和算法复杂度很高,通用的CPU、GPU和DSP处理器芯片都不够强大,而专用ASIC又不够灵活,最好需要有一个像GPU为Graphics进行加速一样,出现一种能为Vision提供强大计算能力的VPU芯片。
3D摄像头作为一种计算视觉用的光学产品,从演示到工程样机、再从工程样机到量产需要跨过的工程技术鸿沟比一般的拍摄类光学产品要大很多。比如光学器件的一致性筛选和光学参数的标定校正,就是一个单独的研究方向。
产品的多样性:作为一种光学产品,天然存在产品规格多样性的问题,比如就最基础的检测距离指标来说,就很难做到远近兼顾,必须在最大距离和最近盲区之间作出组合折衷。不同的应用场景需要不同规格的产品进行适配和优化,因此对产品和技术方案的可伸缩性要求就很高,需要有多种不同规格的产品去满足不同的应用需求。
人工智能:基于3D视觉数据一般都是为了实现更高级的识别和分析能力,也就是对3D视觉数据使用的能力要求也很高,需要更聪明的大脑来使用更全面的视觉数据。”
AICRobo智能机器人系统架构师佘元博:
“机器视觉在消费市场落地,技术上是人工智能技术和机器人硬件有效融合的问题,有两条路:
1.自上而下。以人工智能技术应用为主,要求机器人硬件尽可能符合人工智能技术工程化的条件。这意味着,产品得增加传感器,以保障智能算法数据供给,得提高成本,有良好的计算资源让复杂的智能算法“跑”起来。还意味着产品具有不稳定性,人工智能技术以概率为主,产品功能依赖人工智能技术的比例越大,产品功能越不稳定。机器视觉应用里面,人脸检测是很稳定的,但遇到黑人也难打包票。
2.自下而上。以机器人硬件为主,在功能上应用人工智能技术辅助。这意味着,产品比较可靠,但同时也失去了一些智能化的特性。当产品需要某些智能化的功能时,要花费大量人力针对某个“智能算法”做移植,将本来在不稳定环境中运行的算法应用在可控、高效而且低成本的嵌入式环境中,这点让很多专注理论算法的工程师头疼。
机器视觉技术落实在产品上,有时候是自下而上做产品的过程中,给了“智能算法”太多的束缚,大家总是优先考虑成本和稳定性,而不是技术应用本身。我们从人工智能领域出来做机器人,希望两者做个折衷,以自上而下的愿景给智能技术找一个市场立足点。市场对智能产品需求的不明晰,也是机器视觉难落地市场的一大因素。”
可以看出,芯片的运算能力以及成本是大家认为机器视觉在消费级市场落地的主要影响因素,其次是集成方案以及人工智能技术。但由于消费电子对于量和价格以及技术成熟度均有着较高要求,可能要到这些配合的产业链环节都成熟之后,消费应用的春天才会到来,雷锋网也会进一步关注这方面的进展。