未来，人脸识别是门大生意

发布时间：2012-09-30 16:32:44 来源：互联网

未来，人脸识别是门大生意
我们正处在一个新时代的入口。人有70%的能量是被大脑消耗，大脑90%的能量用来处理视觉信息，人脸则承载了绝大部分的视觉信息。我们要讨论的是一个比Google Glass更酷的世界。
网易邮箱的用户已经可以用人脸而不是密码来验证登陆。安卓4.0实现了人脸识别。谷歌接连收购两家做人脸识别的公司。Intel刚刚发布以机器视觉为核心的感知计算软件开发工具包。巨头的动作表明人脸的应用开始主流起来。你一不小心可能就out了。
通过计算机的处理来把一张脸跟一个名字、一个身份对应起来。说起来就这么简单。但这是一项重大的仿生学上的技术突破。这背后的市场价值现在还难以估量。
先扫盲。相信你也会问一个我已经问过的初级问题：指纹不也能识别身份吗，何必要用人脸。干这一行的王道江已经面对合作伙伴和投资者们回答过无数次：人脸要比指纹识别更优越。
第一，指纹需要接触。而人脸不需要。很多小姑娘嫌脏而不愿把手指按到那个无数人按过的指纹采集器上，确实，细菌会因此传染，所以在医院里会被禁止。何况在极端的情况下是无法采集指纹的，比如有汗，煤矿工人的黑手，农民因为长年劳作指纹消失。
第二，指纹收集是个枯燥的事。但人脸收集是个有趣味的互动，就像照镜子。当你在公司门口对着一个人脸识别屏幕对着自己微笑，卡擦，门开了，同时扬声器里传出来一个清新的嗓音：看到你的微笑了，某某某。
第三，人脸的识别精确度已经发展到跟指纹类似：十万分之一的重复概率。但被复制和窃取的风险却小很多。在中关村花20块钱就可以做一个指纹膜，拿着它就可以帮同事代打卡或者开保险柜。而人脸膜现在还不存在。
这些优越性直接衍生出实际应用。比如在驾校，学员报名但不上课，后来就成了马路杀手。现在有了解决方案，在驾驶位前方的摄像头实时采集人脸，确保这个学员在这一段时间内一直呆在这个位置，而老师要在副驾的位置上。一旦换人就后台鸣笛。用指纹可解决不了这个问题。
如果你仅认为人脸是新一种的身份验证好方法。那就大大低估了它的价值。我们正处于一个新时代的入口。
人有70%的能量是被大脑消耗的，大脑90%的能量是用来处理视觉信息，而大部分的视觉信息来自人脸。这个世界上最变化多端、最阴晴不定、最让人魂牵梦绕、最难以捉摸的就是一张张人脸。它耗费了我们最主要的能量。你说搞定它会有多大价值？
《碟中谍4》有一个场景。我朝着一个人走去，他的眼镜里立刻识别出我的身份并且显示“这个人可能杀你”，但他从口袋里拿出手机之前我已经掏枪把他毙了。每次看见Google Glass就会想起这个场景。我坚信谷歌收购两家人脸识别公司可不仅是为了图片搜索，更为Google Glass。
再换个角度理解这个新时代。人脸识别只是一个表象，背后是基于视频的图像处理技术。这是下一代人机交互的制高点。
iPhone 和 iPad 带来了什么？就是在与计算机交互的方式上，用触摸淘汰掉键盘敲字。第一次转换。
那接下来会发生什么？Siri带来的提示是语音。键盘敲字需要十根指头，但触摸只需要一根，但语音连一根都不需要。第二次转换。语音的识别已经相当成熟。这里介绍一个有趣应用Shazam。它靠一个简单功能就有了2.5亿用户。当你听到一首歌却不知道它的名字，让Shazam“听一会儿”，几秒后它就会返回这首歌的名字以及类似的歌曲。
但语音还是单调，活生生的人需要动作。于是有了Kinect，对人体动作的精确识别。但Kinect只能识别肢体动作，这确实没什么含金量，于是人脸出来了。能识别你笑、你哭、你郁闷、你释怀。你转一下眼球就知道你想翻到下一页，你一闭眼一侧脸就知道你是想关掉电视。第三次转换。
人脸识别是目前能想到的最傻瓜化、最能释放自由的人机交互方式。进一步了解它需要从三个角度入手：更多的实际应用案例，商业模式，以及为什么人脸识别在今天而不是其它时间成熟。

海阔天空，光怪陆离
人脸是身份的标志，一切与此相关的场合都可以派上用场。
从前一段震动全国的深圳跑车撞人案说起。当时深圳警方为查清楚嫌疑人，调出了事发当天相关街道和酒吧的总长度几百个小时的录像，再由很多民警挨个浏览这些视频，以找出作案的嫌疑人到底是谁。但若采用人脸识别，计算机几分钟之内就能找到答案。
中国二三线城市的医保卡滥用相当普遍。老丈人得病，拿好女婿的医保卡去就医开药。在中国这样一个人情社会里靠人把关是不靠谱的。如果把人脸信息写入医保卡，只有跟当时的人脸匹配成功医保卡才能使用，能加大作弊的成本。
在工地和矿井这些危险施工现场。在出入口和电梯等位置做人脸识别就能清楚知道谁在什么位置，如果下班时间某人还没有从工地或者某个危险地段出来或那就能自动报警，某人可能在某个位置出事了。这就是IBM“智慧的地球”的一个子项目，智慧工地。飞瑞斯为IBM提供识别数据。
最极致的情况是，登机办票再也不用身份证了。昂首挺胸对着摄像头笑一笑就行。甚至还能用来防止两人在办票后互换登机牌，警察在追踪有组织犯罪时常遇到这种情况。解法是在机舱口放一个摄像头，而不必再派一个人站在那里检票了。
说到犯罪，如果在ATM取款机内置一个人脸识别摄像头，只有当取钱的人跟该银行卡匹配成功才吐钱，那就算把银行卡和密码都偷到手也没招。
在海关，检查走私的方法目前还是靠警察肉眼观察出关的人，选择可疑的加以抽查。如果装一个摄像头，就会立刻把有走私案底的人截获出来。据说深圳福田海关用这个方法抓出的走私占总截获量的70%。
上面都属于安保防护的成本支出，要说服机构或者政府部门采纳并不容易。下面来几个有直接商业收益的例子。
人脸识别和其背后的智能视频分析对于零售业的整个链条都有助益。
从开店开始，得选址，要客流量大的地段。以前是找个人守在一个地方数人头，现在放个摄像头就行，一个都少不了。开店之后得分析进店率，路过的人多但进店的不一定多。店门口装个摄像头，精准计算进店率。进店人多但买东西的人不一定多，还要转换率。在收银台装个摄像头，一切搞定。屈臣氏在部分连锁店已经用起这一套。
再来点有含金量的活儿。
转换率为什么不高？能帮你找原因。一个人从进门开始是如何行走的，在哪里逗留时间长哪里短，行走路径如何，这个关系到店面的布局，品类和陈列是否合理。
飞瑞斯给欧洲一家书店做过案例。书店陈设的本意是要顾客在店里转一个圈然后回到出发点附近的交银台，把所有类型的书在这条轨迹上都曝光出来。但飞瑞斯依据人脸对每一个跟踪后的轨迹图显示，大部分人都在交银台附近的区域打转并没有进入到书店深处。接下来书店做了调整包括把门口跟深处的书籍类型调换，之后，进店客流大部分都会按照书店本意把一大圈走完，逗留时间和业绩随之提升。
服务还可由面到点。一家门店的大部分利润是从小部分重要客户那里赚到的。但这些重要客户却未必是持有VIP卡的人。持卡的人未必常来，常来的人未必持卡。
人脸识别又派上用场。一个人一进门，摄像头传回图像瞬间匹配此人之前的消费记录，服务员会在他落座之前就迎上前去说：程先生您又来了，还是做靠窗的位置吧，像上次那样要一壶水果茶？买单时再说：您一个月光顾本店四次，我们给你八折优惠。
这并非臆想。有家大银行已经开始使用此类服务。
做Kinect还是PrimeSense？
也许你已经看到了问题，人脸识别和智能视觉的应用遍布多领域，但作为一家掌握核心技术的公司是否要同时进入这些领域？以零售业为例，店铺需要的信息是如何改进我的店铺陈设的具体建议，单纯的用户行走轨迹是不能直接拿来用的。
简言之，一家技术公司如何对众多行业给出具体方案。VC们抛给飞瑞斯的问题就是：你有价值，但你的边界在哪里。你所在的是一个全新世界。
不过单纯从初衷出发，也许所有掌握人脸识别核心技术的公司都想成为这个领域的PrimeSense。
微软游戏机Kinect利用对人体姿势的识别创造了有趣的运动体验。但为Kinect注入识别能力的是以色列公司PrimeSense，Kinect这是为这个能力找到了用武之地并且制造出了消费者能玩起来的设备。
PrimeSense提供高精准度但同时低成本的3D动作识别技术，这些技术都体现在一块芯片上。微软、华硕这些产品制造商直接采购芯片。
看一看如下这五个方面，你就会明白为什么这个产业算是平地起风云。
第一，识别技术。
以2000年为界人脸识别有了质的突破。之前20年里识别人脸都依赖于人的五官之间的相互距离这一类参数。但在2000年之后开始对脸上纹理做识别，这一下子把精确度从60%拉上90%，到2010年左右一直提到95%。FBI正在研究下一代人脸识别，在马路上对远距离的识别精准度也会到90%，将直接用于反恐。
第二，摄像技术。
你也许会问，如何能做到对脸上纹理做识别呢？原因之一是民用数码相机的像素从2000年左右的10万拉高到2005年的几百万，到现在是上千万。一个30万像素的相机能识别1米内的人脸，500万像素能识别10米。这样十字路口的摄像头对路过的人基本都搞定。
第三，计算能力。
像素越高、数据越多，要求的CPU处理能力要强。摩尔定律至今有效。2010年多核处理器开始普及到智能手机中，为快速运算海量数据准备了物质条件。还有人说，人脸识别的需求将引发芯片公司下一次大爆发。
第四，嵌入式芯片。
只有嵌入式芯片才能帮助识别技术迅速普及到各种终端上。以2001年为分界线，之前嵌入式芯片只能做简单的控制命令，之后可以处理逻辑。但2001年时相当昂贵。到今天成本一路下降到5美金左右，才可大规模民用。
上面四点加到一起，让一套人脸识别设备从10年前的几万块下降到现在的几百块。
第五，摄像头普及。
工具有了，剩下还需要原料。也就是有足够多的摄像头随时随地把人脸拍下来。中国一线城市在2004年启动了平安城市工程，要在主要街道抓拍车牌等视频信息，后来北京等城市逐渐增加了抓拍人脸的需求，以及相应的增加了录像、存储和监控设置。现在深圳市有25万个摄像头，核心地段每平米就有1个。
到此为止，万事俱备。
对于未来的世界的描述：我们可以不再依据脸来识别人的身份，而可以依据步态。你走路的样子就能暴露你是谁，摄像头就算离你有100米远也能精确判断。你微小的一点表情，也许你对面的人都没觉察，但计算机已经知道你不高兴了。说不定用不了几年，Google Glass上就会这样的提示。
酷吧。
（节选）