在《最强大脑》的首场“人机大战”中,百度人工智能在跨年龄识别的任务上以3:2的比分险胜最强大脑代表王峰。
在此前,从深蓝到AlphaGo的多次人机大战中,交锋的重点包括记忆能力、逻辑推理、计算能力等,这一次人工智能要挑战的,除了这些之外,还包括人类经过几百万年进化的听觉、视觉等感官天赋。
在北京大学心理学系教授魏坤琳看来,在这个专业方向上,人工智能的准确率已经达到很高的水准,下一步应该是提高运算的效率和能耗。“如果这个时代,人工智能这么快地来到的话,我们应该怎么做才能够更好地发挥我们的能力,更好地发展,和更好地生存。”
人脸识别背后:微整形、双胞胎、跨年龄
与百度人工智能进行首场“人机大战”的90后选手王峰堪称“脑王”。2011年时,他曾以5分钟记忆500个数字、1小时记2660个数字、听记300个英文数字的成绩打破3项世界纪录,获得世界脑力锦标赛上“世界记忆总冠军”,并打破快速记忆扑克牌的世界纪录。
“世界记忆之父”托尼博曾高度评价他:“王峰的纪录在今后几年恐怕都没有外国选手可以打破,王峰是比赛有史以来最优秀的一名选手。而他所在的‘中国记忆精英战队’是全球最顶尖的记忆团队。”
这一次,王峰和百度人工智能比拼的是人脸识别中的跨年龄识别。按照比赛规则,第一轮由章子怡从20张蜜蜂少女队成员童年照中挑出2张高难度照片,选手通过平均只有三秒的动态录像表演将所选童年照和在场的成年少女相匹配;第二轮人机共同观察一位30岁以上的观众,随后将他从30张小学集体照中找出。
节目组测试跨年龄人脸识别评测结果
百度首席科学家吴恩达坦言,在这次比赛中,百度选择的竞赛项目对于机器来说非常困难,对于人类来说相对容易。因为机器没有直觉,也并没有久远的进化历史,只能靠分析数据来学习。“特别对于识别整容、化浓妆或者十几年跨度的照片,我们并没有大量的数据可以分析。”
可以看到的是,这两轮比赛的技术难点一方面在于蜜蜂少女队人员众多且每个人在赛场上化妆表演, 不排除有微整形、戴美瞳等因素干扰。此外,挑选的童年照都在0—4岁范围内,与现在的年龄跨度较大。而第二回合样本容量大,30张集体照大约需要在1000-2000个人脸中找到对应的人,年龄跨度也覆盖在80、90后等年龄层中。同时,比赛现场有实时照片传输、现场摄影机捕捉人脸图像晃动、灯光干扰等因素都会影响人工智能的识别准确率。
经过几分钟的屏气凝神,第一位童年照的主人轻松被双方找到。然而在确认第二张童年照的主人时,百度大脑却打出了两份有着万分之一概率不同的答案。百度首席科学家吴恩达教授解释说,这是因为两份答案的概率很接近,极有可能是现场有一对双胞胎。
人工智能识别相似度极高的双胞胎
最终,小度机器人用概率地找到了答案,这一轮,王峰惜败;接下来双方在超过千人的合影中都准确找到了对应的人。
有意思的是,在比赛结束之后,有媒体提问百度深度学习实验室主任(IDL)林元庆:“如果让打败几乎所有围棋高手的AlphaGo和百度大脑比试一场,到底谁会赢?”
林元庆给出的答案是:谷歌和百度二者选择的方向,特别是“人机大战”的方向非常不一样。“去年AlphaGo出来的时候,我们正在投入非常大的力量在无人车,百度内部没有做围棋的项目。”
人脸识别技术解密
在人类大脑中,有特定的脑区(Fusiform face area(FFA)去负责图像识别。王峰提到,自己在识别人脸的过程中,会先观察照片上的人脸特征,例如鼻子两侧、嘴角、耳朵等等,然后记住这些特征,再进行匹配。相比之下,人工智能的识别有怎样的不同?
林元庆告诉第一财经记者,通常情况下,人脸识别主要包括人脸检测、人脸图像预处理、人脸图像特征提取、人脸图像匹配与识别四个步骤。目前百度人脸测试集有2百万人的2亿张图片作为训练样本数据。
人脸识别流程图
其中,人脸检测主要包括根据眼睛、眉毛、嘴巴、鼻子等器官的特征以及相互之间的几何位置关系来检测人脸,即在在一副图像或一序列图像(比如视频)中判断是否有人脸,若有则返回人脸的大小、位置等信息。
人脸识别
而由于系统获取的原始图像由于受到各种条件的限制和随机干扰,往往不能直接使用,必须在图像处理的早期阶段对它进行灰度校正、噪声过滤等图像预处理。
人脸图像预处理
人脸图像的预处理主要包括人脸对准,人脸图像的增强,以及归一化等工作。其中,人脸对准是为了得到人脸位置端正的人脸图像;图像增强是为了改善人脸图像的质量,不仅在视觉上更加清晰图像,而且使图像更利于计算机的处理与识别;归一化工作的目标是取得尺寸一致,灰度取值范围相同的标准化人脸图像。
人脸特征提取就是针对人脸的某些特征进行的。人脸特征提取,也称人脸表征,它是对人脸进行特征建模的过程。
人脸识别就是将待识别的人脸特征与已得到的人脸特征模板进行比较,根据相似程度对人脸的身份信息进行判断。这一过程又分为两类:
一类是人脸确认,是一对一进行图像比较的过程,将某人面像与指定人员面像进行一对一的比对,根据其相似程度(一般以是否达到或超过某一量化的可信度指标/阀值为依据)来判断二者是否是同一人。
另一类是人脸辨认,是一对多进行图像匹配对比的过程。将某人面像与数据库中的多人的人脸进行比对(有时也称“一对多”比对),并根据比对结果来鉴定此人身份,或找到其中最相似的人脸,并按相似程度的大小输出检索结果。
影响人脸识别的因素有:光照、人脸姿态、遮挡程度;影响特征提取的因素有:光照、表情、遮挡、年龄、模糊是影响人脸识别精度的关键因素。
例如,在双胞胎识别上,人脸识别是在脸部骨骼上取尽可能多的点,通过计算机把这些点分别与自己已经存储的脸比较,有差别就判断出来。而双胞胎之所以会不容易识别,就是因为骨骼太相似,导致差别特别细微,如果选取的面部骨骼点不够多,就无法进行识别。
而跨年龄阶段人脸识别中影响的因素更多:一方面,类内变化通常会大于类间变化,这造成了人脸识别的巨大困难。同时,跨年龄的训练数据难以收集。没有足够多的数据,基于深度学习的神经网络很难学习到跨年龄的类内和类间变化。
基于第一点,百度IDL的人脸团队选择用度量学习的方法。即通过学习一个非线性投影函数,把图像空间投影到特征空间中。在这个特征空间里,跨年龄的同一个人的两张人脸的距离会比不同人的相似年龄的两张人脸的距离要小。
针对第二点,考虑到跨年龄人脸的稀缺性,百度IDL用一个用大规模人脸数据训练好的模型作为底座,然后用跨年龄数据对他做更新。这样不容易过拟合。而将这两点结合起来做端到端的训练,可以大幅度提升跨年龄识别的识别率。
打败人类不是终极目的
从打败几乎所有围棋高手的AlphaGo,到首场人机大战中战胜人类大脑的百度大脑,未来人工智能是否将颠覆人类世界?
在罗辑思维罗振宇眼里,人工智能不仅仅是人类的延伸,更是人类的替代。他援引尤瓦尔·赫拉利在新书《未来简史》中的观点,“未来可能出现一种没用的人。如果人工智能足够强大,愿意毫无怨言地被剥削、被奴役,那有的人类可能连被剥削的价值都没有了。近在眼前的是一系列职业的消失。”
而在北京大学心理学系教授魏坤琳看来,机器赢了就机器赢了,这是科技发展的必然结果。这天迟早会到来,只是来的早和晚的事情。
“任何新技术出现的时候老百姓都恐慌,汽车出现恐慌,火车出现恐慌,计算机出现恐慌。这个是终极恐慌人工智能的出现,可能让很多一般智力活动(包括很多白领的工作)甚至专业人员(包括某些领域的医生)的工作受到威胁。但是,我觉得人类的整体的失业率不一定会下滑,有些的工作死了,新的工作又产生了。” 魏坤琳说。
林元庆则认为,人工智能替代人类,可能会替代一些比较低端的工作,例如汽车工厂里的流水线机器人, “人工智能威胁到人类,这个事情我们的观点觉得很遥远。”
他告诉记者,百度的目的不是宣传人工智能打败了人类,最重要的是看一看百度的人工智能已经到了怎么样的水平。
目前,围绕人工智能人脸识别的行业应用包括如金融领域的远程预授信、人脸识别闸机等。
例如,远程预授信依靠的是以大数据和人工智能为基础的严谨风控体系。借助大数据+人工智能技术,风控部门为有信贷需求的群体绘制用户画像,建立信用体系,加上图像识别等人工智能技术的实际应用,构成了远程授信的技术基础。
人脸识别用于金融行业身份认证
不过,在人脸识别领域,目前人工智能并不完美。
林元庆告诉记者,百度大脑所用的深度学习的方法,可以从海量的数据里面学到的是共性,但如果说一个人嘴边长了一颗痣,机器学习就比较难,因为这不是共性。对于那些比较独特的、个性化的特征,目前人工智能还没有很好的利用。
再如识别“猫”,就算是3岁的小孩,猫摆出不同的姿势,各种各样的猫都能够很好地识别。而机器如果实现精确的识别,后面需要非常海量的数据训练,可能是成千上万的数据。训练的结果还不一定正确,下一次碰到姿势不一样的猫,有可能又识别错。“虽然我们人工智能技术过去几年取得了长足的进步,但是识别还是一个非常难的事情。”