Google在2009年分别推出网页版Google相似图片搜索和Google Goggles,10年百度则推出识图搜索(shitu.baidu.com)涉水图像搜索,12年底推出全网首个人脸搜索引擎。这些产品更多是“图像匹配引擎”,它们在做的是识别并找到相似图片,而不是去理解特定场景某张图片的意图,并且面向全网寻求答案:可能是图片,更可能是翻译结果、百科知识、购买链接甚至附近的商铺。
如果把图像搜索等同于图片识别,它并不算什么高超的技术。不同领域的图像识别技术已趋于成熟,典型应用有照片管理软件、照片美化软件、公共监控设施、人脸解锁应用……到处都是图像识别技术,智能摄像头Dropcam还可以做到区分闯入监控区域的是陌生人还是宠物。
识别只是图像搜索的第一步。第二步是理解,第三步是检索。就像Siri和文本搜索一样,获得用户输入的内容比如语音转文字,然后才是理解用户意图,结合用户画像、用户历史记录、用户位置属性等个性化信息,最后根据所理解的用户意图去索引中寻找“答案”。每一步都存在着技术难点。这是为什么李彦宏在2012年KDD(知识发现世界年会)上提出9大待解技术问题,“基于内容的的视觉搜索”排在第3位。
对于平面和刚体内容的识别已经可以做到较高的识别率比如人脸、书本、CD、菜单等平面内容,召回率近90%;对于穿着的服装、行动的动物、周遭的街景、市场的蔬菜这些“非刚体”“非平面”内容,识别率是瓶颈。不过,更大的难点在于“理解用户意图”,就是要能看懂。比如用户在超市搜索蔬菜是要了解菜价;在家里可能就是要问菜谱了。搜索引擎必须要理解用户意图。如果没有这一步就只能做“相似图片搜索”这样的初级功能。
百度首席科学家吴恩达,原Google Brain负责人的“识别猫”实验闻名遐迩,它让机器通过深度学习从一堆视频中理解了猫是什么并找出了含有猫的视频。这实际上已经告诉了我们“理解图片”这个难题的答案:深度学习。
深 度学习可以模拟人脑分层思考过程,去识别图片中的部位和意图,同时通过无监督的样本训练等方式升级算法,提升识别准确率和提高理解能力,做到“能认出”和 “能看懂”。对应到我们自身的“看图过程”不难理解为何深度学习可以让机器识别和理解图像:摄像头是图像搜索的眼睛,基于云的深度学习神经网络就是图像搜 索的大脑。
未来的图像搜索会怎样?第三只眼
基于手机App的图像搜索过程还算不上最自然,因为它的搜索流程并没有做到与人眼一模一样,人们需要在搜索时再去选择或者拍摄照片,而不是所见即所得——Siri就做到了对话式的自然搜索。Google Glass和百度Eye的思路是人们佩戴便携设备,看哪里就搜索哪里,比如去买菜时看着蔬菜,去逛街时看着招牌,在地铁盯着美女的脸,均可启动搜索,没有“拍摄”环节。
这隐含了两个改变:一是图像搜索从被动到主动;二是图像搜索可以做到自动理解它看到的一切并适时启动搜索,让搜索过程更加自然。
还 有第三个重点是动态图像搜索。当前图像搜索都是静态图像,而不是动态视频。人眼在观看和理解环境时,面对的却是动态内容,本质上是海量静态图片“帧”的集 合,图像搜索发展到最后必然是可以理解动态视频,就像吴恩达的猫识别实验一样,这时候,移动摄像头基本就与人眼一样“智能”了。这与百度旗下的小度i耳目智能摄像头有着一定的结合点。
手 机百度在做切实可行的图像搜索:基于静态图片的、用户主动发起的。目前还需要培养用户习惯,用户使用越多贡献越多图片和行为数据,帮助图像搜索进化。随着 动态图像搜索、视频图像搜索的技术成熟,未来手机百度,或者基于百度的新设备,就会真正成为用户的第三只眼,实现移动场景下对“线下实体”的搜索,比如商 铺、商品、餐厅、菜品、图书、环境、招牌、景点甚至地铁对面的美女