智慧搜索数据 支撑“般若”平台
“般若”一词,是梵语Prajna的音译,意为“终极智慧”、“辨识智慧”,专指如实认知一切事物和万物本源的智慧。在纷繁复杂的现象中辨识万物的本源,这是般若的本意,也是百度金融大数据风控平台的寓意:在纷繁的世界中,帮助更多金融机构和合作伙伴,共同建立一个持续共赢的成长生态。百度金融“般若”大数据风控平台的辨识能力首先来自于百度的“智慧”数据。
通常来说,电商数据主要包括销售数据、用户购买行为数据、商品数据、客户咨询数据、售后服务数据、推广投放数据、营销活动数据,以及网站整体运营数据等,其优点是便于商品运营、用户运营和产品运营,相较搜索大数据来说,维度少,数据特征相对集中。社交数据则拥有群体性、关系性特征,拥有整体社交用户的90%,日均集纳流量超过160亿,优点是可以对群体动态具有较为准确的预测性等,社交数据的缺陷在于存在一定的风险和漏洞,如容易被人为操作,数据单一维度的造假容易,代价低。
BAT的数据各具特色,相比阿里巴巴在消费领域具有较强数据,腾讯在社交领域占据优势,百度具有海量的搜索数据。由于百度拥有中国互联网领先的流量资源,百度搜索大数据的特征是高维、稀疏的,数据涵盖人口属性、兴趣关注、消费场景、常驻位置、信用评分、APP行为等,拥有丰富的维度可以做更精准的用户画像。
智慧服务 提供场景化一体化解决方案
在AI时代,金融业的痛点包括获客难、技术升级快、风控成本高等。在基础数据上,金融领域普遍面临样本集群不大导致的数据高维、稀疏、小样本的难题。
从行业面临的痛点和挑战上看,“般若”平台通过百度独有的数据特征和算法,提出了整体解决方法:百度的“般若”风控平台,可一一破解难题:百度的梯度增强决策树可以聚合大数据高维特征,可以实现高维数据降维、增加风险区分度;百度的深度学习,将特征嵌入,利用关联挖掘等解决数据稀疏问题。“从3000+降维至400维,可将行为的风险区分度有效提升5%+”,而基于百度数亿级用户数据,通过图计算,可将信用标签传递,丰富信贷样本。
通过AI技术,百度金融对大数据进行处理、归类,梳理出很多数据特征。例如,通过Boosting算法,对大量的数据观测后进行学习,通过函数表达,在这些高维的数据中可以总结出一些特征。有了这些特征,就基本可以定义一个用户,无需把数据全部都集中在一起了。在数学上,这样的表达也可以描述为,这些数据都被分类在各个分类器里面,只要掌握了分类器的函数表达,每一个分类器里面的数据差异就可以忽略了。
百度金融技术负责人许冬亮在2017年百度世界智能金融分论坛上展示了”般若”的成绩单:在信用领域,央行征信数据加百度数据可以将客群的风险区分度提升13%;在反欺诈领域,百度已拥有百亿节点、五百亿边的关联网络,可以提升识别骗贷团伙的成功率。
许冬亮表示,百度智能金融的目标是成为一家真正意义的金融科技公司,在实现初心的道路上,“般若”通过释放百度金融的科技的能力,不断实践,让它有能力逐步涉足到传统金融机构受制于风控水平而无法涉足的领域,扩宽金融服务边界,让更多人享受到更优质、安全、高效的金融服务。