不久前,一家业界领先的机器学习公司告诉「甲子光年」:常有客户带着迫切的反欺诈需求主动找来,但是,我们不敢接。
难点何在?
作者|晕倒羊
编辑|甲小姐
设计|孙佳栋
生死欺诈
企业越急速发展,越容易产生安全隐患。
岂安科技联合创始人兼CPO(首席产品官)刘明向「甲子光年」讲了这样一个例子:
某银行2016年为满足用户需求和提高效率,主推线上申办信用卡业务,却迎来大量虚假申请。每张卡可以透支2000元,而这些人员无从查实,导致银行半年内损失了近2个亿。
除此之外,银行的线下推广渠道为了谋求佣金、开卡奖励等分成收益的最大化,虚假开卡现象层出不穷。大量僵尸卡出现,导致银行在市场投入、份额方面的认知出现严重偏差,增加了客服和运维成本,而这些损失甚至难以估量。
仅去年一年,全球信用卡、借记卡、预付卡和私有品牌支付卡的损失就高达163.1亿美元。据中国银行业协会《中国银行业产业发展蓝皮书》显示,2016年,中国信用卡欺诈损失排名前三的欺诈类型为伪卡、虚假身份和互联网欺诈。
除了金融行业,互联网行业也面临着挑战:今年4月,湖北破获一起特大团伙诈骗案,涉案金额高达上千万元,受害者是斗鱼直播平台。
据创业基金会报道,去年6月,斗鱼报案称,其直播平台的充值系统在和苹果支付平台进行结算时,收支资金明显不符,损失严重。问题集中在充值业务“鱼翅”上。嫌疑人利用非法购买盗取的境外信用卡和手机账号,利用境外信用卡的预授权额度,在苹果应用商店进行盗刷。盗刷充值后,斗鱼直播平台会默认交易成功,发放“鱼翅”给客户,但被盗刷的持卡人发现后,只要向发卡机构证明非自己消费,就可以不支付这笔损失。而由于苹果与软件开发者之间并非实时结算,而是月度结算,结算时,苹果也就不会向斗鱼支付这笔费用。损失便由斗鱼来埋单。
O2O行业也存在大量的欺诈现象。2016年的315晚会揭露了刷单行业的一角。商家为让自己的评价高,花钱雇刷单公司用“刷手”刷单,消费者被好评误导了消费,平台也被店家“骗了补贴”——最后,大量补贴被不良店家和刷单人分掉。
图片来源:创业基金会
这些损失背后,往往有着“黑产”的身影。
“黑产”,网络黑色产业链的简称。去年9月,湖北省公安厅网安总队队长黄海军公开介绍:从目前掌握情况看,网络黑色链条呈现出分工明确、组织严密的特点,黑产从业人员已超过150万,市场规模更是达到了千亿级别。
公开资料显示,2016年,宜人贷被欺诈团伙盯上,损失了8130万元。风险管理咨询公司Kroll发布的《2016/2017年度全球反欺诈及风险报告》指出,已核实的欺诈造成的损失平均占企业营业额0.5%至3%之间不等,而这一比例还在逐年上升。
此时此刻,共有1.3亿张手机卡握在不法分子手中以实施欺诈行为。据《2017年金融反欺诈行业报告》显示,中国互联网欺诈风险在全球排名前三,网络欺诈导致的损失已达GDP的0.63%——如果按照2016年中国GDP总量74.4万亿元计算,网络欺诈导致损失高达4687.2亿元。
黑产想要得到的是直接利益,因此金融、电商、航空、游戏等“离钱近”的领域纷纷沦为重灾区。其中,如航空公司等传统企业在向互联网转型时,由于经验、资源方面的缺失,反欺诈从零开始,往往被迫交了很多“学费”。
黑产团伙手段五花八门,从假身份到猫池(一种模拟成手机终端,可同时放多张卡的设备)等攻击方式层出不穷。虽然越来越多企业意识到,必须建立安全体系对抗黑产,但自建需要大量成本投入,技术门槛也高,企业若以一己之力对抗“武装到牙齿”的黑产无疑是螳臂当车。
于是,一部分企业开始向技术服务公司抛出橄榄枝:你能不能帮我们做做反欺诈?
反欺诈,作为一个行业,市场规模约为征信市场的十分之一,达几百亿甚至千亿级别。与之相对的,则是供给上的严重不足。
从人才角度看,一名反欺诈从业者,要有技术能力、业务场景理解力、客户沟通能力,这样的复合型人才一将难求;从行业角度看,虽然国外SAS、VISA、FICO等大牌企业均已进入中国,但它们普遍不了解中国国情和数据,解决方案也难以应对中国人口基数;而国内除了阿里、腾讯等巨头,少有大公司具备反欺诈服务能力。
由此可见,初创公司在反欺诈领域存在很大的机会和空间。
毕竟,反欺诈关系着诸多企业的生死存亡。正如猛犸反欺诈副总裁刘刚对「甲子光年」所言:“反欺诈市场的繁荣,并不是因为技术突飞猛进了,是市场需求爆发了。”
反欺诈之难
不久前,一家业界领先的做机器学习的人工智能初创公司告诉「甲子光年」:常有客户带着迫切的反欺诈需求主动找来,但是,我们不敢接。
反欺诈市场盘子这么大,为什么竟然有公司将客户拒之门外?
因为它是整个技术服务领域公认的难点。
「甲子光年」综合了多个业内专家的说法,将反欺诈解决方案按产品形态分为三类,我们可逐一分析:
第一类是黑名单产品和服务。
在几十年前,FICO就已经在用黑名单反欺诈了,它在欧美地区非常知名。如果一个用户在黑名单内,便会被认为是虚假用户。此做法优点是产品轻,接入快。
然而,这种做法的缺陷在于,可能“漏网”,漏掉还没有进入黑名单内的异常用户;还可能“误杀”,一个不小心忘还款的“好人”可能直接变成“恶意用户”;又或者一些用户只在部分情况下违约,“一棍子拍死”进入黑名单,企业就流失了原本的目标用户。此外,黑名单的收集还存在一些网络隐私问题。
第二类是基于安全技术的产品和服务。
这一类,主要指利用验证码、人脸识别等安全技术反欺诈。
这种做法的隐患是,一旦技术被破解,大家却认为该技术还很安全,依旧在使用,后果便不堪设想。比如,今年央视“315”晚会爆出用假脸欺骗人脸识别技术的漏洞,一时引起恐慌。
第三类是基于机器学习技术的服务。
机器学习可以为反欺诈系统提供一个更为全面的评判结果。优势在于,机器学习可以从案例中不断学习,以适应不断更新的欺诈手段。此外,很多黑产从业者素质并不高,不会写代码,运用机器学习后,低素质的从业者自然被排除在外,而素质较高的从业者实施成本也会上升——当黑产投入大于产出,自然会选择放弃。
比较上述手段,第三种最“聪明”。然而,用机器学习做反欺诈虽然看起来很美,实现过程却非常之难。
很多客户的数据质量不够好,或者不愿意将完整数据给到技术服务商(在客户看来,给数据“价值小,风险大”),导致机器学习难以施展用武之地。
“有数据的没技术,有技术的没数据,打不通都白搭。”一位业内人士如此评价,“如果有个客户让你随便看,你还不谢天谢地?”
反欺诈总会涉及企业核心机密,而客户的信任只有一次。上述业内人士如此解释企业与反欺诈服务商的关系,“二者就像医患,企业说自己的‘病症’,服务商来‘开药治病’。没给你看过病的医生你敢相信吗?”
机器学习包含监督学习和无监督学习,单独分开来看,无论用哪种方式,在应对反欺诈时都有弊端。
监督学习的典型例子是谷歌的“猫脸识别”实验——用一个庞大的机器学习系统“学习”了数百万张标注过的猫的图片,机器便可以识别出来猫。业内人士告诉「甲子光年」,这种方法看起来很美好,却难以应用于反欺诈,因为没有异常用户的数据标签,“我不知道什么是猫,便找不到猫”。
据「甲子光年」了解,在实际应用中,由于缺乏足够的先验知识,难以提前对欺诈现象进行标注,因此很多反欺诈服务商都声称自己使用的是无监督学习技术——通过识别什么是好人,从而找出坏人。
但无监督学习也存在缺陷。无监督算法出来的结果不具有“可解释性”——当你判断一个人是坏人时,你没有办法向客户解释他是坏人的理由。“用无监督学习找出异常客户,这不是搞笑么?误报率带来的客户损失谁来解决?”一位专家向「甲子光年」表示。
这么说来,三种解决方案都存在明显的缺陷性。那么,究竟是否存在一劳永逸的完美解决方案?
刘明颇具讽刺意味地说:“要等到黑产绝迹时。”
那么,反欺诈真的没有出路了吗?
破局
我们采访了大量行业专家,发现市场玩家普遍经历了“栽坑”的过程——最开始,大家寄希望于数据,为了建立黑名单,甚至不惜收集用户的隐私数据以做反欺诈。然而,随着网络安全法的出台,这些行为统统进入了具有法律风险的灰色地带。于是,业界领先的反欺诈公司通常还是会把研究出路的重心放在技术上。
技术究竟怎么做才行?
经过诸多试错后,业界的普遍共识是:将上述三种技术方案相结合,应用的时候,哪个管用用哪个。
同盾联合创始人祝伟认为,在反欺诈领域,对于有标签的数据,就用监督学习进行异常行为检测;没标签的数据,就用无监督学习进行聚类,找出异常的人,进一步由专家鉴别,从而定义出新的欺诈特征。
瀚思产品市场总监张安清介绍到:“我们也是有监督学习和无监督学习相结合。”
虽然前文所述无监督学习存在“不可解释”的问题,但腾讯云安全技术总监王翔向「甲子光年」发表了自己的看法:不管用什么模型,最终还是要解决实际问题,至于是否可解释,只放在第二位。
当然,也有一些企业的目标并不是寻找反欺诈的普世解决方案,而只想专注于解决其中一类问题。
比如猛犸反欺诈选择专注于“设备指纹”的识别——设备指纹,是指从网络流量中提取出来的网络通讯中的所有可用信息,相当于一个设备的抽象ID。猛犸反欺诈目前已拥有超四亿条设备指纹数据,在和黑产对抗时效果不错。
在技术之外,如何赢得客户的信任,反欺诈技术公司也花足了心思。
一个赢得信任的方式是“把真相完整展示出来”。
刘明表示,他们和航空公司客户沟通需求后,首先搜集了黑产的经典欺诈方式(如恶意抢占舱位等);然后他们模拟黑产欺诈行为,以此发现客户网站的安全问题;最后,他们通过分析投入产出比,明明白白给客户演算出来其所面临的实际损失——例如10个票务代理一起恶意退票会造成大约每天2百万元损失——客户在看到了这些信息时,便选择了相信。
此外,一部分技术服务商开始试图说服客户给出数据。
刘刚正在帮一家监管类公司做反欺诈咨询,他打了一个有趣的比喻:“没有看到数据,我们永远不会给出建议——你会娶一个直到拜堂那天才看到脸的新娘吗?特征决定了价值的下限,数据决定了价值的上限,如果数据本身是杂乱无章、定义混乱的,那本身就很难产生价值。”
还有一个常见场景:遇到一个拿不准的异常数据,是选择“误杀”还是“放过”?
「甲子光年」采访过的多数厂商均认为,这个问题本质是客户风险偏好问题。厂商会在合作时明确客户对风险的偏好,根据需求选择放行、人工核实或直接终止。通常来说,企业能容忍的误报率很低,因为误报可能带来客户流失,所以很多企业在最开始的时候都会希望有尽可能少的“误杀”。
值得一提的是,我们不应该对机器学习解决反欺诈盲目崇拜。机器学习的响应速度很慢,等待模型调整和效果验证的时间会很长。反欺诈系统要考虑灵活性,不能一味追求准确率而牺牲时间。否则当你把问题完整分析出来,黑产可能已经换了新手法。
好在,随着技术进步,人工智能无法确认的欺诈因素会越来越少,通过机器学习发现未知,通过已有经验和人工结合转化为已知,二者相结合才能达到目的。刘明认为,反欺诈技术在未来一定会是机器学习和专家规则的结合,从长远来讲,解决问题才是好事情——不管黑猫白猫,抓住耗子就是好猫。
壁垒
有反欺诈服务商向「甲子光年」抱怨:我们很讨厌跟互联网公司合作,一些公司刚买了你的服务,便自行研发的反欺诈系统取代了你。
“现在是算法人才缺口,买你服务是买你的人头,”一位业内人士说,“等过两年,没有形成壁垒的,才难受。”
反欺诈初创公司究竟怎样才能构建壁垒?
张安清介绍到,瀚思的一家客户会让他们给客户员工做开发培训,这其实是客户的持续认可。瀚思会选择和客户一块合作,不断丰富反欺诈的场景和模型。从商业本质来看,合作的本质是“你有价值”,如果反欺诈公司的经验技术比企业更领先、成本更低、速度更快,那很就难被替代。
此外,同行之间的合作必不可少。祝伟说,金融行业存在借款人和放款人的信息不对称,为此同盾科技希望建立“反欺诈联盟”以解决多头负债问题。而王翔认为,大企业和创业公司也应该更多地合作,通过共建模型的方式一起完善效果。
“技术能被开源,人才能被挖,客户能被抢。但持续提供价值的场景难以被复制,这便是壁垒。”刘明说,未来真正的壁垒是“数据+算法+行业”的闭环解决方案。
真正的壁垒并非一日之功。“你去淘宝挖100个人也造不出淘宝,这才是壁垒,不是吗?”一位业内人士说。
急不得,一砖一瓦始成墙。一个企业,唯有不断打磨解决方案的每个环节,不断培养人才,构筑企业文化,才能最终形成属于自己的壁垒。
正如瀚思一名普通员工所说的:“慢慢走,比较快。”
END.
https://www.toutiao.com/a6480304669972234766/