Mobvista反作弊系统实现

2017 GITC上的分享,做一个简单的记录

  • Adloox estimates advertisers could be wasting $16.4 billion to fraudulent traffic and clicks manufactured by bots in 2017
  • more than double the $7.2 billion the Association of National Advertisers estimated would be lost to ad fraud in 2016.
  • The World Federation of Advertisers, meanwhile, predicted last year that ad fraud will cost advertisers $50 billion by 2025, describing the malpractice as an organized crime "second only to the drugs trade."

这是沿引adloox的分析, 2017年网络作弊导致的预算损失搞到164亿美金,预计2025年将达到500亿美金,仅次于毒品交易(如果将网络作弊看成是犯罪的话)

回到流量变现, 如果将其看成是一个生意,一个买卖的话,我们可以将流量侧看成是卖方,在卖流量,而广告主侧是买方,而Mobvista类似的广告平台,就是作为中间商负责分发赚差价(暂且抛开中间的定向,投放算法不说)。 而作弊,我们就可以看成是在这个生意中,售卖假冒伪劣商品。

抓反作弊的思路的核心,就是分析中间存在利益作为的环节,或者叫:Follow The Money。我们可以简单的认为,作弊的动机都是从supply流量侧过来的,越接近demand侧,作弊的动机越小。 而作为中间商的Mobvista,收的是demand侧,广告主的钱,所以需要保证demand的质量, 否则广告主就去投其他平台了,这也是为什么各个广告平台现在都比较在意反作弊的原因。相当于Mobvista自己构建了一个质量检测体系。这个体系的价值表现为两方面:

  • 能够保证广告主的质量,保证广告预算不丢失
  • 保证Mobvista品牌形象,做长期生意,将生意做大

作为广告平台,Mobvista的反作弊体系主要有以下四方面构成:

  1. Mobvista自建反作弊体系:主要是我们根据广告主的投诉,或者主动分析流量的特征制定的反作弊策略,目前引入的特征已经有20+维,覆盖点击作弊,安装作弊和安装劫持。目前覆盖了公司revenue的10%,还不包括市场上没有被抓出来的,可见市场上作弊的猖獗
  2. 和广告主合作定制的策略,例如监控event postback
  3. 另外比较重要的一类指标,就是跟进第三方监控平台的策略和指标,在我们自己的系统中实现
  4. 我们也会和一些知名的第三方反作弊服务合作,增强我们的反作弊服务,例如Distil Networks, Fraudlogix

从实现的方式上来看,Mobvista反作弊主要三种方式:

  1. 在线实时反作弊:例如实时的IP黑名单点击过滤,地域异常实时过滤等,直接就将点击过滤掉不发到demand侧。在线实时反作弊的优点是过滤及时,从数据层面广告主并无感知,也不会污染广告主的数据; 缺点是能够实现的策略相对较少
  2. 离线挖掘反作弊:离线周期性按天,或者周运行反作弊逻辑。优点是有大量数据特征可供分析,而且可以做各个特征的交叉。准确性和覆盖率都比较高; 缺点是这是事后的方式,可能损失已经产生无法弥补
  3. 混合方式:主要是引入了算法提供数据和建议+人工决策的方式。例如对于嫌疑比较大的CASE,算法抓出来后,并不会直接做决策,而是交由人工决策是否扣款,或者是否先不付款等

因为反作弊是和人斗的技术方向, 而人有较多的创新,所以反作弊的技术不全都适合机器学习来完成,必须有较多规则。 所以Mobvista的反作弊,可以认为30%模型+70%规则来实现

人与机器的行为区别

在反作弊分析过程中,也需要时刻牢记人的行为和机器行为的区别,虽然反作弊的人就是将机器算法的行为去模拟人的行为,但一般还是会有一些蛛丝马迹

  • 人:行为有共性,符合特殊分布 vs 机器:随机
  • 人:群体量大,个体分散 vs 机器:群体量小,个体集中
  • 人:能力受限 VS 机器:能力不受限

反作弊的思想,就是以下两点:

  • 以人为本
  • 以利益为出发点进行探索,Follow The Money

以下是几个例子:

点击安装时间差异常:

机器自动抢发

ip重复安装

点击安装时间天级别异常

最终涉及到的特征会有20+维,针对不同的作弊方式,都会比较有用,会后会有文章详细介绍

完成PPT参见:《Mobvista 反作弊系统实现

更多内容也可参见: http://semocean.com