《双十一技术-阿里超级工程》文档分享

分享一个巨牛的技术文档集合: 阿里双十一9年算法工程介绍《九年双十一-互联网技术超级工程》,其中介绍了阿里双十一过程中应用到的基础架构,算法,应用策略等,非常系统全面。很多算法细节并未展开,但也是从宏观上了解阿里内部技术栈,以及业务背后使用的技术非常系统的材料。材料可以从引入列表下载,也可关注微信公众号‘‘阿里技术’’下载。

另外最近的感受,就是阿里在技术的投入越来越大,沉淀越来越厚。以前经常说:百度的技术,腾讯的产品,阿里的运营。但随着阿里经济体越来越庞大,生态越发全面的同时,内部技术建设也越来越领先同行,而且阿里的技术不仅能在工业界落地,同时在学术界也产生更多贡献:现在很多顶会都能看到很多阿里技术成果的身影;同时对开源也有更多的项目贡献。

P.S. 长期招人:搜索,推荐,机器学习,语音,期待你加入阿里经济体,让天下没有难做的生意: )

参考文献:
《九年双11:互联网技术超级工程》:
https://102.alibaba.com/downloadFile.do?file=1516614343703/AliDouble11.pdf

Mobvista 海外移动变现核心技术

之前受邀在QCON进行了名为海外移动变现核心技术的演讲。正好近期也在总结过去一段时间的工作,所以就直接在这儿总结了。

流量分类

Mobvista的移动变现业务,从流量侧来看,主要分三类流量:

  1. 外部Affliliates的流量,这个就是传统的买量,很多时候我们也不知道流量的来源,仅根据数据表现,以及运营人工经验评判流量渠道的好坏
  2. Mobvista的自有流量,其实也是和开发者谈下来的流量:和开发者签订协议,将Mobvista的SDK达到开发者的app中,之后出Mobvista的广告。一般内部我们就叫该系统为M系统
  3. 程序化买量:Mobvista建立DSP,从各大ADExchange买量

Affiliates买量过程人工运营成分比较多,而DSP可以是一个专门的TOPIC,所以此处就主要介绍Mobvista的自有流量业务的挑战,以及解决方案。

挑战

移动变现,特别是国际化移动变现过程中,面临的挑战非常多,以下是主要的挑战:1,广告样式多样化:banner,appwall, offerwall, native, interstitial, native video, rewarded video。 样式丰富,效果表现不一,导致要进行算法抽象,数据共享的时候存在较大挑战

2,转化路径较长:impression -> click -> install(安装激活) -> 应用内付费。。 甚至impression之前的展示广告是否返回成功,SDK加载是否成功等都是问题

3,流量参差不齐,不同国家间网络基础设施也有较大差异

4,移动广告的归因方式, 决定了产业中出现了较多的黑科技。这个之后值得用大篇幅进行介绍

以上这些问题,都是对算法的较大挑战,也早就叫较多算法优化点以及衍生的创收的黑科技。

技术应对方案

为了应对上述挑战, 我们必须有较为完善的架构, 算法解决这些挑战。 以下为Mobvista变下架构, 主要包含如下及部分,从左至右分别为流量侧到广告主侧

1.SDK:我们会开发SDK对开发者变现流量进行托管, SDK不仅支持IOS系统, 也支持ANDROID系统, 同时支持多种广告形式, 包括native, appwall和video等广告样式, 从功能上SDK主要负责广告分发, 展现控制, 缓存机制及消费空。 其中自创的缓存机制配合算法, 不仅能大幅减少广告请求交互, 提升广告加载, 展现速度,同时还能保证开发这的ECPM

2.Mobvista会对对外的API进行封装, 所以提供直接的OPEN API供开发者调用。 当然, 一般需要配合SDK的控制机制, 才能达到较高的受益

3.Mobvista同时提供完善的广告设置管理portal对广告素材,预算, 展现机制等进行管理控制,方便对广告的金细化运营

4.同时系统中还有完善的实验机制及样式模板管理, 方便整个系统对效果的优化

5.画红线的部分主要包括我们使用大数据平台对ECPM的模型训练及预估机制

对于模型相关的组件, 在省略了工程细节后, 主要是以下算法策略在系统中的重要组件。

与传统变现系统的较大差别, 在于我们为了处理长转化路径问题,对模型进行了拆分, 拆分为CTR预估模型及CVR模型;

同时为了解决多样性问题, 我们设计了定制的优质campaign探索机制, 及Mobvista的Exploration&Exploitation机制;

同时我们使用模型assabling的方法, 对LR, GBDT, FM等模型进行组合,提升预估精度

Ecpm就是我们预估的目标, 以下是我们对ecpm的拆解方法: 其中 ctr及cvr是未知量, 需要模型进行预估。

预估的方法比较直接: 我们寻找优质高效特征对样本进行描述, 同时使用点击和安装作为labels, 之后训练模型对ctr, cvr进行预估, 最后 使用 ecpm = 1000 * ctr * cvr * price 的方式计算ecpm, 并按照计算ecpm进行广告排序推荐

每次模型升级后会使用a/b test机制进行效果测试, 选出效果最好的模型

下图为我们的模型算法框架图。

为了适应我们全球化的变现业务需求, 我们的大数据机器学习平台是给予亚马逊aws云计算搭建的。

平台分为在线预估部分和离线部分,离线部分又分为日志处理及模型训练与配置模块

我们的日志具有较强的多样性及复杂性, 主要体现在两方面:

1.Mobvsita流量覆盖230+个国家, 故我们再多国及地区均有服务器, 数据需要从多地多服务器进行快速收集汇总

2.Mobvista有多条产品线, 不同产品线为适应业需求特性, 会使用不同存储系统对数据进行存储, 故须要从不同系统中对数据进行收集汇总, 包括DynamoDB, MongoDB, 以及内部的多种API接口

数据均使用AWS EMR分布式系统进行汇总, 计算机清洗。 我们会使用azkaban任务调度系统周期性定时启动生成EMR平台, 对数据进行处理, 处理后的日志按照访问实时性要求高低分别存放在 AWS redshift和S3上。 同时我们会根据数据量大小及计算任务复杂度动态调整EMR集群资源, 在保证计算任务实时性要求的同时, 减少计算资源浪费。 并在AWS上搭建机器学习平台进行模型训练。

更多内容可以参见PPT:

更多内容可直接访问: semocean.com

 

 

Mobvista反作弊系统实现

2017 GITC上的分享,做一个简单的记录

  • Adloox estimates advertisers could be wasting $16.4 billion to fraudulent traffic and clicks manufactured by bots in 2017
  • more than double the $7.2 billion the Association of National Advertisers estimated would be lost to ad fraud in 2016.
  • The World Federation of Advertisers, meanwhile, predicted last year that ad fraud will cost advertisers $50 billion by 2025, describing the malpractice as an organized crime "second only to the drugs trade."

这是沿引adloox的分析, 2017年网络作弊导致的预算损失搞到164亿美金,预计2025年将达到500亿美金,仅次于毒品交易(如果将网络作弊看成是犯罪的话)

回到流量变现, 如果将其看成是一个生意,一个买卖的话,我们可以将流量侧看成是卖方,在卖流量,而广告主侧是买方,而Mobvista类似的广告平台,就是作为中间商负责分发赚差价(暂且抛开中间的定向,投放算法不说)。 而作弊,我们就可以看成是在这个生意中,售卖假冒伪劣商品。

抓反作弊的思路的核心,就是分析中间存在利益作为的环节,或者叫:Follow The Money。我们可以简单的认为,作弊的动机都是从supply流量侧过来的,越接近demand侧,作弊的动机越小。 而作为中间商的Mobvista,收的是demand侧,广告主的钱,所以需要保证demand的质量, 否则广告主就去投其他平台了,这也是为什么各个广告平台现在都比较在意反作弊的原因。相当于Mobvista自己构建了一个质量检测体系。这个体系的价值表现为两方面:

  • 能够保证广告主的质量,保证广告预算不丢失
  • 保证Mobvista品牌形象,做长期生意,将生意做大

作为广告平台,Mobvista的反作弊体系主要有以下四方面构成:

  1. Mobvista自建反作弊体系:主要是我们根据广告主的投诉,或者主动分析流量的特征制定的反作弊策略,目前引入的特征已经有20+维,覆盖点击作弊,安装作弊和安装劫持。目前覆盖了公司revenue的10%,还不包括市场上没有被抓出来的,可见市场上作弊的猖獗
  2. 和广告主合作定制的策略,例如监控event postback
  3. 另外比较重要的一类指标,就是跟进第三方监控平台的策略和指标,在我们自己的系统中实现
  4. 我们也会和一些知名的第三方反作弊服务合作,增强我们的反作弊服务,例如Distil Networks, Fraudlogix

从实现的方式上来看,Mobvista反作弊主要三种方式:

  1. 在线实时反作弊:例如实时的IP黑名单点击过滤,地域异常实时过滤等,直接就将点击过滤掉不发到demand侧。在线实时反作弊的优点是过滤及时,从数据层面广告主并无感知,也不会污染广告主的数据; 缺点是能够实现的策略相对较少
  2. 离线挖掘反作弊:离线周期性按天,或者周运行反作弊逻辑。优点是有大量数据特征可供分析,而且可以做各个特征的交叉。准确性和覆盖率都比较高; 缺点是这是事后的方式,可能损失已经产生无法弥补
  3. 混合方式:主要是引入了算法提供数据和建议+人工决策的方式。例如对于嫌疑比较大的CASE,算法抓出来后,并不会直接做决策,而是交由人工决策是否扣款,或者是否先不付款等

因为反作弊是和人斗的技术方向, 而人有较多的创新,所以反作弊的技术不全都适合机器学习来完成,必须有较多规则。 所以Mobvista的反作弊,可以认为30%模型+70%规则来实现

人与机器的行为区别

在反作弊分析过程中,也需要时刻牢记人的行为和机器行为的区别,虽然反作弊的人就是将机器算法的行为去模拟人的行为,但一般还是会有一些蛛丝马迹

  • 人:行为有共性,符合特殊分布 vs 机器:随机
  • 人:群体量大,个体分散 vs 机器:群体量小,个体集中
  • 人:能力受限 VS 机器:能力不受限

反作弊的思想,就是以下两点:

  • 以人为本
  • 以利益为出发点进行探索,Follow The Money

以下是几个例子:

点击安装时间差异常:

机器自动抢发

ip重复安装

点击安装时间天级别异常

最终涉及到的特征会有20+维,针对不同的作弊方式,都会比较有用,会后会有文章详细介绍

完成PPT参见:《Mobvista 反作弊系统实现

更多内容也可参见: http://semocean.com

 

 

 

 

百度在 2013 年是衰落的吗?是有怎样的依据?

知乎上受邀回答问题:“百度在 2013 年是衰落的吗?是有怎样的依据?”
正好在做自己个人的年度总结及明年的规划, 那也顺便分析下公司今年的情况。
我的观点: 2013年百度各业务发展势头都还算不错,中规中矩, 没看出特别出彩, 但完全谈不上差,而且一些行动,给别人看到老大的决心
下边的一些数据都是想到的时候从网上搜(不同的评估维度, 甚至同一维度不同的咨询公司给出的数据均会有差别)的, 谨慎参考。
可以从以下几方面看出来: 战略的推进, 内部机制
战略的推进
百度一直的思路都是去做入口, 都想直接占有用户上网需求的入口,从第一时间控制用户的上网时间。 这点从百度一贯的战略重心就能够看出来: 搜索, app下载(app下载的入口), 微购, 去哪儿, 爱奇艺等都是这样, 而今年公司在这些方面投入都很多, 也有不错的成绩: 可能变现上没有直接对百度有多大贡献,但是从市场占有方面, 提升还是非常明显的。现有搜索业务,中间页, LBS, 无线等战略方向均顺畅地推进中, 国际化没啥动静
现有搜索业务
虽然现在搜索需求增长已经放缓, 但毕竟这个业务还是最大的变现业务。 就好比股市里边说的现金牛, 虽然后续增长速度可能已经没有那么快, 但最赚钱的还是这个业务; 而且现在百度也在从生产力上提升变现效率, 例如商业知心细分各个行业提升变现能力及用户体验。教育, 金融等细分行业也已经上线。而且从财报中可以看到, 活跃用户仍然是增长的, 具体可参见13年Q3财报:Baidu | Press Releases
中间页
中间页相当于是将用户的垂直需求细化与具体, 是某个方向或点的需求满足。 例如去哪儿是出行的需求满足, 爱奇艺, 百度视频是视频的需求满足,微购是购物(虽然现在推广一般,但好歹做了个东西正在推), 而这些垂直需求与大搜索的需求整合起来, 威力的确惊人。
出行需求:这个今年百度也有比较大的动作, 去哪网上市(具体市场占有率没太关注, 但今年过年回家,在三线城市定酒店用的就是去哪儿, 而且第二天续住时,前台告诉我在去哪儿上定比较便宜, 而且网上仅支持去哪儿网, 当时感觉到去哪儿的覆盖率的确挺高) 我现在过年回家, 或是出去旅游, 基本上都是从去哪儿订票(以前都是用酷讯;不排除个人对公司的支持, 不过在上边下订单的确让人很放心, 而且价格也比携程低), 从各个维度看, 在旅游方面, 去哪儿市场占有均领先(数据均是来自网络, 谨慎参考):10月去哪儿无线端市占率38.86% 携程27.75%
视频需求: 爱奇艺与PPS合并, 外加一个百度视频, 基本上也占据了视频需求的一大块,艾瑞:10月份爱奇艺移动视频三大数据稳居第一 虽然现在还在厮杀, 但依托百度搜索这个老爸(技术+砸钱的支持, 比如百度Q3财报中显示内容的投入增加主要是在爱奇艺上: 可以参见ir.baidu.com), 市场占有率应该只会扩大, 而且现在也在推软硬件结合, 在卖各种爱奇艺电视, 小度影棒。 个人感觉这个比较有钱途, 一年多前一个创维的同学告诉我他在做互联网智能电视, 就觉得这块后续会取代传统电视:后续随着互联网电视普及, 谁还会去7点钟看脑残新闻联播? (至少我不会), 先看啥直接电视上点播, 随心所欲而且高清!
这块虽然现在不赚钱, 但赚钱迟早的事, 而且赚的是现在投钱在电视广告上的那些预算。当然, 有两个前提: 1是在现在视频市场的厮杀中不出什么大错,最后还是行业老大剩下来(当然这一块竞争还是比较激烈的, 说个狗血的小细节,说是爱奇艺买断爸爸去哪儿二期的独家网上播放权, 但内容中却可能会播放乐视的广告, 足见各种狗血各种竞争激烈); 2是政府不出强硬政策干扰这块的自由竞争发展。
91的并购
号称中国互联网最大的并购, 也体现出来百度一贯的做入口的思路与决心, 而且也让投资人看到了百度利用现有资源(现金, 技术)去为未来铺路的决心。在这方面的市场占有率也一下子就飞跃上升:百度91称日均分发8000万 市场份额超40%_科技频道
知心, 或者说其他垂直行业需求
教育, 金融, 网上购物等垂直行业都在试水, 例如教育, 金融等知心; 微购则是想整合网上的电商, 作为购物的入口。 这些垂直行业今年没那么出彩, 但至少在尝试中。
之前我就用google地图, 觉得还挺好用, 后来试了百度地图不就, 就将google地图卸载了, 这个真不是托: 百度地图真的比google做的好。 而地图虽然是个小工具(咋一看), 但背后代表的确实巨大的LBS需求, 包括各种衣食住行。 感受最深的就是11年去同学家, 当时用的还是Google地图,坐公交中转等车时,看到远处的楼盘上溪林, 然后google地图了一下, 结果当时google上就显示了上溪林售楼处的电话, 我还真就打了个电话咨询, 虽然最后没买这个盘。 但当时就意识到LBS变现潜力的巨大。
各种移动产品及APP
百度连七八糟的应用一大堆, 很多都很烂, 记得有一次出了个百度云笔记, 我用的时候真心失望无力吐槽, 烂到极点, 完全没有自己特色, 抄一个还抄的那么烂, 用它是伤我自尊。 但也有一些还算比较成功(当然和腾讯比还是差一大截,但还是在各种尝试,建立搜索的护城河) 百度移动这一年:13款过亿产品的全面布局, 有些真心好用, 例如云盘(之前一直用酷盘, 现在转到了百度云, 而且老婆的事业单位, 都实用百度云管理他们的资料), 相册, 输入法等都还不错。 这些虽然和搜索无关, 但可以说是搜索主业务的外延, 或是护城河, 占据了这些需求满足, 用户对百度的需求依赖就会更重。
无线变现(看份额的增长就比较明显)
这块在上个季度的财报中就已经体现出来, 无线搜索份额已经超过10%(参见http://ir.baidu.com), 所以这块会增长比较迅速, 也是公司的重点。
国际化: 说了好几年了, 也不知道之前说的覆盖全球一般的地区人口的目标何时能实现, 感觉没啥动静(或者有动静自己没太关注), 希望别到‘家祭无忘告乃翁’的地步
当然, 也有一个现象让人觉得挺有危机感的, 就是微信, 每次同学聚会, 一堆人都在玩手机, 而且基本都是微信。 没到这个时候就会觉得腾讯的牛叉。 这个如何破?
当然上边很多领域, 与腾讯还是有很多差集的; 而且百度非常看中技术积累, PM再给力点的话, 仍然会前途无量。
人才的引进
个人感觉百度和上面同学提到的MSRA的性质还不太一样, 百度会成立研究院, 但这些研究院都会有直接在项目中的需求, 例如deep learning会直接在百度的产品中有应用
一方面百度会在这方面有较大的持续投入, 邀请业界的专家加入百度, 也会提供较为丰厚的待遇,具体是多少我不知道, 但从公司财报可以看出(在研发上77.5%的同比投入增长: a 77.5% increase from the corresponding period in 2012, primarily due to an increase in the number of research and development personnel 参见百度2013Q3财报);另一方面百度会保证这些研究是与产品紧密结合的, 例如2013百度最高奖是语音识别引擎和通宝项目, 另外入选的团队还有基础机器学习的研究小组和deep learning在投放变现系统中的应用, 里边3个项目和基础研究有关, 都有业界大牛的带领, 而且都在具体场景中有应用:百度最高奖_百度百科
当然有一个让我一直比较困惑的, 就是百度的狼性, 这个仁者见仁, 愚者见愚(我是愚者)的东东, 我就不发表意见了。
更多内容可参见: semocean.com