设计哲学 – Semocean

《双十一技术－阿里超级工程》文档分享

分享一个巨牛的技术文档集合：阿里双十一9年算法工程介绍《九年双十一－互联网技术超级工程》，其中介绍了阿里双十一过程中应用到的基础架构，算法，应用策略等，非常系统全面。很多算法细节并未展开，但也是从宏观上了解阿里内部技术栈，以及业务背后使用的技术非常系统的材料。材料可以从引入列表下载，也可关注微信公众号‘‘阿里技术’’下载。

另外最近的感受，就是阿里在技术的投入越来越大，沉淀越来越厚。以前经常说：百度的技术，腾讯的产品，阿里的运营。但随着阿里经济体越来越庞大，生态越发全面的同时，内部技术建设也越来越领先同行，而且阿里的技术不仅能在工业界落地，同时在学术界也产生更多贡献：现在很多顶会都能看到很多阿里技术成果的身影；同时对开源也有更多的项目贡献。

P.S. 长期招人：搜索，推荐，机器学习，语音，期待你加入阿里经济体，让天下没有难做的生意：）

参考文献：
《九年双11：互联网技术超级工程》：
https://102.alibaba.com/downloadFile.do?file=1516614343703/AliDouble11.pdf

Mobvista 海外移动变现核心技术

之前受邀在QCON进行了名为海外移动变现核心技术的演讲。正好近期也在总结过去一段时间的工作，所以就直接在这儿总结了。

流量分类

Mobvista的移动变现业务，从流量侧来看，主要分三类流量：

外部Affliliates的流量，这个就是传统的买量，很多时候我们也不知道流量的来源，仅根据数据表现，以及运营人工经验评判流量渠道的好坏
Mobvista的自有流量，其实也是和开发者谈下来的流量：和开发者签订协议，将Mobvista的SDK达到开发者的app中，之后出Mobvista的广告。一般内部我们就叫该系统为M系统
程序化买量：Mobvista建立DSP，从各大ADExchange买量

Affiliates买量过程人工运营成分比较多，而DSP可以是一个专门的TOPIC，所以此处就主要介绍Mobvista的自有流量业务的挑战，以及解决方案。

挑战

移动变现，特别是国际化移动变现过程中，面临的挑战非常多，以下是主要的挑战：1，广告样式多样化：banner,appwall, offerwall, native, interstitial, native video, rewarded video。样式丰富，效果表现不一，导致要进行算法抽象，数据共享的时候存在较大挑战

2，转化路径较长：impression -> click -> install(安装激活) -> 应用内付费。。甚至impression之前的展示广告是否返回成功，SDK加载是否成功等都是问题

3，流量参差不齐，不同国家间网络基础设施也有较大差异

4，移动广告的归因方式，决定了产业中出现了较多的黑科技。这个之后值得用大篇幅进行介绍

以上这些问题，都是对算法的较大挑战，也早就叫较多算法优化点以及衍生的创收的黑科技。

技术应对方案

为了应对上述挑战，我们必须有较为完善的架构，算法解决这些挑战。以下为Mobvista变下架构，主要包含如下及部分，从左至右分别为流量侧到广告主侧

1.SDK：我们会开发SDK对开发者变现流量进行托管， SDK不仅支持IOS系统，也支持ANDROID系统，同时支持多种广告形式，包括native, appwall和video等广告样式，从功能上SDK主要负责广告分发，展现控制，缓存机制及消费空。其中自创的缓存机制配合算法，不仅能大幅减少广告请求交互，提升广告加载，展现速度，同时还能保证开发这的ECPM

2.Mobvista会对对外的API进行封装，所以提供直接的OPEN API供开发者调用。当然，一般需要配合SDK的控制机制，才能达到较高的受益

3.Mobvista同时提供完善的广告设置管理portal对广告素材，预算，展现机制等进行管理控制，方便对广告的金细化运营

4.同时系统中还有完善的实验机制及样式模板管理，方便整个系统对效果的优化

5.画红线的部分主要包括我们使用大数据平台对ECPM的模型训练及预估机制

对于模型相关的组件，在省略了工程细节后，主要是以下算法策略在系统中的重要组件。

与传统变现系统的较大差别，在于我们为了处理长转化路径问题，对模型进行了拆分，拆分为CTR预估模型及CVR模型；

同时为了解决多样性问题，我们设计了定制的优质campaign探索机制，及Mobvista的Exploration&Exploitation机制；

同时我们使用模型assabling的方法，对LR, GBDT， FM等模型进行组合，提升预估精度

Ecpm就是我们预估的目标，以下是我们对ecpm的拆解方法：其中 ctr及cvr是未知量，需要模型进行预估。

预估的方法比较直接：我们寻找优质高效特征对样本进行描述，同时使用点击和安装作为labels，之后训练模型对ctr, cvr进行预估，最后使用 ecpm = 1000 * ctr * cvr * price 的方式计算ecpm，并按照计算ecpm进行广告排序推荐

每次模型升级后会使用a/b test机制进行效果测试，选出效果最好的模型

下图为我们的模型算法框架图。

为了适应我们全球化的变现业务需求，我们的大数据机器学习平台是给予亚马逊aws云计算搭建的。

平台分为在线预估部分和离线部分，离线部分又分为日志处理及模型训练与配置模块

我们的日志具有较强的多样性及复杂性，主要体现在两方面：

1.Mobvsita流量覆盖230+个国家，故我们再多国及地区均有服务器，数据需要从多地多服务器进行快速收集汇总

2.Mobvista有多条产品线，不同产品线为适应业需求特性，会使用不同存储系统对数据进行存储，故须要从不同系统中对数据进行收集汇总，包括DynamoDB, MongoDB, 以及内部的多种API接口

数据均使用AWS EMR分布式系统进行汇总，计算机清洗。我们会使用azkaban任务调度系统周期性定时启动生成EMR平台，对数据进行处理，处理后的日志按照访问实时性要求高低分别存放在 AWS redshift和S3上。同时我们会根据数据量大小及计算任务复杂度动态调整EMR集群资源，在保证计算任务实时性要求的同时，减少计算资源浪费。并在AWS上搭建机器学习平台进行模型训练。

更多内容可以参见PPT：

QCON 2016 北京《Mobvista海外移动变现系统核心技术》

更多内容可直接访问: semocean.com

Mobvista反作弊系统实现

2017 GITC上的分享，做一个简单的记录

Adloox estimates advertisers could be wasting $16.4 billion to fraudulent traffic and clicks manufactured by bots in 2017
more than double the $7.2 billion the Association of National Advertisers estimated would be lost to ad fraud in 2016.
The World Federation of Advertisers, meanwhile, predicted last year that ad fraud will cost advertisers $50 billion by 2025, describing the malpractice as an organized crime "second only to the drugs trade."

这是沿引adloox的分析， 2017年网络作弊导致的预算损失搞到164亿美金，预计2025年将达到500亿美金，仅次于毒品交易（如果将网络作弊看成是犯罪的话）

回到流量变现，如果将其看成是一个生意，一个买卖的话，我们可以将流量侧看成是卖方，在卖流量，而广告主侧是买方，而Mobvista类似的广告平台，就是作为中间商负责分发赚差价（暂且抛开中间的定向，投放算法不说）。而作弊，我们就可以看成是在这个生意中，售卖假冒伪劣商品。

抓反作弊的思路的核心，就是分析中间存在利益作为的环节，或者叫：Follow The Money。我们可以简单的认为，作弊的动机都是从supply流量侧过来的，越接近demand侧，作弊的动机越小。而作为中间商的Mobvista，收的是demand侧，广告主的钱，所以需要保证demand的质量，否则广告主就去投其他平台了，这也是为什么各个广告平台现在都比较在意反作弊的原因。相当于Mobvista自己构建了一个质量检测体系。这个体系的价值表现为两方面：

能够保证广告主的质量，保证广告预算不丢失
保证Mobvista品牌形象，做长期生意，将生意做大

作为广告平台，Mobvista的反作弊体系主要有以下四方面构成：

Mobvista自建反作弊体系：主要是我们根据广告主的投诉，或者主动分析流量的特征制定的反作弊策略，目前引入的特征已经有20+维，覆盖点击作弊，安装作弊和安装劫持。目前覆盖了公司revenue的10%，还不包括市场上没有被抓出来的，可见市场上作弊的猖獗
和广告主合作定制的策略，例如监控event postback
另外比较重要的一类指标，就是跟进第三方监控平台的策略和指标，在我们自己的系统中实现
我们也会和一些知名的第三方反作弊服务合作，增强我们的反作弊服务，例如Distil Networks, Fraudlogix

从实现的方式上来看，Mobvista反作弊主要三种方式：

在线实时反作弊：例如实时的IP黑名单点击过滤，地域异常实时过滤等，直接就将点击过滤掉不发到demand侧。在线实时反作弊的优点是过滤及时，从数据层面广告主并无感知，也不会污染广告主的数据；缺点是能够实现的策略相对较少
离线挖掘反作弊：离线周期性按天，或者周运行反作弊逻辑。优点是有大量数据特征可供分析，而且可以做各个特征的交叉。准确性和覆盖率都比较高；缺点是这是事后的方式，可能损失已经产生无法弥补
混合方式：主要是引入了算法提供数据和建议+人工决策的方式。例如对于嫌疑比较大的CASE，算法抓出来后，并不会直接做决策，而是交由人工决策是否扣款，或者是否先不付款等

因为反作弊是和人斗的技术方向，而人有较多的创新，所以反作弊的技术不全都适合机器学习来完成，必须有较多规则。所以Mobvista的反作弊，可以认为30%模型+70%规则来实现

人与机器的行为区别

在反作弊分析过程中，也需要时刻牢记人的行为和机器行为的区别，虽然反作弊的人就是将机器算法的行为去模拟人的行为，但一般还是会有一些蛛丝马迹

人：行为有共性，符合特殊分布 vs 机器：随机
人：群体量大，个体分散 vs 机器：群体量小，个体集中
人：能力受限 VS 机器：能力不受限

反作弊的思想，就是以下两点：

以人为本
以利益为出发点进行探索，Follow The Money

以下是几个例子：

点击安装时间差异常：

机器自动抢发

ip重复安装

点击安装时间天级别异常

最终涉及到的特征会有20+维，针对不同的作弊方式，都会比较有用，会后会有文章详细介绍

完成PPT参见：《Mobvista 反作弊系统实现》

更多内容也可参见： http://semocean.com

关键词推荐工具中的用户引导机制之四：种子query推荐

上一篇《关键词推荐工具中的用户引导机制之三：相关搜索query技术》中，我们提到可使用用户query-点击日志，session数据，及网页内容，挖掘与query意图相关（同时具有变现价值）的相query推荐给客户引导用户优化搜索。如用户还未输入，此时搜索引擎默认直接展示搜索框。但在关键词推荐系统中，更好的选择是push与用户相关高质量query，帮助用户高效发现兴趣点，本文将介绍在关键词推荐系统中，实现种子词推荐产品及策略

什么是种子query推荐功能

什么是种子词query推荐，先向大家展示两个直观的例子：百度锁屏，以及百度关键词推荐种子词推荐功能。

图：百度锁屏种子词query推荐

图：红框部分为关键词推荐工具中种子query功能

种子query推荐功能作用

种子query，就是在用户在搜索框中，还没有任何搜索时，通过线下挖掘计算，主动push推荐用户潜在感兴趣的query的功能。例如百度锁屏功能的种子query，当用户锁屏准备解锁时，app推荐用户可能感兴趣的搜索引擎候选query(种子query)后，用户可以直接点击进行搜索，以提升搜索引擎访问量；在百度关键词推荐系统中，用户还没有输入适合自己的query时，可以根据用户的历史搜索，以及百度推广业务等信息，推荐高质量的种子query给客户。

大家可能会有疑惑，既然关键词推荐就是一个推荐系统，那为什么还要有种子词推荐？而Baidu，或是Google首页上，也没有种子词推荐？从我的角度来看，Baidu，Google首页之所以没有种子词推荐功能，一方面是这两个搜索引擎简单的首页的访问量实在太大，首页上任何的信息，可点击的内容均会对网民带来影响巨大的引导作用，举个例子：之前就曾经发生过类似的时间，就是在百度首页上放了一个大型网站（具体网站名不便透露）的文字链，结果在很短时间内，该网站就被来自百度该文字链的流量压垮；反过来说，在搜索引擎首页上增加种子词推荐，也会分散用户的注意力。另一方面网民的搜索内容太泛，要做到准确推荐的确有难度。

在关键词推荐系统中，特定用户搜索的（商业）query对应的意图，产品范围均相对集中，或者说使用关键词推荐系统的用户，兴趣点相对集中，难点是用户很难想出来搜索引擎上可能接受的描述该兴趣点的千奇百怪的表述。所以就需要使用种子词推荐功能进行搜索引导。

如何设计种子词推荐策略

可以很简单，也可以很难。。。

为什么说很简单，例如，在搜索引擎上，最简单的方式，就是直接使用一定时间内网民的搜索，过滤掉黄赌毒反结果，作为推荐结果。但这样做有一个问题，就是有些搜索query，基本上可以说任何时候，搜索量都比较高，例如搜索query “淘宝”。为了避免该类问题，可以使用在某一段时间内搜索量变化比较大的query作为种子query。

为什么说可以很难？因为这本来就是一个关键词推荐问题：根据用户历史行为，数据，推荐用户可能感兴趣的query。当然，种子词推荐有它的特殊性，因为推荐的优化目标是不一样的，它是一个多目标的优化问题：

符合用户的搜索意图（搜索引擎中为搜索意图，百度推广中为推广意图）
用户使用该种子词搜索后，为搜索引擎/商业系统带来的效用

假设搜索意图质量为Q（Quality），带来的效用为U（Utility），则这个多目标优化问题可以描述为：

S = Q^(t) * U^(1-t)

其中S为最终的Score，使用t控制Q与U在最终结果中的权重。

我们可以使用经典的colleborative filtering，或是content-based recommendation方法，获取到推荐词源，之后使用以上双目标优化方式计算S来进行结果的filtering和ranking，给出Score权值最高的top n 结果。

例如，在关键词推荐系统中，我们希望用户使用种子query进行搜索后，一方面结果要相关，另一方面，返回的结果数要超过阈值（或者尽可能多），此时，搜索结果相关可以被定义为Q(可以离线挖掘时使用PLSA等技术进行判断相关性)，同时使用返回结果数作为U，最终对挖掘的种子词进行filtering和ranking。

更多内容请参考：

百度关键词工具介绍参见：http://support.baidu.com/product/fc/4.html?castk=24b18bi7062c720d0d596

关键词推荐工具中的用户引导机制之一：总述

关键词推荐工具中的用户引导机制之二：suggestion架构

关键词推荐工具中的用户引导机制之三：相关搜索query技术

《recommender systems handbook》

也可关注我的微博： weibo.com/dustinsea

或是直接访问： http://semocean.com

关键词推荐工具中的用户引导机制之三：相关搜索query技术

在上一篇《关键词推荐工具中的用户引导机制之二：suggestion架构》中，我们提到，在用户在搜索引擎，或是关键词推荐工具中输入搜索query片段的过程中，我们可以提供suggestion来对用户搜索进行引导。我们可以认为此时用户的搜索意图是不全面的。而当用户已经输入完整query后，用户的搜索用途已经在某种程度上明确了，此时我们就可以使用相关搜索，扩展出与用户输入搜索意图一致/类似的高质量query，引导用户进行搜索，让用户更快地获取信息，得到所求。本文会具体介绍相关搜索类似的关键词推荐系统的策略架构，以及业界常用的相关搜索挖掘算法。

说简单一点，相关搜索query，其实也是一个关键词推荐。和adwords中关键词工具，或是百度关键词工具不同的地方，是相关搜索对质量要求非常高，而给出的结果一般比较少，即高准确，低召回。

图：百度相关搜索

图： Google相关搜索

以上分别为Baidu和Google的相关搜索结果，不知道大家是否发现，Baidu相关搜索结果多样性强一些，同时商业价值也强一些（本文不介绍商业价值机制，后文介绍的优化目标中加入商业价值因素即可）

关键词推荐工具中的用户引导机制

搜索引擎根据网民输入的检索词(query)猜测网民需要的信息，之后进行检索，排序后将相关的信息展现给网民。因为网名输入的query一般都较短，而且不同的网民使用搜索引擎的能力也不一样。所以一般搜索引擎都会有些查询引导机制，在猜测用户可能的意图后，推荐一些相关且高质量的种子query给网民。例如在百度搜索框搜索‘关键词工具’，在搜索结果的最下方，出现以下相关搜索结果：

这些相关搜索结果均是根据网民搜索session和网民搜索点击结果挖掘而来（因可能涉及泄密，百度的具体实现此处就不再介绍，后续会有博文介绍业界相关相关搜索结果的论文），这些（推荐）query一方面从搜索意图上和网民的搜索意图匹配，一方面和也能够达到引流的作用，例如能够快速引导网民找到需要的内容，或者考虑商业变现因素，能够将搜索引导向与搜索意图匹配且有商业价值的搜索上，提升搜索引擎的变现效率。

而作为完整的关键词推荐工具，不仅要能主动分析推荐结果给客户（关键词工具的用户为搜索引擎的商业客户，及广告投放客户），在用户输入种子query后展现相关结果给客户，还需要在客户操作的每一步，对客户的行为进行提示和引导。

关键词工具引导机制的功能

关键词推荐工具不仅能根据用户历史行为主动向用户push相关关键词，同时提供搜索功能，供用户输入种子query后推荐出相关的关键词。此时就会面临和搜索引擎一样的问题，用户输入query的质量，将会直接决定推荐结果的好坏，所以关键词推荐系统需要有完善的引导机制，提升用户输入query的质量，以便提升整体的推荐质量。

上图为KR关键词推荐工具

引导机制的类型及简单实现思路

一般说来，根据用户使用关键词工具的交互操作，按照交互阶段，可以将引导机制分为以下三类：

查询前：在用户进入关键词工具时，还未有任何交互时，此时关键词推荐系统主动向用户push用户可能感兴趣的种子query；具体实现时，可以根据客户历史上采纳的搜索引擎拍卖词（即客户采纳的符合客户客户推广意图的关键词）分析出客户的推广意图或业务点，使用传统推荐算法（content-based 或 collaborative 推荐算法）找出客户可能感兴趣的种子query进行推荐。该场景更偏推荐问题
查询中：即用户已经开始在关键词工具搜索框中进行输入，但输入还未完成的阶段。此时最常采用的方式是使用suggesion的方式，结合客户当前输入，向用户推荐完整的高质量query；具体suggesion挖掘，可以找到一些高频的query，结合session数据，搜索点击数据进行挖掘（百度suggesion具体的算法此处涉及泄密不再介绍，后续会有文章介绍业界公开的suggesion方法）
查询后：当客户完成一次搜索后，客户搜索的内容已经基本明确，此时就可以根据这次用户的搜索意图，找到相关的更高质量的query，以类似于搜索引擎相关搜索的方式推荐给客户。

引导机制在整个系统中的地位

引导机制无论是在搜索引擎中，或是关键词推荐系统中，都是必不可少的功能环节，能够带来以下收益：

推荐给客户能有多而好的检索结果的种子词，并逐步进行优化，提升用户体验，提高客户提词量；对于搜索引擎而言是优化输入query。
降低未曾使用过KR的客户的使用门槛，让KR的使用更为简单便利，扩大关键词工具的市场占有率；对于搜索引擎而言，也能够快速提升其他用户经常搜索的相同/类似意图的query给网民，提升搜索量。
通过种子词引导客户对账户关键词的优化，提高客户的ROI，提升百度收益，达到双赢目的。对搜索引擎而言则是能将搜索引导至相同/类似意图的搜索上，提升搜索引擎的变现效率。

如对以上功能感兴趣，各位可以在www2.baidu.com上注册一个凤巢帐号（无需缴费），在百度凤巢系统中的关键词工具中试用上述功能。

更多内容参见：

百度凤巢系统： www2.baidu.com

百度关键词工具介绍参见：http://support.baidu.com/product/fc/4.html?castk=24b18bi7062c720d0d596

suggestion的一种实现方法： Cao, Huanhuan, et al. 2008. Context-Aware Query Suggestion by Mining Click-Through and Session Data. Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2008, 875-883.

也可关注我的微博： weibo.com/dustinsea

或是直接访问： http://semocean.com

google的商业产品之路

之前公司从google总部招了一位经验非常丰富的PM。入职后就请他给大家为大家布道google的商业产品推进的方法。听了之后感触颇多，在此与记录并与大家分享(因为自己也是学习别人在google的经验，当中会加上一些自己工作中的感受，其中有疑问的地方欢迎讨论)

像google这样的公司，做出的产品基本上能够直接影响到全球，或者说是全人类的生活。而它的商业产品，也能够为这个公司成为你全球最大互联网公司提供收入保障。那google在进行商业产品的推进上，思路流程是怎样的呢？

从系统产生，项目开发的生命周期来看，比较自然地就分为三个阶段：提出想法，设计，执行/实现（即inspiration， design, excution）

首先是想法的提出(inspiration)， google在提创意的原则是：‘ think big, start small’，作为世界级的公司，google 的产品都是直接影响全球的，所以一般很多想法，创意都是冲着改变整个产业去的(to change industry， to change world)。例如google 比较成功的商业产品adwords，现在google大部分的收入，都和这个产品有关；又如百度的凤巢，贡献了百度绝大部分的变现。当然不积跬步无以至千里，一口也吃不成个胖子。在一开始的时候虽然有着美好的憧憬和无端的自信，做事的时候也是以某个具体的点入手，开始逐步推进。

然后是设计阶段(design)。我们经常讲，网民，广告主，搜索引擎三者参与商业产品的游戏，三者相互关联，获取自己想要的利益。网民需要的是信息，广告主进行自己信息的推广并希望在有限的支出下获取到最大的转化，而搜索引擎希望从广告主获取最大化的利益。而google 相较于通过搜索引擎从广告主获取最大利益，更注重广告主的收益（至少我感觉跟国内搜索引擎公司相比）， google的原则更像是： 'make customers happy, and I'm happy'。同时google认为advertisering is a repeat bussiness，让客户玩爽了，客户才会持续地投入更多的钱，从长远来说，让客户爽就能挣更多的钱。所谓细水长流，才能天长地久；但很多企业为了追求短期漂亮的财务报表，不惜杀鸡取卵。

另一个design阶段让我感触比较深的原则，就是enpower users。 google（包括baidu等其他搜索引擎公司）其实是在做平台，例如baidu未来的目标是成为全球第一大媒体平台，全球有一半的人都在用baidu的产品。。。而用户/客户才是平台上的主角，平台的目的是让之上的参与者更高效，所以google会有意地为客户提供各种提升效率的工具（self-help system and material helps customers），例如各种API, Batch工具，分析工具，让客户随时随地能够满足自己的需求。毕竟人民才是真正的用户， PM，工程师的力量再大，也大不过人民的群体智慧。

在执行阶段， google 使用data driven的方式，其实这个方式在很多策略型项目中都在使用： dash board线性开发，快速上线，线上数据说话并根据效果的分析结论快速，持续迭代。就算是失败，也能从失败的数据中定位失败的原因，然后迅速纠正。总结起来就是： persistence(持续迭代优化)， fail and learn（正确看待失败并从失败的经验，数据中进行改进）， data driven(数据平台的建设)。我是策略RD，所以这方面感触比较深，很多时候我们做的都是策略的优化，最常见的情况是策略上线后效果不明显，甚至是负面效果，此时对上线后的效果数据进行分析，一般都能发现一些之前策略设计实现的时候没有碰到的问题，之后策略中有针对性地对这些问题进行解决，几次迭代后，一般都能取得比较好的效果。

当然google商业产品的思路，远远不止这些，而且各个公司的具体环境也不一样。种子只有在合适的突然才能发芽。此处也只记录了自己粗浅的理解及感受。

写在最后，这位Google的PM大牛，就是现在力美的CTO梁信屏