多目标广告混排机制在超级APP中的技术

先插个招聘信息：急招推荐，搜索，语音算法，数据挖掘，工程人才，阿里P5~P9，欢迎推荐和自荐，扫码关注以下二维码了解详细信息

背景

近年大家会发现一个现象，行业中新的爆发性发展的创业公司在不断变少，最直接的原因应该是移动互联网的红利增长已经放缓，同时各个巨头也在使用不同的方式，将流量收口到自己的超级APP中，例如淘系的电商，社交的微信，内容则为头条，线下服务则是美团。其他创业公司想通过某个领域切入，进行弯道超车，在技术缺少重大变革的情况下变得更加困难；另一方面，各个超级APP，无论是何种属性，解决用户的何种需求，也都在尝试着商业化，以便让自己的业务生态形成可造血的良性闭环。

当然各家超级APP在商业化的过程中，也都遵循着商业化一直的准则在构建良性生态，尽量避免使用吃药打兴奋剂的模式，伤害到生态中的任何一个环节。总体上，在健康的商业生态中，都需要考虑C（Customer）端用户，B（Bussiness）端商家，以及P（Platform）端平台三方的利益平衡。其中C端重点要满足用户体验，解决用户痛点需求；B端主要是广告主的ROI，需要给他带来收益；P端在中间进行调整平衡，需要考虑生态的良性发展同时需要考虑收入。

同时目前的一个大趋势是超级APP中提供给用户的内容和服务已经多种多样，已经是多模态的内容提供，同时穿插着内容，服务和广告。如何对这些内容进行最高效的多目标混合分发，就是需要重点解决的课题。
例如此处单独看自然结果和原生广告的混拍，如何在保证体验不受影响（或者大的影响）的情况下提升广告收入，就是一个非常值得研究的课题。

本文会以作者在多个平台的广告经验，向大家进行目前的主流方案。原文参见semocean.com及微信公众号：semocean

混排问题分类

以出行超级APP高德为例，在高德中用户搜索后，会给用户展示匹配的POI list，该过程中，广告投放的POI会和自然结果的POI进行混排。此时就会面临自然结果和广告如何进行混排的问题。此时混排一般有两大类模式：定坑和非定坑。

定坑，简单来说定坑就是具体展示广告的位置，以及数量是固定的。该方式的优点是广告的数量，收入可控，而且自然结果和广告结果可以相对独立地进行优化；缺点是广告质量和自然结果质量不能同一拉起，可能出现自然结果质量较好但出的广告质量很差，或者反过来的情况，导致用户体验或者广告收入受损
非定坑 ,非定坑则相反，逻辑会相对复杂，广告和自然结果需要统一优化，不管是工程架构上，还是算法上，要求都更高。但能够同时考虑广告和自然结果的质量，理论上收入上限会更高。同时非顶坑也可以有多种方法，各种方法的复杂度也不尽相同。

图：（1）为定坑3和6，（2）为动态定坑，隔2插1，（3）为加权混排广告A和B

具体方法

定坑

即广告坑位出现的位置，数量，都是事先根据业务需要，或者实验方式确定下来的。属于计划经济类型。类似百度凤巢说前3个坑位可以出广告，或者某些超级APP上说放回结果list结果中第3，5，8位置上可以出广告。当然这些位置上，如果广告系统自己判定觉得在某些流量上广告总体放回结果较差，也可以不出，但这个判定也是广告系统自己进行的判定，主要会影响最终的PVR（出广告流量占总体流量占比）

动态定坑

动态坑位方式比定坑模式进了一部，相当于在出广告的时候，加入了一定的个性化因素，可以将问题定义为对于每次流量三个参数的优化[N,S,I]，其中N：出广告的条数，S：广告开始的坑位位置，I：广告之间的间隔。根据每个请求的个性化信息，以及召回后的广告质量，来动态确定参数三元组的具体值。该方式能够在广告质量较高的时候，多出广告，且能够将广告排的更靠前

加权混排

该方式需要对自然结果和广告结果进行综合考虑，拉通排序的标准进行混排。本质上相当于需要将自然结果和广告结果的价值进行统一度量。简单来说的建模方式如下：
$v=\beta \cdot rankscore+ecpm$
其中$v$为同一价值度量，$rankscore$为作为自然结果的质量分，$ecpm$为预期的广告收入。其中$rankscore$由LTR模型进行预估。$\beta$为自然结果rankscore的权重
所以：

自然结果：相当于$ecpm=0$，仅考虑rankscore自然结果的质量分。
广告结果：广告结果rankscore一般偏低，但$ecmp=Q\cdot Bid$，相当于对广告的商业价值进行加权，一般情况下按照$Q=pctr$进行计算
使用该方式就可以将自然结果和广告的价值度量进行拉起，之后进行统一排序。

具体操作

加权混排，在具体操作的时候，会面临以下几个问题：
1. rankscore和ecpm一般都不是相同分布的，具体的值不能直接线性加权计算
2. $\beta$ 值如何确定
3. 如何计费

调整具体分布
因为rankscore和ecpm是两套相对独立系统的打分，所以理论上二者分布肯定不一样

【图：rankscore&ecpm为不同分布】

所以在排序前，需要将二者的分布拉齐，否则仅简单调整$\beta$值并不能解决问题。所以我们需要找到一个函数$f$，使得$ecpm=f(randscore)$，具体对两个分布进行插值可以求解。

$\beta$求解
这个就比较考验超参数调整的经验了，当然目前超参数的调整有较多的方法和开箱即用的框架。一般现在较为常用的方法是贝叶斯优化（Bayesian Optimization）。一般具体应用场景中，广告的实效性较强（受广告供给，预算等的限定，甚至很多APP分发的场景，每天的广告变化可能超过20%），所以该超参数调整很多时候需要做到准实时化。

计费方式
业界目前最常使用的方式，还是GSP方式的二价计费。其原理是扣费并不是直接按照胜出的广告的报价进行扣费，而是按照下一位广告的报价进行扣费，该方式的好处主要是简单，以及能够让竞价者能够按照自己内心的真实性进行报价（相对来说VCG会更加复杂）
经典的$cpc=\frac{ecpm_{i+1}}{pctr_i}$ 但在自然结果和广告混排的场景中，下一位可能是自然结果，那如何进行计费？

思路是看下一个广告，例如下一个当前广告假设为$A$，下一个广告为$B$，则：
$v_A=\beta rankscore_A+ecpm_A$ $v_B=\beta rankscore_B+ecmp_B$，则我们设计 :
$cpc=\frac{v_B-\beta \cdot rankscore_A}{pctr_A}$
其物理含义为：大思路仍然是GSP，但在进行扣费的时候，广告主按照下一位广告的出价进行扣费，但会扣除掉自身因为自然结果体验值带来的位置前移。相当于当前广告为了保持当前的位置，仅需要付出将结果从下一位值，提升到当前位置的钱。

端到端多目标模型混排

理论上来说端到端的结果是最好的方式，但该方式会导致自然结果排序和广告结果完全耦合黑盒化，提升了系统不可控的风险。所以很多商业系统中都还不是这种方式。
而且自然结果体验和商业化变现目标的平衡，最后还是一个商业上的决策，并不是一个一尘不变的优化问题，例如如果一个上市公司有财报的压力，则可能会加大商业化的粒度，提升广告占比，或者在某段时间反过来更加注重用户的体验。

总结

总结下几种模式的优缺点：

模式	效果天花板	自然&广告结果耦合	系统风险
定坑	低	解偶	低
动态定坑	中	解偶	低
加权混排	中	耦合	低
端到端混拍	高	较耦合	高

广告实时性能力建设

先插个招聘信息：急招推荐，搜索，语音算法，数据挖掘，工程人才，阿里P5~P9，欢迎推荐和自荐，扫码关注以下二维码了解详细信息

背景

在很多广告的场景，我们需要对广告及流量进行实时数据特征的建设。例如对于广告侧，对于很多ADNet，可能每天的新广告能占20%，新的广告没有很强的历史数据积累，需要实时地对效果数据特征进行统计以便反馈到模型中（很多广告联盟都会面临该情况）对于流量侧，用户的需求也是在实时变化的，特别是对于很多低频的应用产品，例如高德的用户，可能平常也不用高德，但使用高德的时候，基本上都是带着LBS的本地生活需求来的，而且这类的需求需要立马得到满足，否则用户可能就使用其他应用满足其需求了。例如异地的用户到了目的地城市需要住酒店，就需要马上满足。

图：高德酒店搜索

所以，无论从广告的角度，还是流量的角度，都需要建设实时数据特征的能力来提升算法的效果。同时，如何让实时方案更加高效，如何保证流批一体的一致性，就是极有挑战和意义的工作。

技术方案

广告侧能力建设

短周期统计特征

一般从模型使用特征的角度，在搜广推中，我们都会认为主要是流量+广告+场景的特征。一般我们会周期性地（例如按天，或者按周，按月）统计广告在各个维度上的统计特征来作为广告侧的信号，例如统计广告在不同时间，不同地域，不同距离，甚至不同人群上的点击量等作为广告的统计特征。上文提到，很多场景中，广告更新比较频繁，这样就会导致在周期性统计会失效。主要有以下原因：

新广告较多，导致很多广告没有周期性统计信息
长周期的广告侧统计相对稳定，但是很难捕捉近期快速的广告效果变化

基于以上考虑，我们不仅需要有长周期的统计特征作为模型输入，同时需要有短周期的实时特征，让模型能够感知到实时效果的变化。具体的使用方式，可以根据特征物理含义的不同，使用不同的短周期对特征进行统计（例如15分钟/1小时/3小时/12小时），然后将统计值（例如impression,click, ctr,cvr）作为模型的输入。具体的输入方式和特征的形式和模型相关，例如可以直接embedding.

缺失值

很多时候，如果最近一段短周期拿不到对应的广告特征，则我们使用最近的一段短周期特征作为替代，此时为了保证特征的一致性，我们在生产特征的时候，就需要在特征生产计算的时候带上版本号，例如版本号以生产的时间t表示，则在t+1的时间周期内，我们都使用版本t的特征数据，如果没有，则使用t-1周期产生的特征数据进行拟合。

效果

一般来说，如果广告变化越快，引入广告侧的实时数据，效果就越明显，在很多LBS的本地生活场景，引入这样的短周期（多个维度）后，点击率等指标的相对提升都超过10%

用户侧实时特征

在很多低频应用中，例如高德，美团等非kill time场景，用户带着需求而来，需要快速捕捉用户在端内的需求并在端内的各个场景都体现出来，此时用户侧的实时特征建设，更像是一个用户实时画像的快速动态刻画。包括用户在各个场景的搜索，推荐内容的点击等显式和隐式的表达信息。此时一方面需要有实时的流批一体建设捕捉这些信息，同时需要将在不同场景的query，点击，甚至挖掘内容均在同一个空间进行表达，此时一方面可以将所有的query，点击广告使用预训练的embedding进行pooling到同一空间，同时可以用人可以理解的tag体系进行这些信息的显性融合，之后作为模型的用户侧特征。对于LBS这样的场景，经过丰富的实时特征处理，CTR的相对提升可以达到5%

工程实现

该部分不是本文的重点，后续可以由专门的文章介绍。但以上流批一体的操作，因为特征丰富多样，对时效性要求又极高，所以需要有高效的工程架构来支持。我们团队目前实现了基于Blink的事件总线平台，能够通过配置，就可以使用丰富的底层算子，生成Blink逻辑，并使用流水线的方式对实时数据进行加工，生成需要的特征供线上使用。类似于机器学习的tensorflow，能够根据底层算子自动进行组合。

目前平台还在打磨，后续视情况可能会开源，有兴趣的同学也可以加入我们团队一起来进行该方面的建设。

增加User Memory Embedding的深度点击率预估模型

这次参加了KDD 2019的大规模稀疏特征模型workshop，其中有比较多的论文是关于如何改进推荐，变现场景CTR预估模型的效果提升的。感觉今年很多的论文改进方向都集中在了如何更好地引入用户历史行为特征及兴趣。无论是引入RNN， transformer，或者其他的weighted pooling，都基本是是类似的思路。

以下就简单介绍下这次KDD收录的文章《Click-Through Rate Prediction with the User Memory Network》的思路，细节就不展开了，具体可以参见附件。

在按照CPC收费的广告业务中，Revenue=bid*ctr，故ctr预估的准确性一直是广告业务中的核心技术问题。现在深度学习已经成为ctr预估的标配，但传统DNN的深度ctr模型未考虑用户的点击历史行为，效果有待提升。而另一方面，RNN类的序列模型能够刻画用户的历史行为序列提升预估准确性，单RNN类的模型存在两个缺点：1是模型会比较复杂，2是数据的准备也会既复杂又冗余。

本文为了解决该问题，引入了用户唯独的like and dislike history的vector描述，两个vector作为用户feature和广告的其他feature进行concat作为input进行模型训练和预测。该方式既引入了用户的history信息，又避免了使用RNN类的模型带来的复杂性。需要注意的是，like/dislike的向量为user-wise的，故每个user都会有两个用来表示这两个历史信息的向量。

p.s. 其实这样的思路在很多场景中军可以使用，例如在地图领域，理论上引入了RNN的ETA效果也会更好，因为用于表示道路的link客观上就是呈现出序列的特性，但ETA作为基础设施访问量非常大，实效性要求又会比较高，故线上几乎不可能使用RNN作为实现方案，所以可以使用固定长度的vector对序列的link进行表示，以便使用定长的向量，一定程度上就可以表示出序列的特性，相当于是序列信息的一种折中方案。

文中提到的CTR模型如下：

图：memory network for ctr prediction

该方法在传统的DNN基础上，在将特征进行embedding的时候，引入额外的两个用户级别用于表示like&dislike的vector作为history memory信息，一定程度上引入了历史序列信息。

References:

Ouyang W, Zhang X, Ren S, et al. Click-Through Rate Prediction with the User Memory Network[J]. arXiv: Information Retrieval, 2019
论文下载：复制这段内容后打开百度网盘手机App，操作更方便哦链接:https://pan.baidu.com/s/1gFsuIIFzuKQROFLotfZldg 提取码:181v

ID+图像特征联合训练CTR模型

CTR预估一致都是广告系统，推荐系统中的核心组件，对于简单的应用场景，LR，或者GBDT等传统浅模型就已经能在有限的代价下很好地解决该问题。但对于一些影响面比较大的场景，例如BAT中核心推荐，变现场景中的CTR，每一个点的提升都非常重要，此时就需要使用技术手段对CTR预估模型进行极致优化。此时模型的选择，以及根据具体业务的模型设计创新就会比较关键。而另一条思路，则是引入多模态的特征。

LR，GBDT在极致优化的情况下可能就可以解决80%的问题；如果还需要提升，则是近年来比较流行的深度深度模型，例如Wide&Deep，DeepFM,各种FM思想的深度话；甚至还需要根据具体业务场景中提炼出来的业务特性对网络进行定制，例如阿里妈妈设计的DIN对用户历史兴趣item的weighted pooling思想。

另外一条对效果进行提升的道路就是引入多模态的信息，结合传统的id特征对模型进行训练提升效果。e.g. 引入推荐item的图片信息

下面就简单介绍一下最近读的阿里妈妈关于如何使用用户历史兴趣item图片提升模型效果的文章《Image Matters: Visually modeling user behaviors using
Advanced Model Server》。该论文是阿里妈妈广告CTR预估团队的论文。核心思想，是使用能够代表用户行为的图像（例如用户点击，购买过的商品的图像）来学习用户的兴趣。
传统的使用ID特征更多是偏记忆性质的，就是用户有没有点过这个广告，是不是对该广告感兴趣，这样的方式有两个缺点：1是在预估的时候如果出现新的未见过的ID，则模型无法处理；2是如果数据不充分，则训练效果也不会好。所以文章假设能够使用能代表用户行为的图像，来表征用户的兴趣：将图像的高维特征抽取出来后，具有较好的泛化性。

具体的做法是使用pre-training的模型获取表征用户行为的image的低维度向量表示，文中使用VGG16 FC6输出的4096维度的vector表征图像，之后对这些vector进行aggregation。之后得到的image特征表示和id features进行concat后进行CTR模型训练。
论文的创新点如下：

使用Behavioral images的抽象特征对用户行为兴趣进行刻画，而传统的方式要么只用id feature, 就算用image feature，也仅仅用ad的feature
新的基于attention的aggregation方法，该处的pooling方法不是简单的sum或者max，而是基于query的attentive的aggregation，类似于DIN中的方法
新的训练框架

当然，该论文中使用的是类似于DIN中，使用了用户历史item序列的图片来泛化用户兴趣，使用的是一序列图的聚合，而非一张图所以感觉该算法还是太重了，一般的场景感觉有点杀鸡用牛刀。另外一种折中的方案是就使用一张图，就是待推荐商品的图作为特征引入模型进行联合训练，这样的方法在很多场景中也已经在使用并得到了较好的效果验证。

参考文献：

Zhou G, Song C, Zhu X, et al. Deep Interest Network for Click-Through Rate Prediction[J]. 2017.

Ge T , Zhao L , Zhou G , et al. Image Matters: Visually modeling user behaviors using Advanced Model Server[J]. 2017.

背景介绍

在推荐系统，或者移动广告变现业务中，抛开内容的生产，用户的增长等挑战后，从算法的角度存在以下几个比较有挑战的技术点：

冷启动问题(Cold Start)：新的用户如何处理
新广告探索（Exploitation&Exploration）：没有历史统计信息的item或者广告如何快速确定其效果，既不能再新Ads上浪费过多流量，也不能每次都采用贪心算法仅关注短期利益
转化延迟产生建模问题(Modelling Delay Feedback)：从点击到最终效果的产生中间有较长时间的间隔，如何对该问题进行建模。具体问题描述和解决方案可参见《移动端转化延迟相关CPI转化率模型建模方法》
点击率预估（CTR），包括单点的《推荐系统，变现系统CTR&CVR预估算法演进－模型》，以及《推荐系统，变现系统CTR&CVR预估算法演进－多任务算法》

这些问题解决的好坏都会严重影响系统的效果，而且每一个问题在工业界&学术界都有较多的研究。

下文主要对第4个问题：点击率预估近几年的发展进行简单总结，供大家参考。

广告和推荐算是比较经典老牌的大数据落地的业务场景，而其中的核心技术点CTR预估中使用的技术，也从最经典的LR，逐步发展到树模型，FM等，而近几年随着深度学习技术的发展成熟，现在CTR预估（包括转化率预估）也逐渐开始使用深度学习，并且在各大公司的业务场景中均已经得到较大程度的效果提升。下文就对近期出现的和深度学习相关的CTR预估模型进行总结。方便我个人review也供大家参考。

问题定义

可以简单定义CTR预估问题为预估P(C|X)，其中：

C为是否点击
X为使用的特征，X在变现中会包含用户profile特征，用户行为特征，广告特征，场景上下文特征

当然，在更复杂的应用场景下，可能我们不仅需要预估CTR，同时还需要预估CVR（转化率），则此时的问题建模为：

ECPM=P(CLK|X) * P(Conversion|CLK,X) * CPA，此处主要讨论P(CLK|X).

LR

传统的方法主要是使用LR来进行CTR预估，该方法能够适用的主要原因是LR相对来说不仅比较简单，更偏记忆的模型，该模型会记忆高频出现的特征，相当于是对历史的exploitation。而且该模型容易进行并行化，线上处理也非常快，因为虽然训练的时候特征空间有数十亿维，但线上真实使用过程中，非0的特征一般也就就是个，所以处理性能较高。当然该模型缺点也比较明显，就是该模型更多是对历史的记忆，但需要很多人工特征组合，否则原特征的维度上可能不能很好地划分问题，同时人工特征组合也相当于增加了模型的个性化描述，效果会更好。

GBDT+LR

该方法是facebook发表的其广告系统中使用的CTR预估算法(参见《深度学习资料》)，也算是业界比较经典的算法了。主要思路为：1，使用GBDT进行特征抽特征（进行自动特征组合）；2，使用LR对GBDT抽取的特征（规则组合）进行权重学习。3，一般训练的方式为先将GBDT训练好，之后固定树模型并对叶子节点进行编码作为LR特征训练LR。该方式在业界有较为广泛的应用，例如滴滴路况预测中，能够提升有效准确率2%，而美团ETA应用中预估时间的MAE能够下降3.4%（与论文中3%的下降接近）.；同时文中对影响CTR模型效果的几个因素进行了分析，得到以下几个结论：

模型的自动更新很重要：模型一周不更新，效果下降1%左右，考虑到性能，甚至可以gbdt模型更新频率相对低，lr更新相对快
对于gbdt+lr模型，historical特征较为重要（top 10特征均为historical特征），但contextal特征对cold start较为重要
参数更新的schedule方法中,per-coordination方式明显好于其他方式
在display ads中，训练时可以进行负采样，但后续线上使用的时候需将概率分布转换回原分布:q=1/(p+(1-p)/w)，其中q为最终ctr值，p为采样后模型预估值，w为负采样比例

当然，如果只是预估排序而不是具体的CTR值，则可以不做步骤4。

该方式和单纯的LR相比，其实已经包含了自动特征抽取的思路，因为GBDT模型天然就是进行特征组合（抽取特征），之后再使用LR来学习这些组合特征的权重；而该方式的另外一个优点，就是能够很好地处理连续特征，如果单纯使用LR，我们还需要进行特征离散化，而GBDT天然就对连续特征进行处理。

图：GBDT+LR.使用GBDT进行特征自动组合，其实现在使用DNN的主要作用也可以认为是使用DNN自动抽取高维度特征

更进一步，在该算法的基础上逐渐出现了一系列变种，我们可以称为GBDT+LR Plus，其思路和GBDT+LR类似，只是受限于GBDT的结构，GBDT能够很自然地处理连续值特征，但对离散特征的处理不够好，反过来LR能够很好地处理连续值特征，所以后来衍生出来的模型结构，一方面使用GBDT来提取特征后作为LR的输入，同时仍然保留离散特征作为LR的另一部分输入，这样LR模型就同时具有GBDT特征组合和离散特征。当然该处的LR可以换成FM，或者FFM等模型。具体的实例参见《深度学习资料》中关于CTR部分的Kaggle Criteo Ctr预估介绍：3 Idiots’s Approach for Display Ads Challenge. 为Kaggle上Critero ctr预估第一名使用的方法，主要的思路为：

使用GBDT对连续特征，以及出现频率极高的离散特征进行特征组合（类似于FB display ads ctr预估）
组合出来的特征，结合离散化后的连续值特征，原有离散特征（共3类特征）
使用FFM进行CTR预估，并在得到CTR值后对预估值进行Calibration(简单地加减一个固定值)

图：GBDT+LR Plus:GBDT后，离散特征仍然输入至线性模型，相当于线性模型的特征输入包含两部分：离散特征+GBDT组合特征

总体来说，这个时期大家的工作还都集中在如何使用浅模型让效果最优，例如很多公司在推荐系统中使用FM(例如头条的推荐系统)，而类似于Kaggle这样的专门比赛的场景，则更倾向于ensemble的算法，例如《深度学习资料》介绍的Kaggle Avazu CTR预估：4 Idiots’s Approach for Display Advertising Click-through Rate Prediction. 另一个Kaggle上的display ads ctr prediction 比赛，冠军组使用的方法介绍中，有两个关键点：1，ensemble，目前已经成为competition的标配；2，feature engineering,文中使用了较多单独构造的feature，例如user /deviceid count, hourly impression count; user installed app bagging, user click action的编码等。最终获奖的模型为20个ffm的ensenbling

Wide&Deep

之后很长时间，工业界使用的方法都是类似于GBDT+LR，FM，FFM之类的浅模型；如果是比赛场景，则更多会在这些模型的基础上进行essemble。而对于深度学习，大家基本上都持观望态度，一方面是大家会有一个初步的判断，就是深度学习更多适用于信息完全且格式规范化的问题，例如图像（输入图像中包含所有信息，格式统一），而能不能应用在信息稀疏的场景有待验证；另一方面是深度学习对计算资源的要求比较高，一般没有GPU卡基本上不用去尝试，速度非常慢，而GPU卡的成本又非常高，所以很多公司并不会投入那么高的成本去尝试一个未知的东西，特别是创业型公司或者业务驱动的公司。直到2016年，随着GooglePlay app推荐场景，以及Youtube视频推荐场景下google在深度学习推荐上取得明显效果，且论文发布后，深度学习在这个领域的应用才得到更多的关注。

以GooglePlay app推荐为例，GooglePlay App推荐：《深度学习资料》:Cheng H T , Koc L , Harmsen J , et al. Wide & Deep Learning for Recommender Systems[J]. 2016.提出了Wide&Deep方法(同时可参见《lbs工业界eta应用及滴滴wdr技术》)，主要思路是使用Wide线性部分作为Memorization，对历史信息进行exploit，而使用Deep部分，对特征进行自动的更高层次的组合与抽象（个人理解和NLP中的模式类似，Deep部分能够学习复杂计算，同时对特征进行组合并生成embedding）进行自动特征组合，并进行更高层次的泛化，相当于对训练数据中的信息进行explore。该方法同时解决了wide需要进行手动特征组合的缺点，以及Deep有可能过拟合的缺点；而训练的方式为进行Jointly training，其中wide部分使用ftrl训练，deep部分使用adagrid后adam进行训练...Note…P.S. 目前Wide&Deep已经作为一个标准Framework解决分类和回归问题，例如滴滴ETA模型，我们使用Wide&Deep&Recurrent的WDR方法进行ETA预估（可参见《lbs工业界eta应用及滴滴wdr技术》）

图：Wide&Deep:离散特征进行embedding之后和连续特征进行concat作为deep输入

W&D变种

Wide&Deep推出后，基本上就作为业界的一个baseline的算法框架使用，在这个过程中也会有比较多的网络改进。改进的思路也基本上是在弥补Wide&Deep的各种不足。而优化的方向，基本上就是两个：要么优化wide部分的能力，要么优化deep部分的能力和效果。

Deep Cross Network

例如：Wang R, Fu B, Fu G, et al. Deep & cross network for ad click predictions[C]//Proceedings of the ADKDD’17. ACM, 2017: 12. 提出的DCN，在DNN的基础上，增加使用cross network对特征进行交叉。文中cross network有两个特点：

能够限定特征交叉的阶数（bounded order），且可以认为cross network的depth数，就是特征交叉的阶数
每次进行特征交叉的时候，相当于同时在做和第一层输入的交叉，同时在学习上一层的残差。最后cross network再和dnn进行combination。和deepfm相比：相同点是网络结构比较类似。不同点在于cross network从理论上能够从cross network的网络层数控制feature intesection的阶数..Note..

图：DCN示意图:DNN的同时，增加cross network

具体推导公式为：

图：DCN网络交叉方式：每一层均和输入进行交叉学习残差。同时可以认为cross network的层数，就是特征交叉的阶数

DeepFM

另一种比较常见的模型结构是DeepFM. 2017 Huawei App Recommender Ctr Prediction:Guo H , Tang R , Ye Y , et al. DeepFM: A Factorization-Machine based Neural Network for CTR Prediction[J]. 2017.华为App应用市场发布的推荐方法，基于Wide&Deep，区别在于两点：

将Google的Wide部分的LR模型换为FM，用于学习特征二阶交叉

不同于其他Deep的模型，FM和Deep部分使用的特征的Embedding是相同的，相当于low &hight order feature intesection都会反映到Embedding中在Wide部分和Deep部分进行共享，且训练速度和FNN（FM与训练V作为Deep Model Embedding参数初始化），PNN（Embedding和First Hiden Layer之间进行一次inner production，效果不错但增加了全连接规模导致训练较慢）要好。PS.在滴滴ETA模型中，我们就借鉴了DeepFM思路，不过其中的Deep部分会比较复杂，同时在最终的融合部分，增加了初始Additive ETA Model…..Note。该方式与传统的Wide&Deep方式相比的优势是，对于Wide部分，模型不用再使用太多人工特征，可以认为FM能够很好地完成低阶（二阶）特征组合

图：DeepFM网络结构图：1,wide部分使用FM代替；2,embedding wide&deep共享

Deep Interest Network

Zhou G , Song C , Zhu X , et al. Deep Interest Network for Click-Through Rate Prediction[J]. 2017.目前deep learning在CTR&CVR预估上，使用较多的方法是Embedding&MLP的方式，思路是对原来稀spase features先进行embedding，之后进行feature group wise的pooling，例如sum或者average，之后得到定长的vector再输入MLP（MLP可以有很多变种，例如res-net思路）。该方式在淘宝上的缺点是：user的兴趣可能不止一个，例如年轻妈妈可能关注自己喜欢的时尚衣服，同时也在购买婴儿用品，故直接sum/average的user featrues pooling方式存在信息损失，既进行pooling后，在embedding空间中得到的向量可能和该用户的众多兴趣距离都较远。故Deep Interest Network将user behavioral embeddings与ads的embedding使用local network的方式进行学习，最大程度上根据用户historical 的behavioral feature体现与ads的相关性，从网络结构的角度，我们可以认为是每个ads去和最相近的user behavior embedding来进行权重分配，以便突出地体现和该广告相关的用户行为…Note..

图：DIN（Deep Intresting Network）

FM深度化

CTR预估模型的另外一个发展方向是在原来FM的基础上，引入深度学习的思想，将二者结合起来，者可以认为是FM的扩展或者能力的增强

例如Attention Factorization Machine

Xiao J, Ye H, He X, et al. Attentional factorization machines: Learning the weight of feature interactions via attention networks[J]. arXiv preprint arXiv:1708.04617, 2017.网络结构中的设计思想是认为FM中，每个特征对应的隐变量(embedding)在使用过程中的权重都相同（均为1）是不合理的。特征在进行交叉的时候，权重应该不一样。故在FM结构中增加attention network来学习特征embedding进行element-wise交叉时候的权重。该方法一方面能够提升效果，另一方面，也能够根据特征交叉过程中的权重，分析交叉特征的重要性：通过分析网络产生的attention score，能够观测到哪些特征的组合重要性更高（和未做attention的fm相比）。而文中通过先固定attention score训练fm embedding，之后再固定embedding训练attention权重的方式，也验证了在传统fm上增加attention network的确对最终的效果有正向作用..Note..

图：添加了Attention的FM，背后的intuition是fm进行二阶交叉时，特征的重要性是不一样的，通过Attention来捕捉该差异

又例如在Neural Factorization Machine中，He X, Chua T S. Neural factorization machines for sparse predictive analytics[C]//Proceedings of the 40th International ACM SIGIR conference on Research and Development in Information Retrieval. ACM, 2017: 355-364.在FM后增加了隐藏层，以便在原有FM线性二阶交叉的基础上增加非线性的更多特征交叉。这类方法我们都可以认为是在FM的基础上，使用DNN的思路，对FM进行能力的增强。

图：Neural Factorization Machine在FM进行二阶embedding交叉后，引入DNN进行更高阶交叉

Spatio&Temporal Net

指在NN的基础上，充分考虑推荐场景下Spatio&Temporal特征，此处空间时间维度的特征在不同场景下含义可以不一致，例如在论文《Deep Spatio-Temporal Neural Networks for Click-Through Rate Prediction》中，主要思想还是使用深度学习进行高维特征交叉。创新点在于该点击率模型同时考虑了空间关系和时间关系对点击率的影响。

该处的空间关系指即将展现的候选广告之前的作为上下文的广告，作为该ad的context，而该用户历史上点击过&未点击的ads则作为空间时序上用户的兴趣表达（该思想和DIN类似）

在具体实施时，文中使用了递进的三种模型：1，特征embedding后直接进行sum pooling；2，解决加入attention机制解决sum pooling带来的信息丢失问题；3，引入context和target的交叉解决context对多个广告不变的问题

总体文章的思路比较直接，最重要创新就是同时引入上下文和用户时间维度上的兴趣表达

总结

当前的CTR预估已经大规模使用深度学习，而且在工业界和学术界仍然在不断地有新的网络结构出现，所以不出意外这些新的网络结构的研究应该还能火两三年。但今年去加拿大参加NeuraIPS时发现一个趋势，就是很多研究人员，以及类似于Google这样的公司都在大力投入到AutoML中，也就是使用机器学习的方法，类似于搭积木似的去寻找最优化的网络结构（超参数）组合，所以会不会两三年后，网络结构的创新，会被AutoML所取代？这个不得而知

参考文献

Mobvista 海外移动变现核心技术

之前受邀在QCON进行了名为海外移动变现核心技术的演讲。正好近期也在总结过去一段时间的工作，所以就直接在这儿总结了。

流量分类

Mobvista的移动变现业务，从流量侧来看，主要分三类流量：

外部Affliliates的流量，这个就是传统的买量，很多时候我们也不知道流量的来源，仅根据数据表现，以及运营人工经验评判流量渠道的好坏
Mobvista的自有流量，其实也是和开发者谈下来的流量：和开发者签订协议，将Mobvista的SDK达到开发者的app中，之后出Mobvista的广告。一般内部我们就叫该系统为M系统
程序化买量：Mobvista建立DSP，从各大ADExchange买量

Affiliates买量过程人工运营成分比较多，而DSP可以是一个专门的TOPIC，所以此处就主要介绍Mobvista的自有流量业务的挑战，以及解决方案。

挑战

移动变现，特别是国际化移动变现过程中，面临的挑战非常多，以下是主要的挑战：1，广告样式多样化：banner,appwall, offerwall, native, interstitial, native video, rewarded video。样式丰富，效果表现不一，导致要进行算法抽象，数据共享的时候存在较大挑战

2，转化路径较长：impression -> click -> install(安装激活) -> 应用内付费。。甚至impression之前的展示广告是否返回成功，SDK加载是否成功等都是问题

3，流量参差不齐，不同国家间网络基础设施也有较大差异

4，移动广告的归因方式，决定了产业中出现了较多的黑科技。这个之后值得用大篇幅进行介绍

以上这些问题，都是对算法的较大挑战，也早就叫较多算法优化点以及衍生的创收的黑科技。

技术应对方案

为了应对上述挑战，我们必须有较为完善的架构，算法解决这些挑战。以下为Mobvista变下架构，主要包含如下及部分，从左至右分别为流量侧到广告主侧

1.SDK：我们会开发SDK对开发者变现流量进行托管， SDK不仅支持IOS系统，也支持ANDROID系统，同时支持多种广告形式，包括native, appwall和video等广告样式，从功能上SDK主要负责广告分发，展现控制，缓存机制及消费空。其中自创的缓存机制配合算法，不仅能大幅减少广告请求交互，提升广告加载，展现速度，同时还能保证开发这的ECPM

2.Mobvista会对对外的API进行封装，所以提供直接的OPEN API供开发者调用。当然，一般需要配合SDK的控制机制，才能达到较高的受益

3.Mobvista同时提供完善的广告设置管理portal对广告素材，预算，展现机制等进行管理控制，方便对广告的金细化运营

4.同时系统中还有完善的实验机制及样式模板管理，方便整个系统对效果的优化

5.画红线的部分主要包括我们使用大数据平台对ECPM的模型训练及预估机制

对于模型相关的组件，在省略了工程细节后，主要是以下算法策略在系统中的重要组件。

与传统变现系统的较大差别，在于我们为了处理长转化路径问题，对模型进行了拆分，拆分为CTR预估模型及CVR模型；

同时为了解决多样性问题，我们设计了定制的优质campaign探索机制，及Mobvista的Exploration&Exploitation机制；

同时我们使用模型assabling的方法，对LR, GBDT， FM等模型进行组合，提升预估精度

Ecpm就是我们预估的目标，以下是我们对ecpm的拆解方法：其中 ctr及cvr是未知量，需要模型进行预估。

预估的方法比较直接：我们寻找优质高效特征对样本进行描述，同时使用点击和安装作为labels，之后训练模型对ctr, cvr进行预估，最后使用 ecpm = 1000 * ctr * cvr * price 的方式计算ecpm，并按照计算ecpm进行广告排序推荐

每次模型升级后会使用a/b test机制进行效果测试，选出效果最好的模型

下图为我们的模型算法框架图。

为了适应我们全球化的变现业务需求，我们的大数据机器学习平台是给予亚马逊aws云计算搭建的。

平台分为在线预估部分和离线部分，离线部分又分为日志处理及模型训练与配置模块

我们的日志具有较强的多样性及复杂性，主要体现在两方面：

1.Mobvsita流量覆盖230+个国家，故我们再多国及地区均有服务器，数据需要从多地多服务器进行快速收集汇总

2.Mobvista有多条产品线，不同产品线为适应业需求特性，会使用不同存储系统对数据进行存储，故须要从不同系统中对数据进行收集汇总，包括DynamoDB, MongoDB, 以及内部的多种API接口

数据均使用AWS EMR分布式系统进行汇总，计算机清洗。我们会使用azkaban任务调度系统周期性定时启动生成EMR平台，对数据进行处理，处理后的日志按照访问实时性要求高低分别存放在 AWS redshift和S3上。同时我们会根据数据量大小及计算任务复杂度动态调整EMR集群资源，在保证计算任务实时性要求的同时，减少计算资源浪费。并在AWS上搭建机器学习平台进行模型训练。

更多内容可以参见PPT：

QCON 2016 北京《Mobvista海外移动变现系统核心技术》

更多内容可直接访问: semocean.com

如何使用机器学习解决实际问题-以关键词相关性模型为例

本文以百度关键词搜索推荐工具字面相关性模型为基础，介绍一个机器学习任务的具体设计实现。包括目标的设定，训练数据准备，特征选择及筛选，以及模型的训练及优化。该模型可扩展到语意相关性模型，搜索引擎相关性及LTR学习任务的设计实现。该模型的设计调研实现，也可以很容易移植解决其他包括语义相关性的问题

目标设定：提升关键词搜索相关性

作为一个搜索+推荐产品，百度关键词搜索推荐系统的产品形态是向凤巢用户推荐适合他业务的关键词。例如一个卖鲜花的广告主，他想在百度上做关键词搜索推广时，需要提交和他业务相关的关键词，而且提交的关键词需要业务相关，例如他需要提交和卖鲜花业务相关的关键词。例如鲜花快递，鲜花速递等。此时他可以在百度关键词搜索推荐系统中进行搜索查询，选择适合他的关键词。

百度关键词搜索推荐系统query搜索

这是一个典型的搜索问题，具体的从输入query，到触发，到排序等会涉及到很多因素，例如如何查倒排，如果处理地域因素等；要提升搜索的质量，我们首先需要保证输入的query和推荐出来的推荐词的相关性，此处我们要解决的主要问题，就是如何快速，准确地判断两个关键词（输入query和推荐词）的相关性，需要特别注明的是，我们主要的目标是让用户觉得该产品结果很靠谱，所以该处我们仅考虑字面相关性，更多的语意扩展该模型并未考虑。

注：该模型的调研实验实现方式，可以很容易平移到语义相关性。例如加入更多语意特征，例如plsa的bm25特征和word2vec的相似度特征（或者和扩展的相关性校验，例如将待推荐词扩展为baidu搜索结果的摘要扩展）提高语义特征的贡献。

相关性也是所有搜索问题的基石，只不过在不同的系统中使用方式不一样，在一般的搜索中，相关性占有较大权重，排序基本就以相关性为依据；在商业系统中，相关性则经常作为搜索展现的门槛用于控制商业推广结果的质量（如果仅考虑CTR，用户搜索鲜花快递时，给用户展现艳照门的结果，CTR会更高，但相关性较差）。当然，判断相关性我们可以简单使用某一种方法进行直接判定，例如直接进行两个关键词的TF-IDF计算，或是进行两个关键词的BM25。但这样的方式效果都不太理想，想要达到更好的效果，就需要使用更多特征，而更多特征很自然地，需要使用模型组合这些特征，达到最终的预期效果。

图：相关性在关键词系统中的位置

此处将会使用机器学习的方法解决该问题。本文以下内容会从数据准备，特征选择，模型选择，模

型调优等步骤介绍百度关键词搜索推荐系统如何解决该问题

数据，特征，模型

说到使用机器学习解决问题，我们经常提到的优化思路就是3方面的优化：数据，特征，模型。首先找到充足的，准确的label数据（该出仅考虑有监督学习任务，例如相关性，或是LTR），之后提取贡献较大的特征作为input space，以label作为output /ground true label，之后优化模型（Hypothesis) ）。下面会分别从这3方面对整个优化过程进行阐述

准备训练数据

训练数据的获取一般有几种方式：

人工标注：优点是质量较高，噪音较少；缺点是标注结果和标注者本身的认识相关，例如在搜索引擎中，判定苹果和手机的相关性，对于年轻人，一般都认为相关；但对于比较多的老人，可能认为不相关；另外一个缺点就是人工获取标注的成本较高
从日志中进行挖掘：优点是数据量相对更大，获取成本较低（编写几个hadoop脚本对日志进行统计）；缺点是噪音较多，例如搜索引擎中的恶意抓取访问导致的噪音数据

在相关性模型中，一开始我们使用百度关键词搜索推荐系统的人工反馈数据作为label对模型进行训练，分别提取1.5W query-推荐词pair作为正负例进行特征提取，模型训练。

如图所示，在交互上，当用户喜欢该关键词时，就会点击‘大拇指’表示该结果符合用户需求（正反馈，该query-推荐词 pair可作为正例）；如用户认为该关键词不符合需求，就会点击‘垃圾桶’，将该关键词扔入回收站（负反馈，该query-推荐词 pair 可作为负例）

在实验中，我们发现正例没有问题，不过负例中会存在较多这样的情形： query-推荐词是相关的，但该用户不做该业务，所以被定义为负例，所以负例个性化较强。所以后来我们让产品经理同学又对负例子进行筛选，重新标注1.5W负例，进行后续特征提取，模型训练。

之后我们将正负例打散后（直接使用python random.shuffle）分成10份，进行cross-validation

模型训练前，先定标准和样本

注：训练样本的挑选完全决定了我们的问题目标，所以在一开始就需要准确选择，如果可能，所有的case都最好人工来搞，或者至少需要人工review。确定没有问题后，再开展后续工作。特别是相关性类似的问题，比较主观，例如PM和RD在该问题的判断上就可能存在一定差异。

确定完训练样本，评估标准，之后再小布快跑，优化模型。

特征提取

一般特征的选择及处理会极大地影响学习任务的效果，而进行特征选择的时候，一般是先增加特征，并实验效果。对于相关性模型，我们可以先将传统的信息检索的特征加上，这些特征一般分为以下几类：

query/候选词的一般结构特征：例如query/候选词长度，term数等
query-候选词的相关性度量：例如TF-IDF, bm25, LMIR及多重变种， plsa相似度度量，word2vec语意向量相似度等；很多时候，关键词自身信息较少，还可以使用关键词在搜索引擎上的摘要扩展进行相似度度量
关键词自身在信息检索维度的重要性度量，例如关键词idf, 从语言模型方面的重要度等

在一开始的时候，我们可以先将能够想到，构造出来的特征均加入特征向量进行实验，而且每加一类特征，都可以看下该类特征对整体目标的提升程度。以便对该特征的贡献度有一个直观的感受。

以下数据可以简单看出随着特征的增加，效果的提升，其中的特征仅加不减（模型使用random forest 进行二分类）：

等到特征加得差不多，模型准确性已经提升不多的时候，可以考虑砍特征，有一种比较简单粗暴有效的砍特征的方法，就是使用树模型，就是直接砍掉特征贡献程度及特征重要性较低的特征，例如直砍掉特征贡献度为0的特征，对相关性模型的准确性几乎没有影响

特征贡献度

当增加特征已经很难提升效果，考虑到为了防止过拟合，同时考虑到模型online预测，需要对特征进行挑选。在使用树模型时，可以直接使用数节点特征贡献度和节点使用次数，判断是否需要去除该特征，以下为使用树模型进行选择特征的例子：

对于特征贡献度和分裂特征使用次数为0的特征，在调研时，直接去除对模型效果几乎没有影响，而且能提升预测的效率。

在选择特征的时候，有一些经验值得分享：

bm25特征及term weight特征对分类任务有极大贡献
一些单独的比值类特征并没有太大贡献，例如query，推荐词共同term与query term数，推荐词term数的比值，这些特征并没有太大贡献，但是这些特征与query，推荐词的term数结合到一起，贡献就非常多；所以有些特征需要联合在一起，才有较大作用。
特征选择需要和目标一致：例如word2vec是非常高大上，且非常靠谱的技术，但用在字面相关性，对目标并没有太大贡献（如果目标是语意相关，那么类似于PLSA,word2vec将会有很大贡献）
有些特征就就是用来解决特殊case的，虽然贡献不大，但需要保留（当然也可以直接设置为强规则与模型配合），例如query与推荐词拼音一致

模型选择

经典模型

最开始我们尝试了最大熵，SVM和adaboost模型，考虑到online使用的效率，最终我们选择了adaboost模型作为线上使用的模型，虽然效果不是最好的，但使用简单的weak learner构建的模型的确比较快（参见博文：《adaboost》），并且使用adaboost进行上线并取得较好效果：上线后不仅召回增加，准确性上90%的case相关性高于等于原有结果（采用非模型的版本）

评估结果分布图（2到-2分别代表扩召回结果相关性高于、略高于、等于、略低于、低于线上策略）

集成树模型

现在特别喜欢使用树模型，因为使用的时候，连特征归一化都省了：如果使用SVM类似的模型，还需要对特征进行归一化等处理，但使用树模型，直接将特征向量及label扔给模型，模型自己会根据信息增益，或是基尼系数等标准选择最合适的拆分点进行树节点的拆分（具体的拆分标准可参见博文：《使用impurity选择树模型拆分节点》），开源的树模型，例如大名鼎鼎的Quinlan的C4.5或是C5.0都在调研时都可以拿来试试作为特征选择的依据。

特别是集成树模型的出现，更是极大地提升了树模型效果。所以现在的项目中，我比较喜欢在增加特征的时候就使用集成树模型进行效果实验。具体树模型使用参见《集成树类模型及其在搜索推荐系统中的应用》

集成树模型配置选择

此处的配置选择和传统的模型参数稍有区别，该出的树模型配置主要指集成树模型中树的数量，每棵树的特征选择因子和样本使用因子等。在项目中，考虑到准确率和速度，最终确定的参数是树的数量是20，特征选择因子和样本选择因子均为0.65（每棵树随机选择0.65的样本和特征进行训练）

具体产品效果可参见www2.baidu.com中百度关键词搜索推荐系统的排序结果：

如何个性化

首要需要考虑的是我们的数据样本，是否本身就是包含个性化的case（此处的答案是否定的）；假设我们的标注case是个性化的，也就是case中本身就包含了个性化结果时，在模型训练流程上其实并没有太大区别，主要的区别就在于我们选取哪些能够区分这些个性化的特征，例如百度凤巢中账户（单元）的plsa模型产出的pzd向量与query的相似度等

登录www2.baidu.com->关键词工具->搜索query->查看结果即可。

更多内容也可参见： http://semocean.com

一个完整推荐系统的设计实现-以百度关键词搜索推荐为例

在之前一篇博文中，有同学在评论中问了个问题：如何解决因式分解带来的推荐冷门，热门关键词的问题。在回答这个问题的时候，想到了近几年在做搜索推荐系统的过程中，学术界和工业界的一些区别。正好最近正在做技术规划，于是写偏文章说下工业界完整推荐系统的设计。结论是：没有某种算法能够完全解决问题，多重算法+交互设计，才能解决特定场景的需求。下文也对之前的一些博文进行梳理，构成一个完整工业界推荐系统所具有的方方面面（主要以百度关键词搜索推荐系统为例）

完整的推荐系统肯定不会只用一种推荐算法

在学术界，一般说到推荐引擎，我们都是围绕着某一种单独的算法的效果优化进行的，例如按内容推荐，协同过滤（包括item-based, user-based, SVD分解等），上下文推荐，Constraint-based推荐，图关系挖掘等。很多比较牛的单个算法，就能在某个指标上取得较好效果，例如MAE，RMSE。。。不过有自己的优点，每种算法也有自己的缺点，例如按内容推荐主要推荐和用户历史结果相似的item，一般的item-based容易推荐热门item（被更多人投票过）。。。。所以在工业界，例如各互联网公司，都会使用多种算法进行互相配合，取长补短，配合产品提升效果。而且在完整的推荐系统中，不仅有传统的Rating推荐，还需要辅以非常多的挖掘， Ranking来达到预期效果。

推荐系统3大件：User Profile、基础挖掘推荐、Ranking

在实践中，一个完整的推荐系统会主要由3部分组成：

User Profile
基础推荐挖掘算法
Ranking

此处之所以将Ranking单独列出来，是因为其在推荐任务中过于重要，直接决定了推荐的效果。

以下为整个推荐的数据流：

User Profile

A user profile is a representation of information about an individual user that is essential for the (intelligent) application we are considering user profile主要是用户（注册）信息，以及对用户反馈的信息进行处理，聚合，用于描述用户的特征；是后续推荐和排序的基石。一般情况下，user profile会包含以下具体内容：

用户兴趣数据
用户的基础注册信息，背景信息：例如用户出生地，年龄，性别，星座，职业等。这些信息一般从用户注册信息中获取；例如高德，百度地图注册用户，淘宝注册用户等
用户行为反馈：包括显示的反馈(explicit)和隐藏(implicit)的反馈，显示的反馈包括用户的评分，点赞等操作，百度关键词搜索推荐工具上的点赞（正向显示反馈）和垃圾桶（负向显示反馈），淘宝上的评分；隐式反馈包括用户的浏览行为，例如在百度关键词搜索推荐上搜过那些词，淘宝上点击了那些页面，在高德上点击了那些POI等
用户交互偏好：例如用户喜欢使用哪些入口，喜欢哪些操作，以及从这些操作中分析出来的偏好，比如在高德地图上根据用户行为反馈分析出来的用户对美食的偏好：更喜欢火锅，粤菜，还是快餐
用户上下文信息：这些信息有些是分析出来的，例如在LBS中分析出来的用户的家在哪儿，公司在哪儿，经常活动的商圈，经常使用的路线等

user profile经常是一份维护好的数据，在使用的时候，会直接使用该数据，或是将该数据存储在KV系统中，供Online系统实时使用。在搜索或是推荐的场景下，每次请求一般只会涉及到一次user profile的KV请求，所以online使用的时候，主要的实现困难是存储，以及快速KV的快速响应。

基础挖掘推荐算法

基础挖掘推荐算法，主要使用传统推荐算法，结合分析的item profile和user profile，建立user和item的关系，此时并不会过多考虑其他因素，例如是否冷门/热门，最主要的就是建立user和item的关系。在各种论文中狭义的推荐，主要就是指该部分内容。主要围绕着Rating，以及Top N进行该处的Top N（更像是直接Rating值最高的Top N）传统的推荐算法研究主要围着这块工作进行，现在已经有很多比较成熟的算法，这些算法相关的研究可参见博文：《推荐系统经典论文文献及资料》；其中也能找到业界较多成功推荐系统的实践分享主要包含以下几类：

Content Based推荐：按内容推荐，主要的工作是user profile, item profile的提取和维护，然后研究各种相似度度量方法（具体相似度度量参见博文：《推荐系统中的相似度度量》）
协同过滤：相当于应用了用户的行为进行推荐（区别于Content based算法），比较经典的算法包括传统的item-based/user-based算法（参见博文：《协同过滤中item-based与user-based选择依据》，《collaborative-filtering根据近邻推荐时需要考虑的3要素》），SVD，SVD++(具体原理及源码参见博文：《SVD因式分解实现协同过滤-及源码实现》)
上下文相关推荐：和传统推荐相比，考虑更多上下文因素，LBS，移动场景下使用比较多（具体参见博文：《context-aware-recommendation》）
基于图的关系挖掘推荐：主要是利用图论原理，根据item,user之间的数据，反馈关联关系，挖掘更深层次的关系进行推荐，该类方法一般效果都不错，当然资源要求也较高。具体参见博文：《级联二步图关系挖掘关键词推荐系统》，《频繁二项集合的hadoop实现》《itemrankrandom-walk-based-scoring-algorithm-for-recommener-system》
Constrainted-based推荐：根据限制性条件进行演绎推荐

在实际应用时，我们经常使用按内容推荐，item-based寻找从感知的角度比较靠谱的结果，使用SVD,SVD++，图关系寻找更深层次的联系结果。同时在推荐时，会结合很多因素来进行综合排序，例如关键词，或是LBS中POI的热度等。具体可参见下文ranking部分。

算法效果衡量

以上这些算法，我们在离线的时候，使用Cross-Validation方式，就可以分析出其效果，而且离线分析的时候，代价比较小，比较容易操作。当然，对于不同的问题会使用对应的指标进行衡量。对于预测Rating准确性主要是用RMSE，或是MAE；具体可参见博文：《关键词搜索推荐系统中的推荐准确性度量》如果是排序，则更多使用NDCG，MAP, MRR等指标；具体可参见博文：《使用ndcg评估关键词推荐系统的相关性》在具体应用场景中，对于特定推荐问题，会涉及到选用哪种算法的问题。推荐不像CTR预估这样的问题，目标比较单一，经常我们需要考虑多个指标，而且这些指标可能此消彼长，需要做权衡，例如需要考虑算法的准确性(accuracy)，同时也需要考虑算法的覆盖(coverage)，置信度（confidence）,新鲜度(novelty)和惊喜度(Serendipity)，同时还需要考虑推荐为系统带来的收益和效用(utility)。这些指标经常需要权衡，而且经常提升某一个的时候会导致其它下降，所以有时候存在一定的主观性：我们到底看中哪一个指标？而且这个问题可能随着系统，平台所处的阶段而不同。例如在建立口碑的时候，我们可能不太关注coverage，而更关注accuracy，因为要让用户建立一种：该系统很准的认知；如果在系统已经比较成熟了，此时可能需要考虑novelty, serendipity的同时，还需要考虑utility：该推荐能为系统带来什么收益，例如对百度的变现有多大收益？对淘宝的销售有多少收益等具体这些指标的选择可参见博文：《选择推荐算法时需要考虑得因素》

Ranking，此部分是成熟的搜索，推荐系统具有的核心逻辑

比较简单的实现方法，是直接对各种特征拍阈值进行线性加权，比较成熟的系统一般会使用机器学习的方式和综合个维特征，学习出模型后进行排序，例如使用Learning to rank技术。该部分需要考虑的因素较多较为复杂。和传统的推荐相比，此处单独将Ranking拿出来。基础推荐挖掘，和传统的推荐部分比较类似，主要结合user profile，挖掘哪些item适合推给哪些user。但仅根据这些挖掘就直接进行推荐是不够的。真实online推荐场景中，需要考虑更多其他因素，例如：相关性，推荐的上下文，CTR预估，以及商业业务规则。

相关性： item与用户的相关性，这是大多数搜索和推荐任务的基石，例如在搜索中判定一个query和一个document的相关性，或是一个query 和另一个query的相关性，或是在特征比较多的情况下，一个user 和一个item 记录的相关性；实现方式可以很简单，例如传统的相似度度量方式（参见博文：《推荐系统中的相似度度量》），对于文本，业界使用简单的TF*IDF，或是BM25；不过很多时候我们需要增加更多维度特征，包括推荐item本身的重要性，例如IDF，Pagerank(具体参见博文：《pagerank的经济学效用解释》)，同时使用模型来提升相关性判断的准确性。使用模型的方式会更加复杂，但效果提升也非常明显。具体可参见博文：《集成树类模型及其在搜索推荐系统中的应用》，《分类模型在关键词推荐系统中的应用》，《adaboost》
推荐的上下文：例如推荐产品的入口，交互方式，不同的入口，甚至同一入口的不同交互方式，推荐的结果有可能都需要不一样；在LBS生活服务中，请求发生的时间，地点也是推荐需要重点考虑的上下文因素，例如饭点对餐饮item的提权；异地情况下对酒店等结果的加权等
CTR预估：成熟的商业系统都会使用模型来完成CTR预估，或是转化预估
以及商业业务规则：例如黑白名单，或者强制调权。例如在百度关键词搜索推荐中，某些有比较高变现潜力的词，就应该加权往前排；比如在高德LBS服务中，有些海底捞的店点评评分较低，但我们也应该往前排；或是在搜索引擎中，搜国家领导人的名字，有些最相关的结果可能因为法律因素是需要屏蔽的

算法评估

很直接，离线调研的时候看就看算法的评估指标，参见博文：《关键词搜索推荐系统中的推荐准确性度量》，《使用ndcg评估关键词推荐系统的相关性》上线的时候，进行圈用户（圈定某两个user集合作为实验/对照用户组）实验，或者圈请求实验（例如随机圈定5%流量进行实验），之后根据系统效果监控中的指标值判断实验效果。以下为一个典型的效果监控截图：实验如果证明成功，达到预期效果，一般之后推广到全流量；反之，如果实验未达到预期效果，则需要分析什么地方有问题，如何改进，之后继续调整算法继续实验。当实验较多时，还会涉及较多工程问题，例如分层实验框架等。

系统效果监控

对于整个系统，需要建立晚上的效果监控平台进行效果的实时监控，以便发现用户的行为模型，系统的不足，分析后续的发力点等。一般这样的监控平台会使用Dashboard来完成，基本的框架是前段UI + 后端数据库。很多时候，离线统计策略在hadoop上处理统计日志计算指标，并将计算出来的指标存入数据库，前端UI访问数据库，拉出指定时间段内某些指标的值，并进行简单分析。具体的监控指标，及指标体系的建立，可参见博文：《搜索引擎变现策略指标体系》

交互设计

完整的产品包括便捷的交互和背后牛叉的算法。很多时候，要提升推荐的效果，需要算法和交互配合，才能达到理想的效果：交互需要有健壮的算法产出结果；而算法也需要有配套的交互，才能达到预期效果，否则再牛叉的算法，对结果的影响也可能没那么明显。

一些交互的例子参见博文：

《关键词推荐工具中的用户引导机制之一：总述》

《关键词推荐工具中的用户引导机制之二：suggestion架构》

《关键词推荐工具中的用户引导机制之三：相关搜索query技术》

《关键词推荐工具中的用户引导机制之四：种子query推荐》

说了那么多，中心就是想说明，一个完整的推荐系统，远远不止是一两个rating算法能够覆盖的，而且此处还未涉及工程部分。

更多内容，也可直接访问： http://semocean.com

百度搜索引擎变现策略指标体系

下文就百度商业变现的指标体系进行概要描述，并针对一个类似于百度LBS系统的变现思路，阐述一个商业系统变现策略指标体系的建立过程。

为什么需要商业变现策略指标体系

一般情况下，一个互联网产品，或是一个移动端产品在发展前期，主要会关注流量及用户量的增长。当流量，用户量做到一定程度时，就会考虑商业变现。例如今日头条，美丽说，高德地图这样的产品现在都开始商业化变现。而要从变现效果，效率衡量整个系统，以及监控技术策略对系统变现的贡献时，就需要建立一套完善的策略指标体系监控系统当前的状况，发现系统策略效果瓶颈并有的放矢地去提升。

之前在百度，在和一位高级技术经理聊天时，他就说过，之所以百度内部一位从Google过来的VP很受老板的重视，一个非常大的贡献，就是他推动百度凤巢指标体系建立，保证公司收入灵活可控，保证每次百度都能在华尔街交出漂亮的财报

指标体系包含的内容

广告主关心的指标

在广告界的人士都知道广告主的这样一句名言：“我知道我投入的广告费用的一半是白费钱财，但问题是，我不知道是哪一半”。而搜索引擎的搜索一大优点，就是能够监控每一次搜索点击的效果。

对百度广告主来说，他们最关心的，和所有的商业投资一样，是：投资回报率（ROI）。广告主们（商家）想知道在百度体系的广告的投入是否真的有回报，而这个回报是否能够超过投入的资金，超过的比例有多大，这一点上，搜索引擎商业变现系统是做了精心的设计的：

从商家的角度理解ROI，就要了解三个指标：

1．广告展现次数（简称show）：当网民提供关键字，使用百度的搜索业务时候，相关的广告也会根据算法出现在页面相应的位置，用户投放的广告的展现次数，每天，每周，每月都会有统计。当然，相对于传统的广告投放模式，只要展现了就要收费，百度对展现的广告是不收费的，哪怕用户看到了广告主企业的名字和推广口号，广告主已经获得了一定的广告收益，是要用户不点击广告链接，广告主不需要支付任何费用（针对竞价排名高，和右端广告而言）。这在传统的广告界是不可想象的，因为传统媒体，例如电视，包括门户网站上的banner广告，都是按照展现收费的：看到一次收一次的费用。

2．广告点击次数（简称clk） ：用户看到广告后，点击了广告主提供的链接。可以用每千次广告展现的点击率来计算。网民点了推广信息的链接。推广信息被点的次数被称为点击量，即Clicks，产生的费用叫做点击费用，平均到每次点击的费用被称为单次点击价格，即CPC，是Cost Per Click的缩写。推广信息点击量与展现次数之间的比值被称为点击率，即CTR，是Click-Through Rate的缩写，计算公式为：点击率=（点击量/展现量）×100%

3．点击率到商业收益的转换：用户点击了客户的广告，就会看到客户自己的网站页面，如果被客户提供的商业服务或者产品所吸引，而付费的话，那么客户就实现了一次成功的商业收益

因为商业系统必须要保证客户（广告主）的利益，这样才能长久合作，所以商业变现策略指标体系必须包含这些指标。

在类似于百度，360，或是Google这样的搜索引擎，其能精准监控的，就是1，2，对于最终的商业转化，因为是在商家的网站上完成的，所以除非网站上内嵌了搜索引擎单独提供的独立工具（例如百度的福尔摩斯），否则搜索引擎无法了解这些信息。

投资人关心的变现策略指标

以上是百度广告主需要关心的指标。对于百度这样的上市公司，每个季度的财报中都需要有公司详细的赚钱相关财报内容及各种指标分解，以便了解当前变现系统的健康程度及瓶颈及后续的突破点。

例如百度的投资人不仅关心这个季度百度多挣了多少钱，还会关心多挣的这些钱是来自于哪个环节的提升，是否可持续，是否后续还有增长空间。就和分析公司财务报表，或是分析股权收益率一致。

为了让大家对搜索引擎变现策略指标体系有一个对比了解，以下先用股权收益率说明问题。大家可以不用有较强的金融，财务知识也能看懂这个公式，而搜索引擎变现策略的指标体系，与此公式有异曲同工之处，都是将最终的收益（率），分解为各个相对独立的因素，以便发现系统挣钱效率的优势与瓶颈。

该公式主要的目的是让大家了解如何对最终目标指标进行拆解，如果大家不感兴趣可以跳过该节。

股权收益率

即在股市中，投资人购买的股票收益率，设想一下，一个精明的投资人，在购买了某个公司大宗股票后，一方面会关注每年的股票收益，另一方面也会分析股权收益是来自于哪些因素的上涨，这样才能分析公司增长是否健康，例如，股权收益率可以简单地使用以下公式计算ROE=净利润/权益。但如果要对这个公式进行细分，将其中对股权收益率相关的影响因素均拆分出来，那可以得到以下公式：

其中

税收负担比例：反映公司的税收负担情况，例如有一个季度百度的税率为腾讯的一半，因为百度和国家有什么高新技术的合作所以税收减免（记得百度可能是7%左右，腾讯13%左右，不是精确比例），类似的情况就可以在（1）中反映
为公司向债权人负担的利息比例，借的钱越多，这个值越小
利润率：为每一块钱的销售额所带来的利润。
资产周转率：为公司资产的使用效率，例如家乐福，沃尔玛虽然利润率很低，但因为出货量大，所以照样赚钱
杠杆比例：公司资产与公司权益的比例，用于表示用于赚钱的钱中，有多少是自己的，有多少是别人的（例如银行）。例如：北京以前买房的人都发了，因为买的早，一方面房价便宜，一方面使用银行贷款，假设30%首付，那相当于剩下70%银行贷款在房产上的收益，也是自己的。

类似地，如果对百度商业变现体系的收入进行一个拆解，也能将其分解为类似的独立因子，对系统效率进行细化分析。

搜索引擎投资人关心的变现策略指标

从宏观上，我们假设投资人都是唯利是图的，收入是他们最关心的事。当然，很多投资人也会兼顾长远的收益，所以他们会关系收入是如何组成的。我们这里抛开运营，股权收益，利息支付，税收等各种公司的开销，我们仅考虑变现系统的名义收入，即搜索引擎中计费系统的计费和。此时可以将搜索引擎收入分解为以下独立因子：

Revenue =PV * PVR * ASN * CTR2 * ACP

以上公式就是百度，360，Google搜索广告变现收入的拆解。

要弄清楚以上公式的具体含义，需要了解下列指标的定义：

CPM1：cost per thousand1 按每千次检索收费，百度用户每使用百度一千次做搜索为百度带来的收益。也就是用户使用了百度服务一千次所带来的百度的收入。这个是衡量百度赚钱能力的重要指标。是百度变现能力的基本衡量标准。是根据每个季度的总收入除以PV（Page View）算出来的。
CPM2：cost per thousand2 按每千次展示收费，广告所在的网页被浏览了一千次，即认为该广告展示了一千次。这个指标是衡量广告客户的广告展现了一千次的时候，客户交付的费用（注意客户是在用户点击广告后才付费的）. 这个指标可以衡量用户对于广告的感兴趣程度。从广告客户的角度讲，也可以衡量在百度投放广告的费用多少，以及投放的有效性。
CPM3：cost per thousand3 表示平均每千次有广告展现的检索请求对应的广告收入，衡量单次有广告展现检索的平均收入贡献。这个指标是衡量当搜索结果的页面有广告展现的时候，每展现一千次，百度能够拿到的收入。有的搜索结果是没有广告展示的（CPM1把这些PV也计算进去了）。
CPC：cost per click 按每次点击收费，是目前最流行的搜索引擎营销的付费方式，即只有当用户点击观看了你的推广链接后，才发生费用。
CPA：cost per action 按每次用户消费行动收费，被认为将是互联网广告未来必然的发展方向，但由于不同产品的广告对action的定义和回报率有太大差异，实现过于复杂，目前在全球范围尚无搜索引擎使用CPA收费的成功先例。 CTR——点击率，在这里特指广告或推广链接出现后被用户点击的机率。CTR还将可以进一步的细分。
CTR1：表示平均每次检索请求对应的广告点击数，衡量单次广告检索的平均点击贡献。理论上 CTR1 可能大于 1。因为每次检索客户可以点击一个广告，看了后，在回去原来的检索页，点击下一个广告。
CTR2：表示平均每次广告展现对应的广告点击数，衡量单次广告展现的平均点击贡献。
CTR3：表示平均每次有广告展现的检索请求对应的广告点击数，衡量单次有广告展现检索的平均点击贡献。理论上 CTR3 可能大于 1。
ARPU：户均消费，影响它的因素包括：点击流量大小、关键词的相关性、同一关键词的竞争度，以及客户在搜索引擎广告上的预算上限等。
PV:检索量，百度搜索框的搜索次数
ADPV:出广告的检索量，即PV中，有广告展现的搜索数量
CLK：click number，广告的总点击次数
CSM：百度广告主的总广告费支出
ASN：平均展现条数。即：如果展现了搜索推广广告，每次平均展现多少条
ACP：Average Click Price 平均点击价格总消费/总点击
PVR：Page View Rates, PV比率，出广告的检索量 / 检索量

有了以上这些定义后，我们再来回顾变现系统的计算公式：

Revenue =PV * PVR * ASN * CTR2 * ACP

可以看出以上各因子表明了变现系统不同组成的效率

PV：是百度能够用于变现的流量上限，由用户体验决定，百度越好用，口碑越好， PV越高。该指标在百度类似的搜索引擎公司，主要由搜索部门负责。
PVR：就是PV中被用于变现的比例，PVR越高，说明在百度搜索中，出广告的概率越高，有可能导致用户体验的下降
ASN：单次有广告展现的PV，展现的广告数量，表明单次有广告展现时的变现利用程度。ASN越高表明单次搜索出的广告越多，可能导致用户体验的下降
CTR2：单条广告展现时，广告北点击的概率。表明广告推的是否精准，是否满足用户需求（至少是感官上是否吸引用户）
ACP：单次点击价格，相当于单价的高低

这样的指标分解非常有利于指导策略的优化，以下是几个case：

PV：搜索部门的重要指标，增加下降，都能立刻看出搜索部门的业绩，或是竞争对手带来的影响，例如，就百度而言，Google退出中国PV上升，360上了搜索， PV下降，都能直接看出来
点击率预估：假设PV,PVR,ASN，ACP都固定，则要增加收入，需要提升用户对广告的点击率，此时可以用模型来对点击率预估，提升CTR2。各大搜索引擎公司，对CTR2的预估，基本上都是商业部门的重要机密，也是最重视的技术之一
增加广告展现：在各上市公司（包括传统行业公司），都会有‘冲业绩’这么一说，就是极度末时，为了达到之前的营收计划，需要使用各种手段增加收入，例如我们经常听说的银行给高利息临时拉存款等，在百度则可以通过调参提升收入，比如增加ASN或是PVR，达到收入符合华尔街预期的效果
ASN的变化：如果收入的增长是来自于ASN的增长，则说明百度的点击卖得更贵了，广告主会不乐意。相反，ASN下降，说明点击卖便宜了，百度的收入有可能降低，所以类似于CTR2上升，ASN不变这样的策略，是最好的

有了以上定义即收入的拆解，则收入可以用其他集中形式表示：

Revenue = PV * CPM1

Revenue =PV * PVR * CPM3

Revenue =PV * PVR * ASN * CPM2

Revenue =PV * CTR1 * ACP

Revenue =PV * PVR * CTR3 * ACP

百度商业部门的工作，几乎每天都是在围绕着这些指标来进行的。每一次策略的调整，工作方式的改变，都希望在这些指标上做出正向的贡献，因为这些指标对百度的收入是直接造成影响的。从百度的收入（Revenue）的计算公式上就可以看出（每一种计算方法得到的结果都殊途同归）

如何建设LBS变现策略指标体系

拿百度地图类似的LBS产品为例，假设我们的转化漏斗路径是：推荐&搜索之后展示结果列表也，然后用户点击结果进入店家的表述页面（POI），之后如果用户感兴趣，则点击具体的团购，优惠券进行购买，搜索漏斗如下：

图：搜索漏斗

对应到线上系统，在评估衡量线上系统效果时，我们也需要分为这3阶段进行衡量，以及时发现线上策略效果的瓶颈所在，快速找到提升重点。在以上3阶段中：

搜索or推荐：主要表明流量大小
点击详情页：表现为用户带来的流量到详情页的浏览情况
转化：最终转化action

对于商业系统，我们最重要的目标就是保证在既定流量上，转化最高。

以下为我们需要关注的所有指标：

表：策略效果指标

如后续变现系统按转化收费，则整个LBS变现系统收入可定义为：

收入= pv * pvr * easn * ctr2 * atr2 * aap

在产品的不同阶段，我们需要关注的重点不一样：

在产品上线的阶段，我们需要关注用户体验，所以ctr2和atr2需要重点关注
用户体验提升到一定程度，商户已经认可我们产品效果时，再考虑提升成单的单价（例如佣金等），同事可以考虑对商业POI进行放量，提升pvr和easn

物料召回及检索类指标

该类指标主要用于监控系统的检索量，以及系统的召回能力。检索量等指标是系统变现可以使用的所有资源，更多受用户产品影响；而召回能力相关指标则体现出CPR系统对商业物料的召回能力。

以下为重要指标说明：

检索量: 发送到系统的所有请求量；通过统计检索日志条数得到；为能够变现的流量全集。
查询用户数:所有发起请求的用户数；统计检索日志中去重后uid得到，体现参与检索的用户量。
用户平均检索量：平均每个用户发起的请求数量；体现用户检索角度的活跃度。
单次检索返回结果数：平均单次检索返回结果条数；体现系统的召回能力（准确性参见相关性评估）
商业结果检索量：出现商业结果的检索次数；
商业结果检索用户数：出现商业结果的检索用户数；体现商业结果能够覆盖的客户群体
商业检索占比：出现商业结果检索量占总体检索量占比；可根据改指标分析潜在变现流量。
商业检索用户占比：看到商业结果的用户占所有检索用户占比；可根据该指标分析潜在变现用户。
单次检索商业结果返回条数：一次出现商业结果的检索，返回的结果条数；

点击行为类指标

该类指标主要用于衡量用户浏览搜索/推荐结果后的点击行为。该过程为转化漏斗第二阶段。

以下为具体指标及含义:

点击条数：被点击的POI数量(包括自然POI和商业POI)
有点击检索次数：产生点击行为的检索次数（包括自然POI和商业POI）。
有点击用户数：产生点击的用户数量。
商业POI点击条数：商业POI被点击的数量。
商业POI有点击检索次数：出现商业POI，且产生商业POI点击的次数。
商业POI点击用户数：点击商业POI的去重用户数。
单次检索点击率：平均每次检索点击POI的概率；该值理论上可能大于1
单次检索商业POI点击率：平均每次检索，点击商业POI的概率；该值理论上可以大于1
单条商业POI展现点击率：平均每条商业POI展现的点击概率；用于衡量每条商业POI曝光产生点击的效率。
单次有商业结果展现点击率：平均每次有商业POI展现的检索的点击概率；用于衡量出商业POI的流量产生点击的效率。

效用类指标

该类指标主要用于衡量用户点击进入POI详情页后，根据详情页信息，做出最终决策的阶段（包括点击‘预订’，‘成单’，‘下载’等行为）。该过程处于转化漏斗的第三阶段，也是最终阶段。

以下为具体指标定义：

POI展现数：包括自然POI和商业POI的展现次数。
POI展现用户数：浏览POI的去重用户数。
POI详情页转化数：此处的转化根据每个入口可能有所不同。
POI详情页转化率：POI详情页转化数/POI详情页展现数。
单次转化收费：完成单次转化后，向商户收取的平均费用。

以上密密麻麻的指标，在不同的商业变现系统中会有所差别，但基本上都是按照用户产品形态及转换漏斗进行设定，而每个策略的上线，都会使用类似的指标体系来衡量策略对不同漏斗部分的效率影响。

更多内容也可参见: http://semocean.com

背景