机器学习 – 第 2 页

背景介绍

在推荐系统，或者移动广告变现业务中，抛开内容的生产，用户的增长等挑战后，从算法的角度存在以下几个比较有挑战的技术点：

冷启动问题(Cold Start)：新的用户如何处理
新广告探索（Exploitation&Exploration）：没有历史统计信息的item或者广告如何快速确定其效果，既不能再新Ads上浪费过多流量，也不能每次都采用贪心算法仅关注短期利益
转化延迟产生建模问题(Modelling Delay Feedback)：从点击到最终效果的产生中间有较长时间的间隔，如何对该问题进行建模。具体问题描述和解决方案可参见《移动端转化延迟相关CPI转化率模型建模方法》
点击率预估（CTR），包括单点的《推荐系统，变现系统CTR&CVR预估算法演进－模型》，以及《推荐系统，变现系统CTR&CVR预估算法演进－多任务算法》

这些问题解决的好坏都会严重影响系统的效果，而且每一个问题在工业界&学术界都有较多的研究。

下文主要对第4个问题：点击率预估近几年的发展进行简单总结，供大家参考。

广告和推荐算是比较经典老牌的大数据落地的业务场景，而其中的核心技术点CTR预估中使用的技术，也从最经典的LR，逐步发展到树模型，FM等，而近几年随着深度学习技术的发展成熟，现在CTR预估（包括转化率预估）也逐渐开始使用深度学习，并且在各大公司的业务场景中均已经得到较大程度的效果提升。下文就对近期出现的和深度学习相关的CTR预估模型进行总结。方便我个人review也供大家参考。

问题定义

可以简单定义CTR预估问题为预估P(C|X)，其中：

C为是否点击
X为使用的特征，X在变现中会包含用户profile特征，用户行为特征，广告特征，场景上下文特征

当然，在更复杂的应用场景下，可能我们不仅需要预估CTR，同时还需要预估CVR（转化率），则此时的问题建模为：

ECPM=P(CLK|X) * P(Conversion|CLK,X) * CPA，此处主要讨论P(CLK|X).

LR

传统的方法主要是使用LR来进行CTR预估，该方法能够适用的主要原因是LR相对来说不仅比较简单，更偏记忆的模型，该模型会记忆高频出现的特征，相当于是对历史的exploitation。而且该模型容易进行并行化，线上处理也非常快，因为虽然训练的时候特征空间有数十亿维，但线上真实使用过程中，非0的特征一般也就就是个，所以处理性能较高。当然该模型缺点也比较明显，就是该模型更多是对历史的记忆，但需要很多人工特征组合，否则原特征的维度上可能不能很好地划分问题，同时人工特征组合也相当于增加了模型的个性化描述，效果会更好。

GBDT+LR

该方法是facebook发表的其广告系统中使用的CTR预估算法(参见《深度学习资料》)，也算是业界比较经典的算法了。主要思路为：1，使用GBDT进行特征抽特征（进行自动特征组合）；2，使用LR对GBDT抽取的特征（规则组合）进行权重学习。3，一般训练的方式为先将GBDT训练好，之后固定树模型并对叶子节点进行编码作为LR特征训练LR。该方式在业界有较为广泛的应用，例如滴滴路况预测中，能够提升有效准确率2%，而美团ETA应用中预估时间的MAE能够下降3.4%（与论文中3%的下降接近）.；同时文中对影响CTR模型效果的几个因素进行了分析，得到以下几个结论：

模型的自动更新很重要：模型一周不更新，效果下降1%左右，考虑到性能，甚至可以gbdt模型更新频率相对低，lr更新相对快
对于gbdt+lr模型，historical特征较为重要（top 10特征均为historical特征），但contextal特征对cold start较为重要
参数更新的schedule方法中,per-coordination方式明显好于其他方式
在display ads中，训练时可以进行负采样，但后续线上使用的时候需将概率分布转换回原分布:q=1/(p+(1-p)/w)，其中q为最终ctr值，p为采样后模型预估值，w为负采样比例

当然，如果只是预估排序而不是具体的CTR值，则可以不做步骤4。

该方式和单纯的LR相比，其实已经包含了自动特征抽取的思路，因为GBDT模型天然就是进行特征组合（抽取特征），之后再使用LR来学习这些组合特征的权重；而该方式的另外一个优点，就是能够很好地处理连续特征，如果单纯使用LR，我们还需要进行特征离散化，而GBDT天然就对连续特征进行处理。

图：GBDT+LR.使用GBDT进行特征自动组合，其实现在使用DNN的主要作用也可以认为是使用DNN自动抽取高维度特征

更进一步，在该算法的基础上逐渐出现了一系列变种，我们可以称为GBDT+LR Plus，其思路和GBDT+LR类似，只是受限于GBDT的结构，GBDT能够很自然地处理连续值特征，但对离散特征的处理不够好，反过来LR能够很好地处理连续值特征，所以后来衍生出来的模型结构，一方面使用GBDT来提取特征后作为LR的输入，同时仍然保留离散特征作为LR的另一部分输入，这样LR模型就同时具有GBDT特征组合和离散特征。当然该处的LR可以换成FM，或者FFM等模型。具体的实例参见《深度学习资料》中关于CTR部分的Kaggle Criteo Ctr预估介绍：3 Idiots’s Approach for Display Ads Challenge. 为Kaggle上Critero ctr预估第一名使用的方法，主要的思路为：

使用GBDT对连续特征，以及出现频率极高的离散特征进行特征组合（类似于FB display ads ctr预估）
组合出来的特征，结合离散化后的连续值特征，原有离散特征（共3类特征）
使用FFM进行CTR预估，并在得到CTR值后对预估值进行Calibration(简单地加减一个固定值)

图：GBDT+LR Plus:GBDT后，离散特征仍然输入至线性模型，相当于线性模型的特征输入包含两部分：离散特征+GBDT组合特征

总体来说，这个时期大家的工作还都集中在如何使用浅模型让效果最优，例如很多公司在推荐系统中使用FM(例如头条的推荐系统)，而类似于Kaggle这样的专门比赛的场景，则更倾向于ensemble的算法，例如《深度学习资料》介绍的Kaggle Avazu CTR预估：4 Idiots’s Approach for Display Advertising Click-through Rate Prediction. 另一个Kaggle上的display ads ctr prediction 比赛，冠军组使用的方法介绍中，有两个关键点：1，ensemble，目前已经成为competition的标配；2，feature engineering,文中使用了较多单独构造的feature，例如user /deviceid count, hourly impression count; user installed app bagging, user click action的编码等。最终获奖的模型为20个ffm的ensenbling

Wide&Deep

之后很长时间，工业界使用的方法都是类似于GBDT+LR，FM，FFM之类的浅模型；如果是比赛场景，则更多会在这些模型的基础上进行essemble。而对于深度学习，大家基本上都持观望态度，一方面是大家会有一个初步的判断，就是深度学习更多适用于信息完全且格式规范化的问题，例如图像（输入图像中包含所有信息，格式统一），而能不能应用在信息稀疏的场景有待验证；另一方面是深度学习对计算资源的要求比较高，一般没有GPU卡基本上不用去尝试，速度非常慢，而GPU卡的成本又非常高，所以很多公司并不会投入那么高的成本去尝试一个未知的东西，特别是创业型公司或者业务驱动的公司。直到2016年，随着GooglePlay app推荐场景，以及Youtube视频推荐场景下google在深度学习推荐上取得明显效果，且论文发布后，深度学习在这个领域的应用才得到更多的关注。

以GooglePlay app推荐为例，GooglePlay App推荐：《深度学习资料》:Cheng H T , Koc L , Harmsen J , et al. Wide & Deep Learning for Recommender Systems[J]. 2016.提出了Wide&Deep方法(同时可参见《lbs工业界eta应用及滴滴wdr技术》)，主要思路是使用Wide线性部分作为Memorization，对历史信息进行exploit，而使用Deep部分，对特征进行自动的更高层次的组合与抽象（个人理解和NLP中的模式类似，Deep部分能够学习复杂计算，同时对特征进行组合并生成embedding）进行自动特征组合，并进行更高层次的泛化，相当于对训练数据中的信息进行explore。该方法同时解决了wide需要进行手动特征组合的缺点，以及Deep有可能过拟合的缺点；而训练的方式为进行Jointly training，其中wide部分使用ftrl训练，deep部分使用adagrid后adam进行训练...Note…P.S. 目前Wide&Deep已经作为一个标准Framework解决分类和回归问题，例如滴滴ETA模型，我们使用Wide&Deep&Recurrent的WDR方法进行ETA预估（可参见《lbs工业界eta应用及滴滴wdr技术》）

图：Wide&Deep:离散特征进行embedding之后和连续特征进行concat作为deep输入

W&D变种

Wide&Deep推出后，基本上就作为业界的一个baseline的算法框架使用，在这个过程中也会有比较多的网络改进。改进的思路也基本上是在弥补Wide&Deep的各种不足。而优化的方向，基本上就是两个：要么优化wide部分的能力，要么优化deep部分的能力和效果。

Deep Cross Network

例如：Wang R, Fu B, Fu G, et al. Deep & cross network for ad click predictions[C]//Proceedings of the ADKDD’17. ACM, 2017: 12. 提出的DCN，在DNN的基础上，增加使用cross network对特征进行交叉。文中cross network有两个特点：

能够限定特征交叉的阶数（bounded order），且可以认为cross network的depth数，就是特征交叉的阶数
每次进行特征交叉的时候，相当于同时在做和第一层输入的交叉，同时在学习上一层的残差。最后cross network再和dnn进行combination。和deepfm相比：相同点是网络结构比较类似。不同点在于cross network从理论上能够从cross network的网络层数控制feature intesection的阶数..Note..

图：DCN示意图:DNN的同时，增加cross network

具体推导公式为：

图：DCN网络交叉方式：每一层均和输入进行交叉学习残差。同时可以认为cross network的层数，就是特征交叉的阶数

DeepFM

另一种比较常见的模型结构是DeepFM. 2017 Huawei App Recommender Ctr Prediction:Guo H , Tang R , Ye Y , et al. DeepFM: A Factorization-Machine based Neural Network for CTR Prediction[J]. 2017.华为App应用市场发布的推荐方法，基于Wide&Deep，区别在于两点：

将Google的Wide部分的LR模型换为FM，用于学习特征二阶交叉

不同于其他Deep的模型，FM和Deep部分使用的特征的Embedding是相同的，相当于low &hight order feature intesection都会反映到Embedding中在Wide部分和Deep部分进行共享，且训练速度和FNN（FM与训练V作为Deep Model Embedding参数初始化），PNN（Embedding和First Hiden Layer之间进行一次inner production，效果不错但增加了全连接规模导致训练较慢）要好。PS.在滴滴ETA模型中，我们就借鉴了DeepFM思路，不过其中的Deep部分会比较复杂，同时在最终的融合部分，增加了初始Additive ETA Model…..Note。该方式与传统的Wide&Deep方式相比的优势是，对于Wide部分，模型不用再使用太多人工特征，可以认为FM能够很好地完成低阶（二阶）特征组合

图：DeepFM网络结构图：1,wide部分使用FM代替；2,embedding wide&deep共享

Deep Interest Network

Zhou G , Song C , Zhu X , et al. Deep Interest Network for Click-Through Rate Prediction[J]. 2017.目前deep learning在CTR&CVR预估上，使用较多的方法是Embedding&MLP的方式，思路是对原来稀spase features先进行embedding，之后进行feature group wise的pooling，例如sum或者average，之后得到定长的vector再输入MLP（MLP可以有很多变种，例如res-net思路）。该方式在淘宝上的缺点是：user的兴趣可能不止一个，例如年轻妈妈可能关注自己喜欢的时尚衣服，同时也在购买婴儿用品，故直接sum/average的user featrues pooling方式存在信息损失，既进行pooling后，在embedding空间中得到的向量可能和该用户的众多兴趣距离都较远。故Deep Interest Network将user behavioral embeddings与ads的embedding使用local network的方式进行学习，最大程度上根据用户historical 的behavioral feature体现与ads的相关性，从网络结构的角度，我们可以认为是每个ads去和最相近的user behavior embedding来进行权重分配，以便突出地体现和该广告相关的用户行为…Note..

图：DIN（Deep Intresting Network）

FM深度化

CTR预估模型的另外一个发展方向是在原来FM的基础上，引入深度学习的思想，将二者结合起来，者可以认为是FM的扩展或者能力的增强

例如Attention Factorization Machine

Xiao J, Ye H, He X, et al. Attentional factorization machines: Learning the weight of feature interactions via attention networks[J]. arXiv preprint arXiv:1708.04617, 2017.网络结构中的设计思想是认为FM中，每个特征对应的隐变量(embedding)在使用过程中的权重都相同（均为1）是不合理的。特征在进行交叉的时候，权重应该不一样。故在FM结构中增加attention network来学习特征embedding进行element-wise交叉时候的权重。该方法一方面能够提升效果，另一方面，也能够根据特征交叉过程中的权重，分析交叉特征的重要性：通过分析网络产生的attention score，能够观测到哪些特征的组合重要性更高（和未做attention的fm相比）。而文中通过先固定attention score训练fm embedding，之后再固定embedding训练attention权重的方式，也验证了在传统fm上增加attention network的确对最终的效果有正向作用..Note..

图：添加了Attention的FM，背后的intuition是fm进行二阶交叉时，特征的重要性是不一样的，通过Attention来捕捉该差异

又例如在Neural Factorization Machine中，He X, Chua T S. Neural factorization machines for sparse predictive analytics[C]//Proceedings of the 40th International ACM SIGIR conference on Research and Development in Information Retrieval. ACM, 2017: 355-364.在FM后增加了隐藏层，以便在原有FM线性二阶交叉的基础上增加非线性的更多特征交叉。这类方法我们都可以认为是在FM的基础上，使用DNN的思路，对FM进行能力的增强。

图：Neural Factorization Machine在FM进行二阶embedding交叉后，引入DNN进行更高阶交叉

Spatio&Temporal Net

指在NN的基础上，充分考虑推荐场景下Spatio&Temporal特征，此处空间时间维度的特征在不同场景下含义可以不一致，例如在论文《Deep Spatio-Temporal Neural Networks for Click-Through Rate Prediction》中，主要思想还是使用深度学习进行高维特征交叉。创新点在于该点击率模型同时考虑了空间关系和时间关系对点击率的影响。

该处的空间关系指即将展现的候选广告之前的作为上下文的广告，作为该ad的context，而该用户历史上点击过&未点击的ads则作为空间时序上用户的兴趣表达（该思想和DIN类似）

在具体实施时，文中使用了递进的三种模型：1，特征embedding后直接进行sum pooling；2，解决加入attention机制解决sum pooling带来的信息丢失问题；3，引入context和target的交叉解决context对多个广告不变的问题

总体文章的思路比较直接，最重要创新就是同时引入上下文和用户时间维度上的兴趣表达

总结

当前的CTR预估已经大规模使用深度学习，而且在工业界和学术界仍然在不断地有新的网络结构出现，所以不出意外这些新的网络结构的研究应该还能火两三年。但今年去加拿大参加NeuraIPS时发现一个趋势，就是很多研究人员，以及类似于Google这样的公司都在大力投入到AutoML中，也就是使用机器学习的方法，类似于搭积木似的去寻找最优化的网络结构（超参数）组合，所以会不会两三年后，网络结构的创新，会被AutoML所取代？这个不得而知

参考文献

一个完整推荐系统的设计实现-以百度关键词搜索推荐为例

在之前一篇博文中，有同学在评论中问了个问题：如何解决因式分解带来的推荐冷门，热门关键词的问题。在回答这个问题的时候，想到了近几年在做搜索推荐系统的过程中，学术界和工业界的一些区别。正好最近正在做技术规划，于是写偏文章说下工业界完整推荐系统的设计。结论是：没有某种算法能够完全解决问题，多重算法+交互设计，才能解决特定场景的需求。下文也对之前的一些博文进行梳理，构成一个完整工业界推荐系统所具有的方方面面（主要以百度关键词搜索推荐系统为例）

完整的推荐系统肯定不会只用一种推荐算法

在学术界，一般说到推荐引擎，我们都是围绕着某一种单独的算法的效果优化进行的，例如按内容推荐，协同过滤（包括item-based, user-based, SVD分解等），上下文推荐，Constraint-based推荐，图关系挖掘等。很多比较牛的单个算法，就能在某个指标上取得较好效果，例如MAE，RMSE。。。不过有自己的优点，每种算法也有自己的缺点，例如按内容推荐主要推荐和用户历史结果相似的item，一般的item-based容易推荐热门item（被更多人投票过）。。。。所以在工业界，例如各互联网公司，都会使用多种算法进行互相配合，取长补短，配合产品提升效果。而且在完整的推荐系统中，不仅有传统的Rating推荐，还需要辅以非常多的挖掘， Ranking来达到预期效果。

推荐系统3大件：User Profile、基础挖掘推荐、Ranking

在实践中，一个完整的推荐系统会主要由3部分组成：

User Profile
基础推荐挖掘算法
Ranking

此处之所以将Ranking单独列出来，是因为其在推荐任务中过于重要，直接决定了推荐的效果。

以下为整个推荐的数据流：

User Profile

A user profile is a representation of information about an individual user that is essential for the (intelligent) application we are considering user profile主要是用户（注册）信息，以及对用户反馈的信息进行处理，聚合，用于描述用户的特征；是后续推荐和排序的基石。一般情况下，user profile会包含以下具体内容：

用户兴趣数据
用户的基础注册信息，背景信息：例如用户出生地，年龄，性别，星座，职业等。这些信息一般从用户注册信息中获取；例如高德，百度地图注册用户，淘宝注册用户等
用户行为反馈：包括显示的反馈(explicit)和隐藏(implicit)的反馈，显示的反馈包括用户的评分，点赞等操作，百度关键词搜索推荐工具上的点赞（正向显示反馈）和垃圾桶（负向显示反馈），淘宝上的评分；隐式反馈包括用户的浏览行为，例如在百度关键词搜索推荐上搜过那些词，淘宝上点击了那些页面，在高德上点击了那些POI等
用户交互偏好：例如用户喜欢使用哪些入口，喜欢哪些操作，以及从这些操作中分析出来的偏好，比如在高德地图上根据用户行为反馈分析出来的用户对美食的偏好：更喜欢火锅，粤菜，还是快餐
用户上下文信息：这些信息有些是分析出来的，例如在LBS中分析出来的用户的家在哪儿，公司在哪儿，经常活动的商圈，经常使用的路线等

user profile经常是一份维护好的数据，在使用的时候，会直接使用该数据，或是将该数据存储在KV系统中，供Online系统实时使用。在搜索或是推荐的场景下，每次请求一般只会涉及到一次user profile的KV请求，所以online使用的时候，主要的实现困难是存储，以及快速KV的快速响应。

基础挖掘推荐算法

基础挖掘推荐算法，主要使用传统推荐算法，结合分析的item profile和user profile，建立user和item的关系，此时并不会过多考虑其他因素，例如是否冷门/热门，最主要的就是建立user和item的关系。在各种论文中狭义的推荐，主要就是指该部分内容。主要围绕着Rating，以及Top N进行该处的Top N（更像是直接Rating值最高的Top N）传统的推荐算法研究主要围着这块工作进行，现在已经有很多比较成熟的算法，这些算法相关的研究可参见博文：《推荐系统经典论文文献及资料》；其中也能找到业界较多成功推荐系统的实践分享主要包含以下几类：

Content Based推荐：按内容推荐，主要的工作是user profile, item profile的提取和维护，然后研究各种相似度度量方法（具体相似度度量参见博文：《推荐系统中的相似度度量》）
协同过滤：相当于应用了用户的行为进行推荐（区别于Content based算法），比较经典的算法包括传统的item-based/user-based算法（参见博文：《协同过滤中item-based与user-based选择依据》，《collaborative-filtering根据近邻推荐时需要考虑的3要素》），SVD，SVD++(具体原理及源码参见博文：《SVD因式分解实现协同过滤-及源码实现》)
上下文相关推荐：和传统推荐相比，考虑更多上下文因素，LBS，移动场景下使用比较多（具体参见博文：《context-aware-recommendation》）
基于图的关系挖掘推荐：主要是利用图论原理，根据item,user之间的数据，反馈关联关系，挖掘更深层次的关系进行推荐，该类方法一般效果都不错，当然资源要求也较高。具体参见博文：《级联二步图关系挖掘关键词推荐系统》，《频繁二项集合的hadoop实现》《itemrankrandom-walk-based-scoring-algorithm-for-recommener-system》
Constrainted-based推荐：根据限制性条件进行演绎推荐

在实际应用时，我们经常使用按内容推荐，item-based寻找从感知的角度比较靠谱的结果，使用SVD,SVD++，图关系寻找更深层次的联系结果。同时在推荐时，会结合很多因素来进行综合排序，例如关键词，或是LBS中POI的热度等。具体可参见下文ranking部分。

算法效果衡量

以上这些算法，我们在离线的时候，使用Cross-Validation方式，就可以分析出其效果，而且离线分析的时候，代价比较小，比较容易操作。当然，对于不同的问题会使用对应的指标进行衡量。对于预测Rating准确性主要是用RMSE，或是MAE；具体可参见博文：《关键词搜索推荐系统中的推荐准确性度量》如果是排序，则更多使用NDCG，MAP, MRR等指标；具体可参见博文：《使用ndcg评估关键词推荐系统的相关性》在具体应用场景中，对于特定推荐问题，会涉及到选用哪种算法的问题。推荐不像CTR预估这样的问题，目标比较单一，经常我们需要考虑多个指标，而且这些指标可能此消彼长，需要做权衡，例如需要考虑算法的准确性(accuracy)，同时也需要考虑算法的覆盖(coverage)，置信度（confidence）,新鲜度(novelty)和惊喜度(Serendipity)，同时还需要考虑推荐为系统带来的收益和效用(utility)。这些指标经常需要权衡，而且经常提升某一个的时候会导致其它下降，所以有时候存在一定的主观性：我们到底看中哪一个指标？而且这个问题可能随着系统，平台所处的阶段而不同。例如在建立口碑的时候，我们可能不太关注coverage，而更关注accuracy，因为要让用户建立一种：该系统很准的认知；如果在系统已经比较成熟了，此时可能需要考虑novelty, serendipity的同时，还需要考虑utility：该推荐能为系统带来什么收益，例如对百度的变现有多大收益？对淘宝的销售有多少收益等具体这些指标的选择可参见博文：《选择推荐算法时需要考虑得因素》

Ranking，此部分是成熟的搜索，推荐系统具有的核心逻辑

比较简单的实现方法，是直接对各种特征拍阈值进行线性加权，比较成熟的系统一般会使用机器学习的方式和综合个维特征，学习出模型后进行排序，例如使用Learning to rank技术。该部分需要考虑的因素较多较为复杂。和传统的推荐相比，此处单独将Ranking拿出来。基础推荐挖掘，和传统的推荐部分比较类似，主要结合user profile，挖掘哪些item适合推给哪些user。但仅根据这些挖掘就直接进行推荐是不够的。真实online推荐场景中，需要考虑更多其他因素，例如：相关性，推荐的上下文，CTR预估，以及商业业务规则。

相关性： item与用户的相关性，这是大多数搜索和推荐任务的基石，例如在搜索中判定一个query和一个document的相关性，或是一个query 和另一个query的相关性，或是在特征比较多的情况下，一个user 和一个item 记录的相关性；实现方式可以很简单，例如传统的相似度度量方式（参见博文：《推荐系统中的相似度度量》），对于文本，业界使用简单的TF*IDF，或是BM25；不过很多时候我们需要增加更多维度特征，包括推荐item本身的重要性，例如IDF，Pagerank(具体参见博文：《pagerank的经济学效用解释》)，同时使用模型来提升相关性判断的准确性。使用模型的方式会更加复杂，但效果提升也非常明显。具体可参见博文：《集成树类模型及其在搜索推荐系统中的应用》，《分类模型在关键词推荐系统中的应用》，《adaboost》
推荐的上下文：例如推荐产品的入口，交互方式，不同的入口，甚至同一入口的不同交互方式，推荐的结果有可能都需要不一样；在LBS生活服务中，请求发生的时间，地点也是推荐需要重点考虑的上下文因素，例如饭点对餐饮item的提权；异地情况下对酒店等结果的加权等
CTR预估：成熟的商业系统都会使用模型来完成CTR预估，或是转化预估
以及商业业务规则：例如黑白名单，或者强制调权。例如在百度关键词搜索推荐中，某些有比较高变现潜力的词，就应该加权往前排；比如在高德LBS服务中，有些海底捞的店点评评分较低，但我们也应该往前排；或是在搜索引擎中，搜国家领导人的名字，有些最相关的结果可能因为法律因素是需要屏蔽的

算法评估

很直接，离线调研的时候看就看算法的评估指标，参见博文：《关键词搜索推荐系统中的推荐准确性度量》，《使用ndcg评估关键词推荐系统的相关性》上线的时候，进行圈用户（圈定某两个user集合作为实验/对照用户组）实验，或者圈请求实验（例如随机圈定5%流量进行实验），之后根据系统效果监控中的指标值判断实验效果。以下为一个典型的效果监控截图：实验如果证明成功，达到预期效果，一般之后推广到全流量；反之，如果实验未达到预期效果，则需要分析什么地方有问题，如何改进，之后继续调整算法继续实验。当实验较多时，还会涉及较多工程问题，例如分层实验框架等。

系统效果监控

对于整个系统，需要建立晚上的效果监控平台进行效果的实时监控，以便发现用户的行为模型，系统的不足，分析后续的发力点等。一般这样的监控平台会使用Dashboard来完成，基本的框架是前段UI + 后端数据库。很多时候，离线统计策略在hadoop上处理统计日志计算指标，并将计算出来的指标存入数据库，前端UI访问数据库，拉出指定时间段内某些指标的值，并进行简单分析。具体的监控指标，及指标体系的建立，可参见博文：《搜索引擎变现策略指标体系》

交互设计

完整的产品包括便捷的交互和背后牛叉的算法。很多时候，要提升推荐的效果，需要算法和交互配合，才能达到理想的效果：交互需要有健壮的算法产出结果；而算法也需要有配套的交互，才能达到预期效果，否则再牛叉的算法，对结果的影响也可能没那么明显。

一些交互的例子参见博文：

《关键词推荐工具中的用户引导机制之一：总述》

《关键词推荐工具中的用户引导机制之二：suggestion架构》

《关键词推荐工具中的用户引导机制之三：相关搜索query技术》

《关键词推荐工具中的用户引导机制之四：种子query推荐》

说了那么多，中心就是想说明，一个完整的推荐系统，远远不止是一两个rating算法能够覆盖的，而且此处还未涉及工程部分。

更多内容，也可直接访问： http://semocean.com

级联二步图关系挖掘关键词推荐系统及实现代码

youtube使用简单的共现思路，实现视频的高效推荐。受到该思路的启发，我们基于百度凤巢广告主在广告库中提交的关键词，更进一步设计出可级联的二部图关系挖掘算法框架，实现亿量级关键词，千万级别用户（单元结构）的高效推荐。本文即对该算法的实现进行详细介绍，并在最后给出实验结果。

youtube 推荐算法

首先还是简单介绍下youtube使用的推荐算法。符合google系一贯的风格，算法很简单，数据量很大，效果很明显。

大家都知道youtube上有N多vedio，而且各种各样档次类型。而youtube将用户的需求分为3类：

查找具体video。直接通过搜索
查找某一topic的video。基本也可以通过搜索解决
没有明确目的，随便看看打发时间娱乐

youtube算法，主要解决第三个需求，使用top N方式推荐video供访问者浏览。而youtube的问题是视频数量太多，且视频的兴趣点较为分散（相对的amazon和netflix的需求则较为集中），所以google没有选择高大上的svd等复杂方法，而是简单的共现计算。论文中整个数据流的处理方式，和传统的搜索引擎，或是搜索推荐系统还是一致的，基本分为：候选的选择（检索系统中叫触发逻）找到可能推荐的候选，排序（ranking过程）给出最终排序结果，并做top N截断

候选vedio选择

youtube 使用关联规则的形式，在24小时内所有用户session内找到共同访问（co-visitation）的video vi, vj

并计算，r(vi, vj) = cij/f(vi, vj) vi, vj的关联程度可以使用该公式计算得出，分母f最简单的方式就是ci*cj, cij为两个item共同出现的次数。之后根据阈值过滤r(vi, vj)即得到与vi关联的vj。定义S为用户u看过的种子video集合，则定义Ri为使用符合条件的r(vi, vj)得到的关联电影集合。

其中Ri为与vi关联的video，则C1(S)为使用种子电影S进行一次关联扩展后的电影集合，则可以定义：

则Cn(S)为种子video集合S进行n次扩展后的video集合。

以上思路虽然简单，但其中包含的一个特性是可以在相关性和种子集合数量间做一个权衡：使用降低相关性的方法，换取更多结果。

ranking

上述步骤为候选电影的挖掘方法，之后需要对挖掘出来的种子video进行ranking，例如使用pv排序，使用，候选电影与user profile 的相关性等进行ranking。当然此时还需要注意给出推荐理由（例如根据哪个种子电影进行推荐）以提升采纳率。

二部图实现思路简介

受到youtube二部图的启发，我们设计开发了级联二部图，基本思路是使用中间节点，建立二步节点之间的路径（关系）计算左右两节点的相关性。

二步跳转关系介绍

定义unit为一个凤巢中的单元（可理解为一组相关关键词）， unit1与关键词‘礼品’相关，而‘礼品’与‘礼品快递’关联，此时通过两次二部图的链接，即能找到unit1和‘礼品快递’的关联关系。

该级联二部图有两个特点：

二部图可以通过中间的节点建立关系：只要能各自建立两边的节点（例如unit和关键词）与中间节点的关系，级联二部图两端，可以不是相同类别的item。例如unit1包含关键词‘礼品’，而礼品与‘礼品快递’字面相关，则即使不包含‘礼品快递’，算法仍然能够找到unit1与‘礼品快递’的关系。
可以进行多步扩展：和youtube电影推荐算法类似，该算法可以由级联二步扩展为级联多步，当然，实在牺牲准确性的前提下。

二步图的基本思想，就是通过中间节点，建立左右两特定节点之间的路径，之后根据这些路径及权重，算出左右两节点的相关性，思路和random walk中价值传递的思路较为类似：一个节点的价值，最终流到那儿，就说明这两个节点比较接近。

具体挖掘步骤

步骤一：左右节点权重归一化，可以使用L1-norm，或是L2-norm进行归一化，之后得到每个左/右节点到中间节点的路径归一化权重。

步骤二：为了避免’哈利波特‘问题，或我们经常说的’新华字典‘问题，避免被多数人采用/提交的中间节点，需要对中间节点进行惩罚，降低部分中间节点的权重。

步骤三：计算左节点到右节点一条路径的权重，路径的权重 = 左边权重 * 右边权重 * 通过惩罚值；其中左右边权重通过步骤一计算得到，通过惩罚值通过步骤二得到。

步骤四：根据连接某对左右节点的所有路径计算该对节点的相关性。

由上述4个步骤大家可以看出，其实该框架和mahout中hadoop item-based 的计算item相似度的流程极为相似，具体算法可参见mahout源码：mahout推荐算法；但该算法具有很好的扩展性，就是前边介绍的：灵活更换左右节点，即可实现多步级联的推荐。

核心代码示意

具体实现即根据上文四个步骤进行划分，四个步骤的实现代码可参见下属配置文件：

通过conf文件，大家即可了解上述4个步骤的实现，具体该配置可以参见conf/twohop_bipartite.job.conf

实现效果

经过多次优化，包含基础数据的清洗，使用该方法，客户的覆盖率提升至75.6%，相关性85%。且针对一些大客户的需求，可以放松相关性来进行扩词。

工具使用方法

级联二部图工具使用方法如下：

python ${TWOHOP_MINING_HOME}/script/twohop_mining.py

-hadoop hadoop_client_path

-inputA input_A_path

-inputB input_B_path

-output output_path

注：该框架依赖于我们自行开发的hadoop任务框架，所以可能无法完整运行，但使用者可以将上述4个步骤的hadoop脚本单独抽取出来进行单独运行。

工具代码地址

代码可从我的云盘下载：级联二部图框架

参考文献：

mahout推荐算法：http://mahout.apache.org/users/recommender/recommender-documentation.html

youtube video推荐算法：Davidson J, Liebald B, Liu J, et al. The YouTube video recommendation system[C]//Proceedings of the fourth ACM conference on Recommender systems. ACM, 2010: 293-296.

百度关键词工具介绍参见：http://support.baidu.com/product/fc/4.html?castk=24b18bi7062c720d0d596

也可关注我的微博： weibo.com/dustinsea

或是直接访问： http://semocean.com

context-aware recommendation

智能手机的普及让大家随时随地都可接入互联网，而这样的随时随地的应用场景，也让传统推荐技术需要充分考虑，利用这些信息提升推荐的准确性，同时从另外一方面考虑，这种符合LBS的推荐，因为有了这些信息后，也能够更加准确。

传统的推荐系统基本上就是根据用户对物品的打分进行推荐，或者描述为 USER * ITEM -> RATING。其工作就是去填充一个matrix，matrix的横坐标为item，纵坐标为user，推荐的任务就是根据当前已经获得的该matrix中非空的元素，去填充该矩阵中没有值得元素，并保证用于填充matrix的模型，在非空元素上的误差最小。

什么是Context-Aware Recommendation

但在很多场景下， user的rating会受到context的影响，这里的context在不同的领域会有不同的定义。例如电影推荐，对是否为工作日这样的因素影响会比较大；在LBS应用中，推荐内容是否会被采纳，会受到地理位置的影响（特别现在移动是个大趋势，后续更多的访问流量都会转向移动），例如手机美团，如果一个人在饭点上美团，则他购买餐馆团购券的概率应该要比夜晚大，而购买离他距离近的餐馆团购券的概率也要比购买距离比较远的团购券大。这里的地理位置，时间，就可以看成是context内容。

而在搜索引擎中，例如百度，要增强搜索的个性化（如果我们将搜索也看成推荐问题），那么网民的IP所在地，或者网民之前输入的几个query，都可以看成是context内容。

那context内容如何与传统Recommender技术融合？这就是推荐技术中的contex-aware recommedation：结合上下文的推荐。例如，大家经常会进行团购，而团购中的项目，要数团购饭点的套餐最为划算了，这其中就会直接涉及到上文提到的时间，地点两个上下文因素。举个例子，如果我周末快到吃饭时间进行套餐的团购，海底捞离我比较远但小肥羊离我比较近，那我还是有可能会考虑离得比较近的小肥羊，或者离我比较近的海底捞的店。

在我看来，类似于美团，大众点评这样的生活服务，是最需要Context-Aware Recommendation技术的了（特别是近些年来智能手机的普及，大家很多时间都是用智能手机上网），需要结合用户诸如位置，时间及之前积累的用户信息（user profile）进行推荐。

如何实现context-aware recommendation

一般来说，可以使用以下3类方法，在推荐技术中引入上下文信息：

Contextual Pre-Filtering
Contextual Post-Filtering
Model-based

Contextual Pre-Filtering

该技术是在数据处理阶段，就使用contextual信息对数据进行处理过滤，之后就可以使用传统的推荐技术进行推荐。假设我们将信息的处理看成是一个漏斗：在获得候选信息后，逐步根据当前能够获得的信息过滤掉不相关的内容，保留下最相关的内容，则contextual pre-filtering方法就相当于将最严格的信息放在漏斗的最开始，直接过滤掉与用户context不相关的内容。

在实现contextual pre-filtering技术时，需要考虑contextual的表示方式，很多时候可以将这些contextual使用层次信息进行表示，以下是几个例子：

Company: Girlfriend →Friends →NotAlone →AnyCompany;

Place: Theater → AnyPlace;

Time: Saturday →Weekend→ AnyTime.

上边的例子，从左到右越来越泛化。

例如百度关键词搜索推荐系统，推荐地域相关关键词时，如果用户提供了地域信息，例如‘北京’后，在后续的推荐中，就不会考虑‘北京’以外的地域，而北京下属的几个区，都可以作为推荐的候选，这就需要维护一个全国地域term的层次树。而时间，关系(上文中的Company)等维度也需要有类似的层次树进行维护。

Contextual Pre Filtering方法优点：在一开始对contextual信息进行处理后，就可以使用传统方法进行推荐，例如将特定contextual相关的数据过滤出来后，就可以使用传统的按内容推荐，协同过滤等方法进行推荐。如果是实时的搜索引擎，使用类似于Contextual Pre Filtering的方法，能够有效地减少后续数据的处理量（相当于建立了一个数据过滤漏斗，在一开始的阶段即将后续不会用到的数据过滤，减少后续策略的计算量）；但推荐系统中如果将没中过contextual信息的数据过滤出来单独训练的话，速度并不会有所提升。

Contextual Post-Filtering

该方式对于数据的处理与传统的推荐方式一致，区别在于当结果已经推荐出来时，使用contextual信息对结果进行重新过滤或是重排序。

例如，对于地域这一维contextual信息，百度关键词搜索推荐（Baidu Keyword Recommender，后续简称KR）中就是用Contextual Post-Filtering方法，例如KR首先使用传统的方法进行推荐，之后在结果返回前，会根据地域对关键词进行排序过滤；又例如，美团的app，在进行餐饮团购推荐是，一开始可以使用传统的推荐算法进行推荐（当然此时就应该根据上下文进行粗过滤，例如对于在北京找餐饮服务的网名，给他推荐一个上海的海底捞可不是一个好的选择），当传统推荐算法推荐出结果后，就可以使用上下文来进行过滤排序了。例如餐饮服务推荐中国，在其他因素固定时，可以优先推荐离用户地理位置近的item。最终的结果也不是完全按照时间排序，时间只是众多考虑因素中的一个因子，例如可以使用另一个CTR模型来预估用户的点击概率，而网名地理位置离餐馆的远近可以作为一维重要特征（其他特征可

以包含推荐物品与网民兴趣的匹配程度，该item是否与该网民历史购买能力匹配等）

Contextual Post-Filtering的优点：该方法的优点和Contextual Pre-Filtering一样，可以使用传统的推荐技术。但该方法与Contextual Pre-Filtering相比，有一个优点：最终的过滤排序，都是在推荐算法完成后进行的，当有新的数据，或是算法接入时，最终的排序过滤标准是可以不做调整，只要在最终排序过滤逻辑前引入新算法的推荐结果即可，另一个优点是，最终出的结果的数量，可以视最终可能被保留下来的结果的数量进行调整，例如按照严格的contextural信息来过滤，可能最终剩下的结果只有两条，此时如果觉得结果太少，则可以适当放松过滤阈值，或者将接近阈值的结果打上特定标签推荐出来（例如，百度关键词搜索推荐中，如果推荐的结果太少，系统会将一些阈值相对偏低的结果也展现出来，只是结果后边会打上‘结果太少？网民也会这样搜索’）；但任何事物都有两面性，Contextual Post-Filtering方法的缺点一开始推荐出来的结果，会在后续直接因为Context不match而直接被过滤掉，这样就白白浪费了在排序过滤前的计算。

在实际应用中，需要根据具体应用选择使用Contextual Pre-Filtering或是Contextual Post-Filtering方法，而更为常见的是，两种实现思路经常会同时在同一系统中出现，仍然以KR中地域属性为例，在进行关键词候选结果选择时（一般称为触发过程），就会使用地域信息对结果进行粗选；在得到候选结果后，会使用地域信息（包括层级地域信息）对关键词进行更精细化的排序过滤。

Contextual-Model

可以理解为传统的Model-based推荐方法，区别在于在进行模型训练时，就将Contextual作为特征加入模型进行训练，该方法的优点是直接可以使用一个模型完成推荐，缺点在于如果上下文信息维度较多，会导致训练数据较为稀疏，同时当结果较差时不容易进行优化，因为众多因素进行了融合，很难指出问题出在什么地方。而Contextual Pre-Filtering和Post-Filtering方法，可以理解为对问题进行了拆解。这样的策略架构，问题定位会相对容易一些。

后记：前几天看到一个新闻，称美团2013年已经实现盈利。当时看到这个信息的时候还挺震惊的。2011年的时候百团大战时，团购网站都在各种烧钱推广。百度为了让团购网站能够更高效地在凤巢上进行推广（也可以理解为更高效地挣团购网站的钱），设计了无关键词拍卖系统：团购网站只要提供团购页面（或是团购页面的结构化属性描述），即可在百度上进行推广。但悲剧的是该系统才刚要开发完毕，团购网站的前就已经烧得差不多了，之后就出现一大批团购网站的倒闭。。。。现在美团居然活得好好的。

同时结合自己做推荐系统的几年，觉得美团和大众点评这样的网站，是最适合加大推荐系统研发投入的：每个美团/大众点评用户都有自己的ID，也都有自己够买的商品（explicit rating）和自己浏览的网页（implicit rating），同时手机客户端的的位置，时间信息可以作为推荐的context信息增强推荐的准确性。所以如果后续仍想在推荐系统方面做一些工作的话，美团和大众点评都会是不错的选择。

附上一个index.baidu.com上几个关键词的搜索量变化，美团的曲线是相当的漂亮！

百度关键词工具介绍参见：http://support.baidu.com/product/fc/4.html?castk=24b18bi7062c720d0d596

也可关注我的微博： weibo.com/dustinsea

或是直接访问： http://semocean.com

集成树类模型及其在百度搜索推荐系统中的应用

决策树是经典高效的机器学习分类算法，非常适用于线性模型效果不能满足需求，规则描述分布比较合适的场景。而决策树与传统bagging， boosting思想结合在一起，就形成集成树模型方法，包括Random Forest，GBDT等方法。在百度搜索关键词搜索推荐系统策略中，实验证明集成树模型具有非常高的预估分类准确性。

决策树模型

举一个简单例子(引自公司pengzhiming同学的PPT)：老妈让自己相过多次亲的女儿再次去相亲，女儿简单问了下对方的条件，以判断是否去；根据男方条件（特征）对去与不去进行分类的过程，就是一个CART决策树。

例如：

母女对话如下：

如果将女儿的历史相亲经历看成是训练样本（男方条件为特征，女儿到对方后觉得是否靠谱作为label），将女儿积累到现在的相亲经验则是一个CART模型：根据老妈的描述，就可以判断出是否有必要去见男方。

当然，决策树模型也可以再细分，包括经典的ID3,C4.5, CART。不同的决策树具有不同的树结构，以及不同的节点拆分算法及拆分标准。

树模型的优缺点

总体来说，树类算法都是使用贪心算法， 选择当前最合适属性进行拆分建立整棵决策树，该类模型比较适用于能够用复杂规则描述的应用场景。

以下为树模型的优点：

实现较为简单，且容易实现并行化
训练速度较快，且一般效果也比较好
能够处理离散连续值特征（和LR类似的模型相比），不用对特征做归一化即能取得较好效果
能够处理缺失值
能够处理高维特征
训练完毕后，能够给出哪些特征比较重要；而且很多情况下，即使最终使用其他模型， 也可以使用树模型选择特征

当然，所有的模型都有其弊端：

树模型容易过拟合，所以需要进行剪枝（以及使用后续将描述的集成学习方法解决）
不能表示复杂结构和运算：树模型原则上天然表示‘与’操作，所以不能表示类似于‘异或’的操作

因为树模型的以上优点，树模型在很多场景均会被选用

树模型训练框架

以下为使用数据集D，属性（特征）集合attribute_list产生决策树的算法框架。该算法未包含任何剪枝。

以上伪代码中（2）~（5）行用来处理数据中都是相同label及无属性拆分的情况，剩余代码使用贪心算法选择最合适的属性后，进行拆分，并递归建立子节点。

在上述伪代码中涉及到attribute_selection_method逻辑，也就是决策树节点拆分标准的问题。

树模型节点分裂标准

如上所述，决策树使用贪心算法进行拆分，选择当前认为最优的拆分特征进行树节点的分裂。这就涉及到选择何种属性作为拆分的标准。一般说来，经常使用的树节点拆分标准主要有以下几类：

information gain

一般情况下，在决策树中，使用信息增益（information gain）作为节点分裂的选择标准。

要定义信息增益，我们需要定义‘信息’，我们将信息定义为：对于数据集合D，我们需要对D中的各种类别进行编码的字节编码数，即：

信息量，也被称为熵（entropy），用于描述不稳定性或多样性。对样本集合D中，假设对于某一维度的特征，该特征A有v种取值，而每种取值对应的数据样本数为Dj，则在知道了某属性A的各种取值，并将符合各v值得样本进行分类后，需要将样本集合D完全分开所需要的信息量为：

其中Dj为符合每个A的取值（假设A为离散可数种取值）的子样本集合。infor(Dj)为完全划分子样本集合所需要的信息量。此时可定义信息增益：

在ID3算法中，使用信息增益进行分裂特征的选择，算法会使用贪心算法选择信息增益最大的特征进行树节点的分裂。但信息增益有一个缺点：会选择有众多值的特征进行节点分裂，极端情况，对于ID类特征（利用用户ID，或是item ID）， ID的个数与待分类的样本数一样，这样的分裂是没有意义的，此时，使用gain ratio作为节点拆分标准，能避免该问题。

gain ratio

为了解决信息增益偏向于选择属性值较多的特征问题，在c4.5中引入了gain ratio。首先定义：

注意splitinfo_A 与info_A的不同： splitinfo的第二项受到的是符合特征A下每种取值的样本数量影响； info_A则受到特征A下每种取值的样本包含的信息的影响。注意参考entropy的定义，当分布越是不均匀时，描述这种状态所需要的信息量约小，分布越是散时，需要的信息量越大(info值越大)，所以当拆分特征的值越多时， splitinfo会越大。

此时我们定义gainratio，分母为splitinfo 起到抑制拆分多值特征的倾向。

gini index

在CART中，使用gini index作为节点拆分的标准， gini系数的定义如下：

其中pi为样本集合D中各类的占比（总共有m类， pi=Di/D，其中Di为D中属于类别i的的样本数量）

定义：

即使用属性A来对样本进行节点拆分后时的gini index，此时可使用gini_A来对A进行拆分判定，选择gini系数值下降最快的属性进行拆分。

一般说来information gain，gain ratio， gini index就是最常使用的三种拆分指标。结合前述树模型构建方法，再加上构建树的过程中/后的限定条件及剪枝，即可构建出实际中高效的决策树。

集成学习方法

集成学习方法是将bagging，boosting思路与树模型结合的高效学习方法。

bagging的思路比较简单，就是汇集多个模型进行投票，每个模型的票的权重一样，获得票数最多的预估类胜出，该类获得的票数与总票数的比值可以作为置信度。如果是回归问题，则多模型预估值得平均值作为bagging结果。

boosting方法在bagging的思想上前进了一步： boosting在训练时会更在乎分类错误的样本，给予分类错误的样本更高的权重训练模型，并将这些权重不一的模型根据权重进行bagging。boosting更像是是医疗专家诊断病情一样：诊断容易出错的病情正确率更高的专家的话语权更高。具体adaboost的介绍可参见《adaboost》

bagging方法，特别是adaboost方法一般都会使用非常简单的弱分类器进行bagging和boosting，随着计算机处理能力的增强，可以使用更加复杂的模型进行bagging&boosting，而过将弱分类器使用更加复杂的树模型，就形成‘集成树模型’。比较常用的‘集成树模型’包括Random Forest和GBDT。

虽然单个树模型学习能力有限（拟合复杂的数据分布能力有限），但多个树模型放到一起，就能够高精度拟合出复杂的分布（如上图所示），这就是集成学习的强大之处。

Random Forest

Random Forest(RF)是典型的bagging树模型的方法。其思路就是使用随机的部分样本/特征构建树模型，之后使用bagging思想进行分类。

RF不仅对特征集合进行采样，同样也可以对样本进行采样，例如在进行单个cart训练时，对每个模型，随机使用这种方式一方面充分利用了所有样本，特征的贡献，另一方面，又能避免部分噪音带来的过拟合。设置合适的样本随机采样率（例如0.6表示每个模型选择60%的样本进行训练）以及何时的特征随机采样率（例如0.6表示每个模型选择特征集合60%的特征进行训练）进行RF训练。

在进行分类时，根据样本和特征抽样训练出来的模型使用bagging方法进行投票。

相对于boosting会依赖于前一模型分类正确or错误调整样本权值的思路， RF更容易实现并行化，因为RF中各子树的训练过程是完全独立的不会相互影响。

GBDT

Grandent Boosting(GB)是将梯度下降思路融入boosting方法中，不同于传统boosting每一步对分错样本进行加权（或对分对样本进行加权），GB定义整个模型的损失函数。

算法的每一步沿着损失函数下降最快的方向建立新的模型，这样使得算法在每一步均沿着下降最快的方向收敛。直到满足要求，建立满足要求的若干组合加权子模型。

Gradient Boosting将问题进行建模，定义loss function为

则对于训练样本集合{y, x}，我们的任务是寻找最小化loss的函数F*(x)：

而gradient boosting的思路是将映射模型函数表示为以下形式：

其中h(x;am)为简单函数/模型， am 为h的参数，此时， belta, a，就为我们要预估的最小化loss下的参数：

同时Fm与F_m-1的关系为

之后可以求belta和a序列参数，求解过程如下：

在第i个样本点，第m个模型里边的伪残差求解方法为：

要构建模型h(x,am)，最快的方法，就是让所有的样本点处，损失函数都沿着最快的方向下降。

也就是：

利用最小二乘法求解am后，即可求解belta_m

依次求解所有am, belta_m后，即得到最终模型F*(x)

树模型在百度关键词搜索推荐中的应用及实验结果

当然，很多时候我们不会直接去修改模型，在应用中，更多地是使用模型作为工具解决具体问题。例如在百度关键词搜索推荐中，我们更多是构建相关性判断的特征样本，之后对模型参数进行搜索：例如样本采样率，特征采样率等参数。具体效果参见实验部分。百度关键词搜索推荐介绍及交互流程参见《百度关键词搜索推荐系统交互流程》

一下为具体应用标注负样本示例，例如‘水仙花’，从搜索引擎商业价值角度考虑，是具体描述水仙花这个商品，而不一样是信息型舞蹈名字query'紫蝶广场舞水仙花开'：

具体GBDT在百度关键词搜索推荐中，相关性判断的应用方法（包括特征选取和实验结果），参见《分类模型在关键词搜索推荐中的应用》，使用树模型，在没有任何样本，特征调整的情况下，准确性直接提升了5个点，效果惊人。

同时，正如前述：树模型还有一个显著优点，就是在模型建立时，能够清晰分析出哪些特征对分类贡献大，哪些对分类影响小（常用的指标包括特征的贡献度，特征在分裂时的使用频率），一般情况下特征贡献度和特征使用频率均是越大越好。例如百度关键词搜索中，对关键词相关性模型（使用分类模型判断两个关键词是否相关）使用17维特征。使用Random Forest保留贡献最高的5维特征时，在交叉验证情况下，准确性基本保持不变，召回也就下降1个百分点。

而在排序任务重，使用衍生GBrank对百度关键词搜索推荐结果进行排序，一般情况下，效果随着树的深度增长而提升，但树深度达到8后，就不再提升。

随着叶子节点书的增长，效果仍然在提升，所以在应用中，如果效率允许，可以让最大叶子节点数多一些。

在实际应用中，理论上可以对众多参数进行全参数搜索，找到最优参数。实际应用中会快速找到比较好的参数后，策略即上线进行实验。

参考文献：

Friedman J H. Stochastic gradient boosting[J]. Computational Statistics & Data Analysis, 2002, 38(4): 367-378.
Quinlan J R. Induction of decision trees[J]. Machine learning, 1986, 1(1): 81-106.
Breiman L, Friedman J, Stone C J, et al. Classification and regression trees[M]. CRC press, 1984.
分类模型在关键词搜索推荐中的应用

百度关键词工具介绍参见：http://support.baidu.com/product/fc/4.html?castk=24b18bi7062c720d0d596

也可关注我的微博： weibo.com/dustinsea

或是直接访问： http://semocean.com

关键词推荐工具中的用户引导机制之四：种子query推荐

上一篇《关键词推荐工具中的用户引导机制之三：相关搜索query技术》中，我们提到可使用用户query-点击日志，session数据，及网页内容，挖掘与query意图相关（同时具有变现价值）的相query推荐给客户引导用户优化搜索。如用户还未输入，此时搜索引擎默认直接展示搜索框。但在关键词推荐系统中，更好的选择是push与用户相关高质量query，帮助用户高效发现兴趣点，本文将介绍在关键词推荐系统中，实现种子词推荐产品及策略

什么是种子query推荐功能

什么是种子词query推荐，先向大家展示两个直观的例子：百度锁屏，以及百度关键词推荐种子词推荐功能。

图：百度锁屏种子词query推荐

图：红框部分为关键词推荐工具中种子query功能

种子query推荐功能作用

种子query，就是在用户在搜索框中，还没有任何搜索时，通过线下挖掘计算，主动push推荐用户潜在感兴趣的query的功能。例如百度锁屏功能的种子query，当用户锁屏准备解锁时，app推荐用户可能感兴趣的搜索引擎候选query(种子query)后，用户可以直接点击进行搜索，以提升搜索引擎访问量；在百度关键词推荐系统中，用户还没有输入适合自己的query时，可以根据用户的历史搜索，以及百度推广业务等信息，推荐高质量的种子query给客户。

大家可能会有疑惑，既然关键词推荐就是一个推荐系统，那为什么还要有种子词推荐？而Baidu，或是Google首页上，也没有种子词推荐？从我的角度来看，Baidu，Google首页之所以没有种子词推荐功能，一方面是这两个搜索引擎简单的首页的访问量实在太大，首页上任何的信息，可点击的内容均会对网民带来影响巨大的引导作用，举个例子：之前就曾经发生过类似的时间，就是在百度首页上放了一个大型网站（具体网站名不便透露）的文字链，结果在很短时间内，该网站就被来自百度该文字链的流量压垮；反过来说，在搜索引擎首页上增加种子词推荐，也会分散用户的注意力。另一方面网民的搜索内容太泛，要做到准确推荐的确有难度。

在关键词推荐系统中，特定用户搜索的（商业）query对应的意图，产品范围均相对集中，或者说使用关键词推荐系统的用户，兴趣点相对集中，难点是用户很难想出来搜索引擎上可能接受的描述该兴趣点的千奇百怪的表述。所以就需要使用种子词推荐功能进行搜索引导。

如何设计种子词推荐策略

可以很简单，也可以很难。。。

为什么说很简单，例如，在搜索引擎上，最简单的方式，就是直接使用一定时间内网民的搜索，过滤掉黄赌毒反结果，作为推荐结果。但这样做有一个问题，就是有些搜索query，基本上可以说任何时候，搜索量都比较高，例如搜索query “淘宝”。为了避免该类问题，可以使用在某一段时间内搜索量变化比较大的query作为种子query。

为什么说可以很难？因为这本来就是一个关键词推荐问题：根据用户历史行为，数据，推荐用户可能感兴趣的query。当然，种子词推荐有它的特殊性，因为推荐的优化目标是不一样的，它是一个多目标的优化问题：

符合用户的搜索意图（搜索引擎中为搜索意图，百度推广中为推广意图）
用户使用该种子词搜索后，为搜索引擎/商业系统带来的效用

假设搜索意图质量为Q（Quality），带来的效用为U（Utility），则这个多目标优化问题可以描述为：

S = Q^(t) * U^(1-t)

其中S为最终的Score，使用t控制Q与U在最终结果中的权重。

我们可以使用经典的colleborative filtering，或是content-based recommendation方法，获取到推荐词源，之后使用以上双目标优化方式计算S来进行结果的filtering和ranking，给出Score权值最高的top n 结果。

例如，在关键词推荐系统中，我们希望用户使用种子query进行搜索后，一方面结果要相关，另一方面，返回的结果数要超过阈值（或者尽可能多），此时，搜索结果相关可以被定义为Q(可以离线挖掘时使用PLSA等技术进行判断相关性)，同时使用返回结果数作为U，最终对挖掘的种子词进行filtering和ranking。

更多内容请参考：

百度关键词工具介绍参见：http://support.baidu.com/product/fc/4.html?castk=24b18bi7062c720d0d596

关键词推荐工具中的用户引导机制之一：总述

关键词推荐工具中的用户引导机制之二：suggestion架构

关键词推荐工具中的用户引导机制之三：相关搜索query技术

《recommender systems handbook》

也可关注我的微博： weibo.com/dustinsea

或是直接访问： http://semocean.com

因式分解实现协同过滤-及源码实现

在设计实现推荐系统，选择推荐算法时，肯定会考虑协同过滤（CF）的使用，而CF中经常使用的两种方法包括： neighbour-based方法和因式分解。作为一个搜索推荐系统，百度关键词系统中也使用了CF(包括neighbour-based和因式分解方法)为用户推荐流量，考虑到可解释性和工程上在hadoop上实现的便利性，最终主要使用了neighbour-based中的item-based方法。但学术上，因式分解会从全局考虑用户投票的影响，所以理论和实践上效果都会更好。本文主要结合之前对因式分解的调研理解及调研demo代码，介绍因式分解实现协同过滤的方法，同时感兴趣的同学可以下载源码及MovieLens数据进行实验。

注:

为了方便理解，以下介绍均使用MovieLens 100K数据进行介绍（公司数据太大，且包含过多预处理过程，同时涉及泄密，你懂的：）

文中的代码可从文章最后的参考内容链接中下载。

推荐算法对比基线的建立

要评估一个策略的好坏，就需要建立一个对比基线，以便后续观察算法效果的提升。此处我们可以简单地对推荐算法进行建模作为基线。假设我们的训练数据为：三元组，其中user为用户id， item为物品id(item可以是MovieLens上的电影，Amazon上的书，或是百度关键词工具上的关键词), rating为user对item的投票分数，其中用户u对物品i的真实投票分数我们记为rui，基线(baseline)模型预估分数为bui，则可建模如下：

其中mu（希腊字母mu）为所有已知投票数据中投票的均值，bu为用户的打分相对于平均值的偏差（如果某用户比较苛刻，打分都相对偏低，则bu会为负值；相反，如果某用户经常对很多片都打正分，则bu为正值）， bi为该item被打分时，相对于平均值得偏差。 bui则为基线模型对用户u给物品i打分的预估值。该模型虽然简单，但其中其实已经包含了用户个性化和item的个性化信息，而且特别简单（很多时候，简单就是一个非常大的特点，特别是面对大规模数据时）

基线模型中， mu可以直接统计得到，我们的优化函数可以写为：

其中参数lambda1及之后的式子是为了防止过拟合产生。其中rui为已知的投票， mu可直接统计，对每个用户的参数bu, 对每个item的bi可求（相当于AX=B，求X，此处X即为bu, bi，可使用最小二乘法，例如可使用Numerical Recipes: The Art of Scientific Computing中提供的优化函数），当然，最简单的方法就是直接根据当前的观测值，直接统计出bu 和bi，统计方式如下：

其中lambda2, lambda3为手动设定参数（在MovieLens上为20左右效果比较好，才参数相当于降低投票较少的用户，以及被投票较少的item对整体预估效果的影响）， R(u)为用户u投了的item的rating集合，R(i)，为投票给item i的rating集合。

基线实验结果

还有一种更简便的方法，就是直接使用user，item的rating的平均值直接预估bi，bu，例如直接计算bu = sum(Ru)/len(Ru)，其中Ru为用户u投票的集合， sum(Ru)为这些rating值得和， len(Ru)为该集合大小。bi = sum(Ri)/len(Ri)，其中Ri为用户i被投票的集合， sum(Ri)为这些rating的分值之和， len(Ri)为这个集合的大小。我们将此方法记为baseline1，上文描述的方法记为baseline2。以下为两种方法在不同lambdau，lambdai值下的具体表现（其中两个lambda值在实际应用中可以根据代价进行全空间搜索最优解），具体分值代表RMSE。

图：两种基线的RMSE效果表现

可以看到，随着lambdai和lambdau的增长，两种方法的RMSE均在下降，且效果上， baseline2 优于baseline1。

基线源代码

源码文件对应为RecBaseLine.h，其中RecBaseLine封装了baseline1的实现， RecBaseLineAdv封装了baseline2策略的实现，而每个推荐算法均继承自RecTask，所有每个推荐算法除了接受该算法特有的参数外，还必须提供以下接口。

其中代码在上传时添加了部分注释。

因式分解实现协同过滤

上文中实现的两种基线算法，仅仅孤立地去考虑user， item的投票偏差，并没有将二者建立内在联系。此时我们可以对这种内在联系通过隐主题进行建模。最经常使用的方式莫过于SVD。

以MovieLens电影推荐为例，SVD(Singular Value Decomposition)的想法是根据已有的评分情况，分析出评分者对各个因子的喜好程度以及电影包含各个因子的程度，最后再反过来根据分析结果。

使用SVD对问题进行建模

SVD的想法抽象点来看就是将一个N行M列的评分矩阵R（R[u][i]代表第u个用户对第i个物品的评分），分解成一个N行F列的用户因子矩阵P（P[u][k]表示用户u对因子k的喜好程度）和一个M行F列的物品因子矩阵Q（Q[i][k]表示第i个物品的因子k的程度）。用公式来表示就是

R = P * T(Q) ，其中T(Q)表示Q矩阵的转置

下面是将评分矩阵R分解成用户因子矩阵P与物品因子矩阵Q的一个例子。R的元素数值越大，表示用户越喜欢这部电影。P的元素数值越大，表示用户越喜欢对应的因子。Q的元素数值越大，表示物品对应的因子程度越高。分解完后，就能利用P，Q来预测Zero君对《七夜》的评分了。按照这个例子来看，Zero君应该会给《七夜》较低的分数。因为他不喜欢恐怖片。

图：推荐问题的因式分解建模

实际上，我们给一部电影评分时，除了考虑电影是否合自己口味外，还会受到自己是否是一个严格的评分者和这部电影已有的评分状况影响。例如：一个严格评分者给的分大多数情况下都比一个宽松评分者的低。你看到这部电影的评分大部分较高时，可能也倾向于给较高的分。在SVD中，口味问题已经有因子来表示了，但是剩下两个还没有相关的式子表示。因此有必要加上相关的部分，提高模型的精准度。改进后的SVD的公式如下：

其中mu表示所有电影的平均分，bu表示用户评分偏离mu的程度，bi表示电影评分偏离mu的程度，P，Q意思不变。特别注意，这里除了mu之后，其它几个都是向量。其中qi， pu的维度，就是隐主题的维度。

分解完后，即（1）式中的五个参数都有了正确的数值后，就可以用来预测分数了。假设我们要预测用户u对电影i的评分：

加入了防止过拟合的lambda参数后，我们的优化函数为：

有了这个优化目标函数后，就可以使用较多的手段来进行优化了。

以下主要使用梯度下降法解优化目标函数。具体的公式推导可参见论文。同时还可以使用ALS算法进行求解（该方法已经融合进mahout，后续会有专门文章对该算法进行介绍并给出实验结果）

最终推导出的求解公式为：

在实现时，设定最大的迭代次数，以及收敛的误差，即可经过迭代球接触bu, bi, qi, pu

因式分解同过滤代码实现

因式分解的实现使用了RecTask，故封装使用了一致的接口。具体感兴趣的同学可直接review source code

图：使用梯度下降求解因式分解CF推荐。

因式分解CF效果对比

此处就仅给出两组程序直接运行出来的结果及对应参数，可以看到，在latent factor的维度为30，设定gama和lambda后， RMSE就降低至0.903105,效果比较明显。

以下为具体配置参数：

task:SGD30,mae:0.687782,rmse:0.903105

mu:3.528350,lambda:0.200000,gama:0.020000,min_res_err:0.010000,max_iter_num:10000,fea_dim:30

上文描述算法的hadoop版本未上传网盘，如感兴趣可以邮件沟通。

参考文献：

Koren Y. Factorization meets the neighborhood: a multifaceted collaborative filtering model[C]//Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2008: 426-434.

Zhou Y, Wilkinson D, Schreiber R, et al. Large-scale parallel collaborative filtering for the netflix prize[M]//Algorithmic Aspects in Information and Management. Springer Berlin Heidelberg, 2008: 337-348.

Bell R, Koren Y, Volinsky C. Modeling relationships at multiple scales to improve accuracy of large recommender systems[C]//Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2007: 95-104.

Shapira B. Recommender systems handbook[M]. Springer, 2011.

MovieLens数据集： http://grouplens.org/datasets/movielens/

文中描述算法代码实现及评测框架参见：http://pan.baidu.com/share/link?shareid=2198676312&uk=1493671608

百度关键词工具介绍参见：http://support.baidu.com/product/fc/4.html?castk=24b18bi7062c720d0d596

也可关注我的微博： weibo.com/dustinsea

或是直接访问： http://semocean.com

百度关键词搜索推荐系统交互流程

如果把百度凤巢系统比作商场，那这个商场的主要商品是什么？答案就是‘流量’，而关键词，就是流量对广告主最直观的表现载体。

客户想要在百度上做搜索广告，就需要找到能够准确描述自己推广意图的关键词集合；但另一方面，目前百度凤巢系统拍卖词接近10亿，百度每天有PV关键词约数十亿。从这些词海中淘出优质关键词，无论对于客户本身，还是为客户打理账户的客服而言都是一大挑战。
此时百度关键词搜索推荐工具（KR）就显现出它的重要作用。
那KR到底是什么呢？顾名思义，KR（Keyword Recommendation缩写）就是百度向客户推荐关键词的工具。当然，KR不仅提供诸如被动，主动，按URL，按行业等推荐形式为客户推荐个性化关键词，同时还提供像种子词，种子URL，Suggestion等引导提词技术；另外KR还提供客户账户诊断优化服务，一方面优化客户账户结构，提升客户提词，账户管理效率，同时也达到提升客户消费，提升百度凤巢系统整体消费的功能。

因为该工具是提供给百度广告主使用的，所以在网络上没有直接的入口，需要再www2.baidu.com上注册帐号后，找到‘关键词工具’后进行访问。

百度关键词搜索推荐交互

以下为关键词工具使用流程：

广告主进入KR入口（www2.baidu.com）中有多个入口，此时KR会根据广告主在凤巢中的历史操作行为，为其推荐种子关键词，广告主可以直接点击种子关键词进行搜索（种子关键词主要是面向对KR使用不熟练的客户，对他们的使用进行引导，百度搜索框也没有该功能，该功能为KR独有）；之后网民可输入搜索搜索query获取和该query字面，语义相似的关键词，同时系统会返回和这些关键词相关的属性。然后用户可以对关键词进行筛选及分组（系统会提供多种分组建议）

图：百度关键词搜索推荐系统交互示意图

同时KR也提供传统推荐的方式为广告主推荐关键词。就是根据客户历史提词行为，使用SVD，图关系挖掘等协同过滤技术直接将结果推荐给广告主，广告主无需有任何交互输入，直接进入提词页面就能看到结果。

搜索系统策略架构

百度关键词搜索推荐系统（KR）不仅提供典型的推荐服务，即不搜既得，同时也提供搜索功能，即用户输入关键词进行搜索，KR推荐出与该关键词最相关的top n 关键词，这些关键词不仅附带有容易理解的推荐理由（表明该关键词为何推荐出来），同时附带有关键词的各种属性（例如关键词在百度上的流量，竞争激烈程度等信息），同时对关键词按照字面，语义进行聚类；推荐出来的关键词默认已按照字面，语义相关性及marketing rule进行了排序。以下为KR搜索过程online部分的策略架构（offline部分涉及较多数据挖掘逻辑，参见之前的文章介绍）

其中最底层为各种基础数据及这些基础数据经过预处理，清洗后的存储，以及基于这些过程的挖掘数据。当用户发起一次请求时，系统会经历以下主要步骤：

关键词触发：根据经典的字面进行触发以及语义，同购关系及复杂图关系的挖掘数据，触发出推荐关键词的候选。对应到百度搜索引擎上，该步骤就是query改写变换及文档的检索。
相关性准入：考虑到后续的过滤步骤，触发的关键词量一般需要比最终需要的关键词数量多以保证召回。此时需要对这些候选关键词进行相关性过滤。例如使用GBDT模型进行二分类：相关 or 不相关。
audit：推荐出的关键词可能涉及黄赌毒，为避免风险，这些关键词需在推荐时尽早过滤。搜索引擎上，也需要对一些黄赌毒反内容进行过滤。
ranking：为提升KR推荐的效率，使用提词率模型，效用模型及价值模型对剩下的候选关键词进行排序，同时需要根据应用场景对关键词进行过滤（例如用户有pv过滤需求，则需要将pv值小于阈值的关键词过滤）；对应到百度上，最重要的技术就是ctr预估及质量度。
marketing rule：此处集中了人工干预的逻辑，例如：假设某个时间段需要KR推荐该消费的关键词，此时可以在此处增加逻辑对候选关键词队列进行重排序；或者对于某些bad case进行过滤。搜索引擎上也需要有该逻辑层，以便最快速度对结果进行人工干预。
UI：关键词的展现，以及保存等功能，同时包含传统推荐系统的正负反馈信息收集，反馈等机制；以及KR独有的关键词分组功能，信息筛选功能等。对应到搜索引擎上就是前端的展示。

主动推荐策略架构

KR中的主动推荐，就是传统的推荐技术在百度关键词搜索推荐中的应用。所谓主动，是针对KR而言的：关键词，广告主无需发起交互操作，KR即使用传统推荐技术： content-based， collaborative filtering及多种技术混合的hybrid filtering方法向广告主推荐结果。

以下为KR主动推荐的策略架构，一方面KR使用网民搜索日志，点击日志，广告库数据构建item候选集合，另一方面系统收集广告主的反馈（explicit or implicit）构建user profile，之后基于这些信息使用推荐算法向客户进行推荐。如果说KR中的搜索功能是即搜即得， 那么主动推荐就是不搜即得。

图：百度关键词搜索推荐系统主动推荐策略架构

按网页内容进行推荐

百度凤巢广告主都有自己的推广网站（或主页），而要达到较好的推广效果，广告主应该提交与网页相关性较高的关键词，否则即使广告主因为提交了一个高PV的关键词导致来到网站的流量较高，也会因为内容与关键词不相关而导致转化较低而得不偿失。

KR为此提供了按URL进行推荐，即广告主在KR搜索框中输入某一个网址（例如semocean.com），则KR会抓取该网站并分析其中的主题词进行推荐，以下为主要的策略流程。

图：KR按URL推荐策略处理流程

每一种KR推荐算法，或者做一个延伸：每一个商业搜索引擎中，都会包含以下几个模块：触发，相关性过滤，rank，marketing rule。

其中触发是根据输入，找到一个相对较大的候选集合，之后的所有排序过滤都是针对该集合的(在学术界使用的数据；例如搜索引擎中，根据网民输入的query，进行简单的字面语义匹配后，找到潜在的候选集合作为后续处理的对,又例如在学术界使用的LTR任务的开放数据LETOR中，直接使用BM25进行校验，筛选出相关性较高的top N进行后续的ranking实验；之后对返回的结果进行相关性过滤及排序，最后根据一些业务规则进行强制过滤及重排序，包括黄赌毒反动内容的过滤，或是某些特定的人工干预。

图：KR搜索推词逻辑

百度关键词工具介绍参见：http://support.baidu.com/product/fc/4.html?castk=24b18bi7062c720d0d596

分类：机器学习

推荐系统，变现系统CTR&CVR预估算法演进－模型

背景介绍

问题定义

LR

GBDT+LR

Wide&Deep

W&D变种

Deep Cross Network

DeepFM

Deep Interest Network

FM深度化

Spatio&Temporal Net

总结

参考文献

一个完整推荐系统的设计实现-以百度关键词搜索推荐为例

级联二步图关系挖掘关键词推荐系统及实现代码

context-aware recommendation

集成树类模型及其在百度搜索推荐系统中的应用

推荐系统经典论文文献及业界应用

关键词推荐工具中的用户引导机制之四：种子query推荐

因式分解实现协同过滤-及源码实现

百度关键词搜索推荐系统交互流程