Airbnb深度学习搜索引擎实践－Embedding使用

real-time personalization using embeddings for search ranking at airbnb

内容简介

搜索排序和推荐系统在类似于网页搜索内容发布等场景都是比较重要的技术，但是很难有统一的技术能够适用于所有的场景。
在爱彼迎的场景中，需要同时满足商家和用户的偏好需求。而且在特定的时间，一个民宿只能接待一位客人。
文中使用embedding技术对list和用户进行建模，以便用在搜索和推荐中。这两个频道带来的转化占了99%以上。并且能做到实时的个性化。从离线和在线的ab test效果都验证比较好。

intoduction

随着数据的增长继续学习，在搜索和推荐中的个性化应用都比较成熟，有很多的发展。有些集中在engagement的优化，有些集中在购买的优化，有些则集中在双边的优化。例如像租房行业中的airbnb打车行业中的uber,都会涉及到供需双方的满足。
airbnb需要满足双边的供应和需求双方包括说客人的预计定酒店地点，日期以及说酒店的一些要求，比如容忍的客户数,是否有宠物,要把不匹配的酒店放在比较低的排序位置。
最后使用的方法是将问题建模成pairwise排的问题,并使用lambda rank方式实现。
在爱彼迎的场景中，一般用户有需求的时候都会在同session中搜索多次,所以我们可以个性化的向用户推荐同一session中用户可能喜欢的item,以及将排序比较高的推荐出来,但没有被点击的item作为负例。
方法:
在具体实现的时候，使用用户有过交互的item作为trigger，使用搜索session的数据训练word representation,并计算与trigger item的相似度,以便在搜索和推荐中作为排序similarity的度量。
兴趣建模方式

使用用户近期点击行为作为用户短期的兴趣偏好
使用用户预定的行为作为用户长期的偏好
因为用户预定的行为会比较稀疏，所以将用户映射到群体使用规则的方式
User和item都映射到同样一个向量空间，以便计算其相似度

文章的贡献

实时个性化:传统的方法是离线计算好user 2 item或者说item 2 item的内容，之后在线去拉倒排，本文使用的方法是将用户即时的交互item embedding化，然后再去查相似的item。做到实时个性化
适应具有聚集性的数据的训练模式:在短租市场中，用户一般是在特定的时间，只针对特定的区域有需求，故在训练的时数据的负样本选择需要具有区域性聚集
将转化作为全局的内容
用户类别embedding:很多文章对每一个用户进行一个embedding，但是在短租市场，用户行为非常稀疏，故将用户的类别进行embedding
将用户拒绝作为负例

方法

文中将embedding分成两种，一种是用户实时短期item的embedding，另一种是user type和item的embedding，表征长期实时兴趣。

相当于优化每个session中每一个item对应的上下文的概率最大化。

此处的概率是用softmax来表示。
note:以上公式中，m为前后上下文的窗口长度，V为字典大小。使用以上方式，得到的li的representation，在session中越相似，则距离约近。
此处V表示id数量较大，所以使用随机负采样方式来降低数量提升计算的速度。
负采样：
负采样的方法为，使用click和对应session中的上下文作为positive pairs(c,l)，以及click和随机采样的上下文作为negative pairs(c,l)进行模型训练。以下为对应的优化目标，其中Dp为positive pairs集合，Dn为negative pairs集合。

将session分为两种

第1种是以完成订单预定的session, booked session
第2种是有点击，但没有预定的session，exploratory session
为了让预定作为一个全局的上下文，在每一个booked session中的样本，都强制将预定的item作为结束的item。

对于exploratory session，则优化目标仍然为公式（3）
Adapting training for congregated search:
以上公式的random sampling会导致random sampling出来的负样本都是和本次搜索地域不一致的结果，最终导致模型学习出来的是区域之间的相关性，为了解决该问题，增加对同区域结果的sampling

上式中Dmn为在l的同区域中sampling出来的结果

冷启动

新加入的店面没有embedding，此时我们会用距离内的相似民宿的中心点来进行表示，比如说找到半径10英里内，相同price以及相同房型等其他属性相同的三个embedding，然后做一个平均，来表示新的民宿的embedding作为冷启动。用该方法能够覆盖98%的new item。

embedding效果的检验

使用围围度为32的embedding进行表征，发现地理位置的聚类关系的确编码进去了，同时房型价格的信息也编码进去了。

user-type & listing-type embeddings

目的是捕捉用户的长期兴趣。但是存在以下几方面的挑战:

数据较为稀疏。
很多预定的session长度为1，没法学习。一般出现5~10次才能学习出来。
用户预定的间隔很长，可能偏好已经改变了。

具体的实现方式为将用户按照meta信息进行聚类分为人群，将listing/item按照meta信息进行聚类，按照聚类后的群体构建预定session进行训练。相当于学习的对象由原来的list_id，变为list_type
用户的长期兴趣可能会改变，故在具体学习操作的时候，将user和listing映射到同一vector space中进行学习。

构造(u_type1,l_type1)的用户群体，listing群体的点击session，之后进行训练，即可将user和listing映射到相同vector space中

模型训练

以30分钟作为一个session进行模型训练
去除无效的点击，例如点击后在页面时间较短的点击
将session处理为同时包含booking&EXPLORATION的session形式

评估方式

给定用户最近的点击，以及待排序的candidate, 看最终被预定的item是否能够被排上来

线上使用的方式，为使用GBDT模型进行特征组合，使用user, listing embedding构建各种特征进行模型训练

reference

原论文参见：

https://pan.baidu.com/s/1R8xeb0iRq089myl3oXJlZA 提取码:1j9n
更多内容参见： www.semocean.com
P.S. 急招推荐，搜索，语音算法人才，阿里P6~P8，欢迎推荐和自荐，简历请发至 haibo.lihaibo@alibaba-inc.com

背景介绍

在推荐系统，或者移动广告变现业务中，抛开内容的生产，用户的增长等挑战后，从算法的角度存在以下几个比较有挑战的技术点：

冷启动问题(Cold Start)：新的用户如何处理
新广告探索（Exploitation&Exploration）：没有历史统计信息的item或者广告如何快速确定其效果，既不能再新Ads上浪费过多流量，也不能每次都采用贪心算法仅关注短期利益
转化延迟产生建模问题(Modelling Delay Feedback)：从点击到最终效果的产生中间有较长时间的间隔，如何对该问题进行建模。具体问题描述和解决方案可参见《移动端转化延迟相关CPI转化率模型建模方法》
点击率预估（CTR），包括单点的《推荐系统，变现系统CTR&CVR预估算法演进－模型》，以及《推荐系统，变现系统CTR&CVR预估算法演进－多任务算法》

这些问题解决的好坏都会严重影响系统的效果，而且每一个问题在工业界&学术界都有较多的研究。

下文主要对第4个问题：点击率预估近几年的发展进行简单总结，供大家参考。

广告和推荐算是比较经典老牌的大数据落地的业务场景，而其中的核心技术点CTR预估中使用的技术，也从最经典的LR，逐步发展到树模型，FM等，而近几年随着深度学习技术的发展成熟，现在CTR预估（包括转化率预估）也逐渐开始使用深度学习，并且在各大公司的业务场景中均已经得到较大程度的效果提升。下文就对近期出现的和深度学习相关的CTR预估模型进行总结。方便我个人review也供大家参考。

问题定义

可以简单定义CTR预估问题为预估P(C|X)，其中：

C为是否点击
X为使用的特征，X在变现中会包含用户profile特征，用户行为特征，广告特征，场景上下文特征

当然，在更复杂的应用场景下，可能我们不仅需要预估CTR，同时还需要预估CVR（转化率），则此时的问题建模为：

ECPM=P(CLK|X) * P(Conversion|CLK,X) * CPA，此处主要讨论P(CLK|X).

LR

传统的方法主要是使用LR来进行CTR预估，该方法能够适用的主要原因是LR相对来说不仅比较简单，更偏记忆的模型，该模型会记忆高频出现的特征，相当于是对历史的exploitation。而且该模型容易进行并行化，线上处理也非常快，因为虽然训练的时候特征空间有数十亿维，但线上真实使用过程中，非0的特征一般也就就是个，所以处理性能较高。当然该模型缺点也比较明显，就是该模型更多是对历史的记忆，但需要很多人工特征组合，否则原特征的维度上可能不能很好地划分问题，同时人工特征组合也相当于增加了模型的个性化描述，效果会更好。

GBDT+LR

该方法是facebook发表的其广告系统中使用的CTR预估算法(参见《深度学习资料》)，也算是业界比较经典的算法了。主要思路为：1，使用GBDT进行特征抽特征（进行自动特征组合）；2，使用LR对GBDT抽取的特征（规则组合）进行权重学习。3，一般训练的方式为先将GBDT训练好，之后固定树模型并对叶子节点进行编码作为LR特征训练LR。该方式在业界有较为广泛的应用，例如滴滴路况预测中，能够提升有效准确率2%，而美团ETA应用中预估时间的MAE能够下降3.4%（与论文中3%的下降接近）.；同时文中对影响CTR模型效果的几个因素进行了分析，得到以下几个结论：

模型的自动更新很重要：模型一周不更新，效果下降1%左右，考虑到性能，甚至可以gbdt模型更新频率相对低，lr更新相对快
对于gbdt+lr模型，historical特征较为重要（top 10特征均为historical特征），但contextal特征对cold start较为重要
参数更新的schedule方法中,per-coordination方式明显好于其他方式
在display ads中，训练时可以进行负采样，但后续线上使用的时候需将概率分布转换回原分布:q=1/(p+(1-p)/w)，其中q为最终ctr值，p为采样后模型预估值，w为负采样比例

当然，如果只是预估排序而不是具体的CTR值，则可以不做步骤4。

该方式和单纯的LR相比，其实已经包含了自动特征抽取的思路，因为GBDT模型天然就是进行特征组合（抽取特征），之后再使用LR来学习这些组合特征的权重；而该方式的另外一个优点，就是能够很好地处理连续特征，如果单纯使用LR，我们还需要进行特征离散化，而GBDT天然就对连续特征进行处理。

图：GBDT+LR.使用GBDT进行特征自动组合，其实现在使用DNN的主要作用也可以认为是使用DNN自动抽取高维度特征

更进一步，在该算法的基础上逐渐出现了一系列变种，我们可以称为GBDT+LR Plus，其思路和GBDT+LR类似，只是受限于GBDT的结构，GBDT能够很自然地处理连续值特征，但对离散特征的处理不够好，反过来LR能够很好地处理连续值特征，所以后来衍生出来的模型结构，一方面使用GBDT来提取特征后作为LR的输入，同时仍然保留离散特征作为LR的另一部分输入，这样LR模型就同时具有GBDT特征组合和离散特征。当然该处的LR可以换成FM，或者FFM等模型。具体的实例参见《深度学习资料》中关于CTR部分的Kaggle Criteo Ctr预估介绍：3 Idiots’s Approach for Display Ads Challenge. 为Kaggle上Critero ctr预估第一名使用的方法，主要的思路为：

使用GBDT对连续特征，以及出现频率极高的离散特征进行特征组合（类似于FB display ads ctr预估）
组合出来的特征，结合离散化后的连续值特征，原有离散特征（共3类特征）
使用FFM进行CTR预估，并在得到CTR值后对预估值进行Calibration(简单地加减一个固定值)

图：GBDT+LR Plus:GBDT后，离散特征仍然输入至线性模型，相当于线性模型的特征输入包含两部分：离散特征+GBDT组合特征

总体来说，这个时期大家的工作还都集中在如何使用浅模型让效果最优，例如很多公司在推荐系统中使用FM(例如头条的推荐系统)，而类似于Kaggle这样的专门比赛的场景，则更倾向于ensemble的算法，例如《深度学习资料》介绍的Kaggle Avazu CTR预估：4 Idiots’s Approach for Display Advertising Click-through Rate Prediction. 另一个Kaggle上的display ads ctr prediction 比赛，冠军组使用的方法介绍中，有两个关键点：1，ensemble，目前已经成为competition的标配；2，feature engineering,文中使用了较多单独构造的feature，例如user /deviceid count, hourly impression count; user installed app bagging, user click action的编码等。最终获奖的模型为20个ffm的ensenbling

Wide&Deep

之后很长时间，工业界使用的方法都是类似于GBDT+LR，FM，FFM之类的浅模型；如果是比赛场景，则更多会在这些模型的基础上进行essemble。而对于深度学习，大家基本上都持观望态度，一方面是大家会有一个初步的判断，就是深度学习更多适用于信息完全且格式规范化的问题，例如图像（输入图像中包含所有信息，格式统一），而能不能应用在信息稀疏的场景有待验证；另一方面是深度学习对计算资源的要求比较高，一般没有GPU卡基本上不用去尝试，速度非常慢，而GPU卡的成本又非常高，所以很多公司并不会投入那么高的成本去尝试一个未知的东西，特别是创业型公司或者业务驱动的公司。直到2016年，随着GooglePlay app推荐场景，以及Youtube视频推荐场景下google在深度学习推荐上取得明显效果，且论文发布后，深度学习在这个领域的应用才得到更多的关注。

以GooglePlay app推荐为例，GooglePlay App推荐：《深度学习资料》:Cheng H T , Koc L , Harmsen J , et al. Wide & Deep Learning for Recommender Systems[J]. 2016.提出了Wide&Deep方法(同时可参见《lbs工业界eta应用及滴滴wdr技术》)，主要思路是使用Wide线性部分作为Memorization，对历史信息进行exploit，而使用Deep部分，对特征进行自动的更高层次的组合与抽象（个人理解和NLP中的模式类似，Deep部分能够学习复杂计算，同时对特征进行组合并生成embedding）进行自动特征组合，并进行更高层次的泛化，相当于对训练数据中的信息进行explore。该方法同时解决了wide需要进行手动特征组合的缺点，以及Deep有可能过拟合的缺点；而训练的方式为进行Jointly training，其中wide部分使用ftrl训练，deep部分使用adagrid后adam进行训练...Note…P.S. 目前Wide&Deep已经作为一个标准Framework解决分类和回归问题，例如滴滴ETA模型，我们使用Wide&Deep&Recurrent的WDR方法进行ETA预估（可参见《lbs工业界eta应用及滴滴wdr技术》）

图：Wide&Deep:离散特征进行embedding之后和连续特征进行concat作为deep输入

W&D变种

Wide&Deep推出后，基本上就作为业界的一个baseline的算法框架使用，在这个过程中也会有比较多的网络改进。改进的思路也基本上是在弥补Wide&Deep的各种不足。而优化的方向，基本上就是两个：要么优化wide部分的能力，要么优化deep部分的能力和效果。

Deep Cross Network

例如：Wang R, Fu B, Fu G, et al. Deep & cross network for ad click predictions[C]//Proceedings of the ADKDD’17. ACM, 2017: 12. 提出的DCN，在DNN的基础上，增加使用cross network对特征进行交叉。文中cross network有两个特点：

能够限定特征交叉的阶数（bounded order），且可以认为cross network的depth数，就是特征交叉的阶数
每次进行特征交叉的时候，相当于同时在做和第一层输入的交叉，同时在学习上一层的残差。最后cross network再和dnn进行combination。和deepfm相比：相同点是网络结构比较类似。不同点在于cross network从理论上能够从cross network的网络层数控制feature intesection的阶数..Note..

图：DCN示意图:DNN的同时，增加cross network

具体推导公式为：

图：DCN网络交叉方式：每一层均和输入进行交叉学习残差。同时可以认为cross network的层数，就是特征交叉的阶数

DeepFM

另一种比较常见的模型结构是DeepFM. 2017 Huawei App Recommender Ctr Prediction:Guo H , Tang R , Ye Y , et al. DeepFM: A Factorization-Machine based Neural Network for CTR Prediction[J]. 2017.华为App应用市场发布的推荐方法，基于Wide&Deep，区别在于两点：

将Google的Wide部分的LR模型换为FM，用于学习特征二阶交叉

不同于其他Deep的模型，FM和Deep部分使用的特征的Embedding是相同的，相当于low &hight order feature intesection都会反映到Embedding中在Wide部分和Deep部分进行共享，且训练速度和FNN（FM与训练V作为Deep Model Embedding参数初始化），PNN（Embedding和First Hiden Layer之间进行一次inner production，效果不错但增加了全连接规模导致训练较慢）要好。PS.在滴滴ETA模型中，我们就借鉴了DeepFM思路，不过其中的Deep部分会比较复杂，同时在最终的融合部分，增加了初始Additive ETA Model…..Note。该方式与传统的Wide&Deep方式相比的优势是，对于Wide部分，模型不用再使用太多人工特征，可以认为FM能够很好地完成低阶（二阶）特征组合

图：DeepFM网络结构图：1,wide部分使用FM代替；2,embedding wide&deep共享

Deep Interest Network

Zhou G , Song C , Zhu X , et al. Deep Interest Network for Click-Through Rate Prediction[J]. 2017.目前deep learning在CTR&CVR预估上，使用较多的方法是Embedding&MLP的方式，思路是对原来稀spase features先进行embedding，之后进行feature group wise的pooling，例如sum或者average，之后得到定长的vector再输入MLP（MLP可以有很多变种，例如res-net思路）。该方式在淘宝上的缺点是：user的兴趣可能不止一个，例如年轻妈妈可能关注自己喜欢的时尚衣服，同时也在购买婴儿用品，故直接sum/average的user featrues pooling方式存在信息损失，既进行pooling后，在embedding空间中得到的向量可能和该用户的众多兴趣距离都较远。故Deep Interest Network将user behavioral embeddings与ads的embedding使用local network的方式进行学习，最大程度上根据用户historical 的behavioral feature体现与ads的相关性，从网络结构的角度，我们可以认为是每个ads去和最相近的user behavior embedding来进行权重分配，以便突出地体现和该广告相关的用户行为…Note..

图：DIN（Deep Intresting Network）

FM深度化

CTR预估模型的另外一个发展方向是在原来FM的基础上，引入深度学习的思想，将二者结合起来，者可以认为是FM的扩展或者能力的增强

例如Attention Factorization Machine

Xiao J, Ye H, He X, et al. Attentional factorization machines: Learning the weight of feature interactions via attention networks[J]. arXiv preprint arXiv:1708.04617, 2017.网络结构中的设计思想是认为FM中，每个特征对应的隐变量(embedding)在使用过程中的权重都相同（均为1）是不合理的。特征在进行交叉的时候，权重应该不一样。故在FM结构中增加attention network来学习特征embedding进行element-wise交叉时候的权重。该方法一方面能够提升效果，另一方面，也能够根据特征交叉过程中的权重，分析交叉特征的重要性：通过分析网络产生的attention score，能够观测到哪些特征的组合重要性更高（和未做attention的fm相比）。而文中通过先固定attention score训练fm embedding，之后再固定embedding训练attention权重的方式，也验证了在传统fm上增加attention network的确对最终的效果有正向作用..Note..

图：添加了Attention的FM，背后的intuition是fm进行二阶交叉时，特征的重要性是不一样的，通过Attention来捕捉该差异

又例如在Neural Factorization Machine中，He X, Chua T S. Neural factorization machines for sparse predictive analytics[C]//Proceedings of the 40th International ACM SIGIR conference on Research and Development in Information Retrieval. ACM, 2017: 355-364.在FM后增加了隐藏层，以便在原有FM线性二阶交叉的基础上增加非线性的更多特征交叉。这类方法我们都可以认为是在FM的基础上，使用DNN的思路，对FM进行能力的增强。

图：Neural Factorization Machine在FM进行二阶embedding交叉后，引入DNN进行更高阶交叉

Spatio&Temporal Net

指在NN的基础上，充分考虑推荐场景下Spatio&Temporal特征，此处空间时间维度的特征在不同场景下含义可以不一致，例如在论文《Deep Spatio-Temporal Neural Networks for Click-Through Rate Prediction》中，主要思想还是使用深度学习进行高维特征交叉。创新点在于该点击率模型同时考虑了空间关系和时间关系对点击率的影响。

该处的空间关系指即将展现的候选广告之前的作为上下文的广告，作为该ad的context，而该用户历史上点击过&未点击的ads则作为空间时序上用户的兴趣表达（该思想和DIN类似）

在具体实施时，文中使用了递进的三种模型：1，特征embedding后直接进行sum pooling；2，解决加入attention机制解决sum pooling带来的信息丢失问题；3，引入context和target的交叉解决context对多个广告不变的问题

总体文章的思路比较直接，最重要创新就是同时引入上下文和用户时间维度上的兴趣表达

总结

当前的CTR预估已经大规模使用深度学习，而且在工业界和学术界仍然在不断地有新的网络结构出现，所以不出意外这些新的网络结构的研究应该还能火两三年。但今年去加拿大参加NeuraIPS时发现一个趋势，就是很多研究人员，以及类似于Google这样的公司都在大力投入到AutoML中，也就是使用机器学习的方法，类似于搭积木似的去寻找最优化的网络结构（超参数）组合，所以会不会两三年后，网络结构的创新，会被AutoML所取代？这个不得而知

参考文献

一个完整推荐系统的设计实现-以百度关键词搜索推荐为例

在之前一篇博文中，有同学在评论中问了个问题：如何解决因式分解带来的推荐冷门，热门关键词的问题。在回答这个问题的时候，想到了近几年在做搜索推荐系统的过程中，学术界和工业界的一些区别。正好最近正在做技术规划，于是写偏文章说下工业界完整推荐系统的设计。结论是：没有某种算法能够完全解决问题，多重算法+交互设计，才能解决特定场景的需求。下文也对之前的一些博文进行梳理，构成一个完整工业界推荐系统所具有的方方面面（主要以百度关键词搜索推荐系统为例）

完整的推荐系统肯定不会只用一种推荐算法

在学术界，一般说到推荐引擎，我们都是围绕着某一种单独的算法的效果优化进行的，例如按内容推荐，协同过滤（包括item-based, user-based, SVD分解等），上下文推荐，Constraint-based推荐，图关系挖掘等。很多比较牛的单个算法，就能在某个指标上取得较好效果，例如MAE，RMSE。。。不过有自己的优点，每种算法也有自己的缺点，例如按内容推荐主要推荐和用户历史结果相似的item，一般的item-based容易推荐热门item（被更多人投票过）。。。。所以在工业界，例如各互联网公司，都会使用多种算法进行互相配合，取长补短，配合产品提升效果。而且在完整的推荐系统中，不仅有传统的Rating推荐，还需要辅以非常多的挖掘， Ranking来达到预期效果。

推荐系统3大件：User Profile、基础挖掘推荐、Ranking

在实践中，一个完整的推荐系统会主要由3部分组成：

User Profile
基础推荐挖掘算法
Ranking

此处之所以将Ranking单独列出来，是因为其在推荐任务中过于重要，直接决定了推荐的效果。

以下为整个推荐的数据流：

User Profile

A user profile is a representation of information about an individual user that is essential for the (intelligent) application we are considering user profile主要是用户（注册）信息，以及对用户反馈的信息进行处理，聚合，用于描述用户的特征；是后续推荐和排序的基石。一般情况下，user profile会包含以下具体内容：

用户兴趣数据
用户的基础注册信息，背景信息：例如用户出生地，年龄，性别，星座，职业等。这些信息一般从用户注册信息中获取；例如高德，百度地图注册用户，淘宝注册用户等
用户行为反馈：包括显示的反馈(explicit)和隐藏(implicit)的反馈，显示的反馈包括用户的评分，点赞等操作，百度关键词搜索推荐工具上的点赞（正向显示反馈）和垃圾桶（负向显示反馈），淘宝上的评分；隐式反馈包括用户的浏览行为，例如在百度关键词搜索推荐上搜过那些词，淘宝上点击了那些页面，在高德上点击了那些POI等
用户交互偏好：例如用户喜欢使用哪些入口，喜欢哪些操作，以及从这些操作中分析出来的偏好，比如在高德地图上根据用户行为反馈分析出来的用户对美食的偏好：更喜欢火锅，粤菜，还是快餐
用户上下文信息：这些信息有些是分析出来的，例如在LBS中分析出来的用户的家在哪儿，公司在哪儿，经常活动的商圈，经常使用的路线等

user profile经常是一份维护好的数据，在使用的时候，会直接使用该数据，或是将该数据存储在KV系统中，供Online系统实时使用。在搜索或是推荐的场景下，每次请求一般只会涉及到一次user profile的KV请求，所以online使用的时候，主要的实现困难是存储，以及快速KV的快速响应。

基础挖掘推荐算法

基础挖掘推荐算法，主要使用传统推荐算法，结合分析的item profile和user profile，建立user和item的关系，此时并不会过多考虑其他因素，例如是否冷门/热门，最主要的就是建立user和item的关系。在各种论文中狭义的推荐，主要就是指该部分内容。主要围绕着Rating，以及Top N进行该处的Top N（更像是直接Rating值最高的Top N）传统的推荐算法研究主要围着这块工作进行，现在已经有很多比较成熟的算法，这些算法相关的研究可参见博文：《推荐系统经典论文文献及资料》；其中也能找到业界较多成功推荐系统的实践分享主要包含以下几类：

Content Based推荐：按内容推荐，主要的工作是user profile, item profile的提取和维护，然后研究各种相似度度量方法（具体相似度度量参见博文：《推荐系统中的相似度度量》）
协同过滤：相当于应用了用户的行为进行推荐（区别于Content based算法），比较经典的算法包括传统的item-based/user-based算法（参见博文：《协同过滤中item-based与user-based选择依据》，《collaborative-filtering根据近邻推荐时需要考虑的3要素》），SVD，SVD++(具体原理及源码参见博文：《SVD因式分解实现协同过滤-及源码实现》)
上下文相关推荐：和传统推荐相比，考虑更多上下文因素，LBS，移动场景下使用比较多（具体参见博文：《context-aware-recommendation》）
基于图的关系挖掘推荐：主要是利用图论原理，根据item,user之间的数据，反馈关联关系，挖掘更深层次的关系进行推荐，该类方法一般效果都不错，当然资源要求也较高。具体参见博文：《级联二步图关系挖掘关键词推荐系统》，《频繁二项集合的hadoop实现》《itemrankrandom-walk-based-scoring-algorithm-for-recommener-system》
Constrainted-based推荐：根据限制性条件进行演绎推荐

在实际应用时，我们经常使用按内容推荐，item-based寻找从感知的角度比较靠谱的结果，使用SVD,SVD++，图关系寻找更深层次的联系结果。同时在推荐时，会结合很多因素来进行综合排序，例如关键词，或是LBS中POI的热度等。具体可参见下文ranking部分。

算法效果衡量

以上这些算法，我们在离线的时候，使用Cross-Validation方式，就可以分析出其效果，而且离线分析的时候，代价比较小，比较容易操作。当然，对于不同的问题会使用对应的指标进行衡量。对于预测Rating准确性主要是用RMSE，或是MAE；具体可参见博文：《关键词搜索推荐系统中的推荐准确性度量》如果是排序，则更多使用NDCG，MAP, MRR等指标；具体可参见博文：《使用ndcg评估关键词推荐系统的相关性》在具体应用场景中，对于特定推荐问题，会涉及到选用哪种算法的问题。推荐不像CTR预估这样的问题，目标比较单一，经常我们需要考虑多个指标，而且这些指标可能此消彼长，需要做权衡，例如需要考虑算法的准确性(accuracy)，同时也需要考虑算法的覆盖(coverage)，置信度（confidence）,新鲜度(novelty)和惊喜度(Serendipity)，同时还需要考虑推荐为系统带来的收益和效用(utility)。这些指标经常需要权衡，而且经常提升某一个的时候会导致其它下降，所以有时候存在一定的主观性：我们到底看中哪一个指标？而且这个问题可能随着系统，平台所处的阶段而不同。例如在建立口碑的时候，我们可能不太关注coverage，而更关注accuracy，因为要让用户建立一种：该系统很准的认知；如果在系统已经比较成熟了，此时可能需要考虑novelty, serendipity的同时，还需要考虑utility：该推荐能为系统带来什么收益，例如对百度的变现有多大收益？对淘宝的销售有多少收益等具体这些指标的选择可参见博文：《选择推荐算法时需要考虑得因素》

Ranking，此部分是成熟的搜索，推荐系统具有的核心逻辑

比较简单的实现方法，是直接对各种特征拍阈值进行线性加权，比较成熟的系统一般会使用机器学习的方式和综合个维特征，学习出模型后进行排序，例如使用Learning to rank技术。该部分需要考虑的因素较多较为复杂。和传统的推荐相比，此处单独将Ranking拿出来。基础推荐挖掘，和传统的推荐部分比较类似，主要结合user profile，挖掘哪些item适合推给哪些user。但仅根据这些挖掘就直接进行推荐是不够的。真实online推荐场景中，需要考虑更多其他因素，例如：相关性，推荐的上下文，CTR预估，以及商业业务规则。

相关性： item与用户的相关性，这是大多数搜索和推荐任务的基石，例如在搜索中判定一个query和一个document的相关性，或是一个query 和另一个query的相关性，或是在特征比较多的情况下，一个user 和一个item 记录的相关性；实现方式可以很简单，例如传统的相似度度量方式（参见博文：《推荐系统中的相似度度量》），对于文本，业界使用简单的TF*IDF，或是BM25；不过很多时候我们需要增加更多维度特征，包括推荐item本身的重要性，例如IDF，Pagerank(具体参见博文：《pagerank的经济学效用解释》)，同时使用模型来提升相关性判断的准确性。使用模型的方式会更加复杂，但效果提升也非常明显。具体可参见博文：《集成树类模型及其在搜索推荐系统中的应用》，《分类模型在关键词推荐系统中的应用》，《adaboost》
推荐的上下文：例如推荐产品的入口，交互方式，不同的入口，甚至同一入口的不同交互方式，推荐的结果有可能都需要不一样；在LBS生活服务中，请求发生的时间，地点也是推荐需要重点考虑的上下文因素，例如饭点对餐饮item的提权；异地情况下对酒店等结果的加权等
CTR预估：成熟的商业系统都会使用模型来完成CTR预估，或是转化预估
以及商业业务规则：例如黑白名单，或者强制调权。例如在百度关键词搜索推荐中，某些有比较高变现潜力的词，就应该加权往前排；比如在高德LBS服务中，有些海底捞的店点评评分较低，但我们也应该往前排；或是在搜索引擎中，搜国家领导人的名字，有些最相关的结果可能因为法律因素是需要屏蔽的

算法评估

很直接，离线调研的时候看就看算法的评估指标，参见博文：《关键词搜索推荐系统中的推荐准确性度量》，《使用ndcg评估关键词推荐系统的相关性》上线的时候，进行圈用户（圈定某两个user集合作为实验/对照用户组）实验，或者圈请求实验（例如随机圈定5%流量进行实验），之后根据系统效果监控中的指标值判断实验效果。以下为一个典型的效果监控截图：实验如果证明成功，达到预期效果，一般之后推广到全流量；反之，如果实验未达到预期效果，则需要分析什么地方有问题，如何改进，之后继续调整算法继续实验。当实验较多时，还会涉及较多工程问题，例如分层实验框架等。

系统效果监控

对于整个系统，需要建立晚上的效果监控平台进行效果的实时监控，以便发现用户的行为模型，系统的不足，分析后续的发力点等。一般这样的监控平台会使用Dashboard来完成，基本的框架是前段UI + 后端数据库。很多时候，离线统计策略在hadoop上处理统计日志计算指标，并将计算出来的指标存入数据库，前端UI访问数据库，拉出指定时间段内某些指标的值，并进行简单分析。具体的监控指标，及指标体系的建立，可参见博文：《搜索引擎变现策略指标体系》

交互设计

完整的产品包括便捷的交互和背后牛叉的算法。很多时候，要提升推荐的效果，需要算法和交互配合，才能达到理想的效果：交互需要有健壮的算法产出结果；而算法也需要有配套的交互，才能达到预期效果，否则再牛叉的算法，对结果的影响也可能没那么明显。

一些交互的例子参见博文：

《关键词推荐工具中的用户引导机制之一：总述》

《关键词推荐工具中的用户引导机制之二：suggestion架构》

《关键词推荐工具中的用户引导机制之三：相关搜索query技术》

《关键词推荐工具中的用户引导机制之四：种子query推荐》

说了那么多，中心就是想说明，一个完整的推荐系统，远远不止是一两个rating算法能够覆盖的，而且此处还未涉及工程部分。

更多内容，也可直接访问： http://semocean.com

百度关键词搜索推荐系统交互流程

如果把百度凤巢系统比作商场，那这个商场的主要商品是什么？答案就是‘流量’，而关键词，就是流量对广告主最直观的表现载体。

客户想要在百度上做搜索广告，就需要找到能够准确描述自己推广意图的关键词集合；但另一方面，目前百度凤巢系统拍卖词接近10亿，百度每天有PV关键词约数十亿。从这些词海中淘出优质关键词，无论对于客户本身，还是为客户打理账户的客服而言都是一大挑战。
此时百度关键词搜索推荐工具（KR）就显现出它的重要作用。
那KR到底是什么呢？顾名思义，KR（Keyword Recommendation缩写）就是百度向客户推荐关键词的工具。当然，KR不仅提供诸如被动，主动，按URL，按行业等推荐形式为客户推荐个性化关键词，同时还提供像种子词，种子URL，Suggestion等引导提词技术；另外KR还提供客户账户诊断优化服务，一方面优化客户账户结构，提升客户提词，账户管理效率，同时也达到提升客户消费，提升百度凤巢系统整体消费的功能。

因为该工具是提供给百度广告主使用的，所以在网络上没有直接的入口，需要再www2.baidu.com上注册帐号后，找到‘关键词工具’后进行访问。

百度关键词搜索推荐交互

以下为关键词工具使用流程：

广告主进入KR入口（www2.baidu.com）中有多个入口，此时KR会根据广告主在凤巢中的历史操作行为，为其推荐种子关键词，广告主可以直接点击种子关键词进行搜索（种子关键词主要是面向对KR使用不熟练的客户，对他们的使用进行引导，百度搜索框也没有该功能，该功能为KR独有）；之后网民可输入搜索搜索query获取和该query字面，语义相似的关键词，同时系统会返回和这些关键词相关的属性。然后用户可以对关键词进行筛选及分组（系统会提供多种分组建议）

图：百度关键词搜索推荐系统交互示意图

同时KR也提供传统推荐的方式为广告主推荐关键词。就是根据客户历史提词行为，使用SVD，图关系挖掘等协同过滤技术直接将结果推荐给广告主，广告主无需有任何交互输入，直接进入提词页面就能看到结果。

搜索系统策略架构

百度关键词搜索推荐系统（KR）不仅提供典型的推荐服务，即不搜既得，同时也提供搜索功能，即用户输入关键词进行搜索，KR推荐出与该关键词最相关的top n 关键词，这些关键词不仅附带有容易理解的推荐理由（表明该关键词为何推荐出来），同时附带有关键词的各种属性（例如关键词在百度上的流量，竞争激烈程度等信息），同时对关键词按照字面，语义进行聚类；推荐出来的关键词默认已按照字面，语义相关性及marketing rule进行了排序。以下为KR搜索过程online部分的策略架构（offline部分涉及较多数据挖掘逻辑，参见之前的文章介绍）

其中最底层为各种基础数据及这些基础数据经过预处理，清洗后的存储，以及基于这些过程的挖掘数据。当用户发起一次请求时，系统会经历以下主要步骤：

关键词触发：根据经典的字面进行触发以及语义，同购关系及复杂图关系的挖掘数据，触发出推荐关键词的候选。对应到百度搜索引擎上，该步骤就是query改写变换及文档的检索。
相关性准入：考虑到后续的过滤步骤，触发的关键词量一般需要比最终需要的关键词数量多以保证召回。此时需要对这些候选关键词进行相关性过滤。例如使用GBDT模型进行二分类：相关 or 不相关。
audit：推荐出的关键词可能涉及黄赌毒，为避免风险，这些关键词需在推荐时尽早过滤。搜索引擎上，也需要对一些黄赌毒反内容进行过滤。
ranking：为提升KR推荐的效率，使用提词率模型，效用模型及价值模型对剩下的候选关键词进行排序，同时需要根据应用场景对关键词进行过滤（例如用户有pv过滤需求，则需要将pv值小于阈值的关键词过滤）；对应到百度上，最重要的技术就是ctr预估及质量度。
marketing rule：此处集中了人工干预的逻辑，例如：假设某个时间段需要KR推荐该消费的关键词，此时可以在此处增加逻辑对候选关键词队列进行重排序；或者对于某些bad case进行过滤。搜索引擎上也需要有该逻辑层，以便最快速度对结果进行人工干预。
UI：关键词的展现，以及保存等功能，同时包含传统推荐系统的正负反馈信息收集，反馈等机制；以及KR独有的关键词分组功能，信息筛选功能等。对应到搜索引擎上就是前端的展示。

主动推荐策略架构

KR中的主动推荐，就是传统的推荐技术在百度关键词搜索推荐中的应用。所谓主动，是针对KR而言的：关键词，广告主无需发起交互操作，KR即使用传统推荐技术： content-based， collaborative filtering及多种技术混合的hybrid filtering方法向广告主推荐结果。

以下为KR主动推荐的策略架构，一方面KR使用网民搜索日志，点击日志，广告库数据构建item候选集合，另一方面系统收集广告主的反馈（explicit or implicit）构建user profile，之后基于这些信息使用推荐算法向客户进行推荐。如果说KR中的搜索功能是即搜即得， 那么主动推荐就是不搜即得。

图：百度关键词搜索推荐系统主动推荐策略架构

按网页内容进行推荐

百度凤巢广告主都有自己的推广网站（或主页），而要达到较好的推广效果，广告主应该提交与网页相关性较高的关键词，否则即使广告主因为提交了一个高PV的关键词导致来到网站的流量较高，也会因为内容与关键词不相关而导致转化较低而得不偿失。

KR为此提供了按URL进行推荐，即广告主在KR搜索框中输入某一个网址（例如semocean.com），则KR会抓取该网站并分析其中的主题词进行推荐，以下为主要的策略流程。

图：KR按URL推荐策略处理流程

每一种KR推荐算法，或者做一个延伸：每一个商业搜索引擎中，都会包含以下几个模块：触发，相关性过滤，rank，marketing rule。

其中触发是根据输入，找到一个相对较大的候选集合，之后的所有排序过滤都是针对该集合的(在学术界使用的数据；例如搜索引擎中，根据网民输入的query，进行简单的字面语义匹配后，找到潜在的候选集合作为后续处理的对,又例如在学术界使用的LTR任务的开放数据LETOR中，直接使用BM25进行校验，筛选出相关性较高的top N进行后续的ranking实验；之后对返回的结果进行相关性过滤及排序，最后根据一些业务规则进行强制过滤及重排序，包括黄赌毒反动内容的过滤，或是某些特定的人工干预。

图：KR搜索推词逻辑

百度关键词工具介绍参见：http://support.baidu.com/product/fc/4.html?castk=24b18bi7062c720d0d596

协同过滤中item-based与user-based选择依据

协同过滤是大家熟知的推荐算法。总的来说协同过滤又可以分为以下两大类：

Neighborhood-based：计算相似item 或user后进行推荐
Model-based：直接训练模型预测Rating

在Neighborhoold-based算法中，又细分为user-based CF(Collaborative Filtering)和item-based CF。合适选择使用userd-based CF，什么时候item-based CF更适用就会是一个需要权衡的问题。一般而言，可以以下几个标准进行选择：

Accuracy：一般而言，少数置信的邻居的推荐要比很多的没有太多区分性的邻居更加准确，所以一般我们会选择数量较少的因素(item or user)作为based的算法。例如， amazon中的商品的种类很多，但远没有注册的用户多，所以该场景使用item-based CF比较合适；反过来，在百度关键词推荐系统中，商业客户(user)量级是100W左右，而待推荐的关键词(item)是10亿量级，此时使用user-based会是更明智的选择。
Efficiency
Stability：一般情况下倾向于使用变动频率和变动量较少的因素作为based的因素，例如item变动较少，则选择item-based，否则选择user-based
Justifablity（说服力）：推荐系统中，推荐理由越白盒，用户越容易理解就越有说服力。所以从这方面考虑，item-based CF会更有说服力，例如显示‘因为你浏览了三星 Galaxy，所以给你推荐了HTC One’的理由会比‘和你相似的用户也喜欢XXX’更有说服力，因为推荐系统是不披露哪些用户和我详细，怎么证明和我相似的，而且这种说法显得比较含糊。
Serendipity：多样性就是user-based的一大优势，和自己相似的用户，总能发现一些自己还没发现的新东西。如果追求多样性， userd-based会是不错的选择。

当然上述原则都不是绝对的，而且在真实工业界推荐系统中，两种方法一般都是混合着使用。例如百度关键词推荐系统中，就会分别使用item-based和user-based方法找到待推荐关键词候选后，再统一使用model进行后续ranking。

参考文献：

RSs Handbook
Evaluating Collaborative Filtering Recommender Systems, Jonathan L.Herlocker

也可关注我的微博： weibo.com/dustinsea

也可直接访问： http://semocean.com

Collaborative Filtering根据近邻推荐时需要考虑的3要素

在使用类似于item-based 或user-based collaborative filtering构建推荐策略时，会涉及以下3个因素：

训练数据的归一化：工业界推荐系统，包括商业系统中user的数量非常庞大（例如facebook是10亿级别），而user都会有自己对推荐内容打分的独特习惯，例如有些人对推荐内容，都会一股脑地接收，或是给出较高的评价，而有些人则会打较低的分数；有些人总给一样的分数，有些人的评价则分布较为广泛。这就需要对训练数据进行归一化，规避user个性化对模型的影响。
寻找一种适合数据的相似度度量方法：信息检索中的经典问题。在推荐系统中，第一步就是需要找到待推荐的候选，以及之后的众多过滤，基本都是在使用合适的相似度度量过滤不相关的item，保留较为相关的item。例如在百度关键词推荐系统，以及触发系统中，大部分的工作，都是围绕相似度度量展开的（当然会比较复杂，包含各种特定场景，特定优化目标的相关性模型，以及使用topic model进行语义相关性计算）
高效的neigibors查找算法：正如1中提到，工业界中待推荐处理的user/item较多，所以不可能为每个neighbor的pair都计算相似度，所以一般会对待计算的neighbors进行剪枝，仅计算‘靠谱’的neighbors进行计算。

训练数据归一化

最常用的训练数据归一化方法，非Mean-centering莫属，该方法的核心思想就是对于每一个user，找出其投票分值得中心，该用户其他的分值均会与该中心对比正负，即不关心投票分数的绝对值，而是看与均值的偏差：如果投票分数为负数，说明是一个负向的打分，如果为正值，则说明正向。例如小明和小张都是用户，小明平均情况下对电影的打分是3分（例如满分是5，最低分是1），小张的打分均值是4，说明相比于小明，小张喜欢打高分，对于小张，一个电影如果打分为3就算是负向评价了，而同样的分值对于小明这样的分数是个中性的分数。

item-base CF中mean-centering计算方法如下：

user-based CF中mean-centering计算方法同理

设想这样一个场景：小明和小张投票的均值均为3，小明投票时都投3分，而小张则各个分数的分布都有。如果小明和小张对于同一个电影都投了5分，此时小明和小张的投票体现出的信息是不同的：小明平常都投3分而此时投了5分，这一票体现出的信息，比经常投5分的小张的一票体现出的信息要多（类似于TF-IDF中的IDF原理），而Mean-Centering则不能体现该特性。故我们引出另一种Normalization方法： Z-Score

Z-Score

核心思路是：如果一个用户投票的波动较大，则其投票的话语权要降低。具体计算公式与Mean-Centering相比，除以标准差即可。

极端的解释，就是经常投各种票的人，其投票的权重会被降低；而投票分值一般不变，但突然改变以往习惯投票值得一票，体现出的信息较多。

在这插入另一篇文章中的思想：就是经常投票给较多item的user的票的权值需要进行惩罚。例如在youtube推荐视频时，如果某个视频经常和很多视频一起被观看，则有可能不是因为他们相关，而是某个视频就是比较热，需要增加惩罚降低‘哈利波特’效应（具体思想可参见论文： the youtube video recommendation system），例如百度关键词推荐系统中就在级联二步图算法中对类似边的权值进行了惩罚（具体技术实现后续会有专门章节介绍）

Neighborhood 中的相似度度量方法参见前文，此处就不再复述。

http://semocean.com/%E6%8E%A8%E8%8D%90%E7%B3%BB%E7%BB%9F%E4%B8%AD%E7%9A%84%E7%9B%B8%E4%BC%BC%E5%BA%A6%E5%BA%A6%E9%87%8F/

至于高效的Neighbors计算方法，则可以在离线计算时设定固定Neighbors的具体N值（KNN中的N），之后在性能和效果之间权衡，就像你知道的，很多时候，系统设计，就是在不停地在性能和效果之间做取舍达到平衡。

参考文献：

the youtube video recommendation system，James Davidson 等

RSs Handbooks

可关注微博: weibo.com/dustinsea

也可直接访问: http://semocean.com