数据挖掘 – Semocean

亚马逊semantic product search

网上一直有一种说法，就是在Google的工程师非常鄙视亚马逊的工程师，觉得他们技术不行，Google的技术比较牛叉，但是很多业务场景Google就是做不过亚马逊，最典型的就是云计算市场，Google的市场份额还不如阿里，更别说亚马逊的老本行电商。而亚马逊也一直奉行简单有效为客户服务的原则推进业务。例如这篇论文中描述的亚马逊电商product search，技术比较简单，没有很高端复杂的模型，但大家在工业界的实践中是可以作为参考的，是一种简单有效的语义搜索方法。该论文发表于2019年KDD大会，下边的内容更多是一个论文的笔记，作为一个备忘，大家最好参考原论文一起阅读。

基于字面匹配的缺点

第一上下位同意反义处理不好，例如语义的泛化（hypermyms），同义词（synonyms），反义词（antonyms）
第二形态学变换处理不好，比如说woman and women
第三拼写错误处理不好。

本文提出的语义方法解决问题的思路:

第一是loss function处理正负样本
第二是针对average pooling和ngram捕捉语法的pattern
第三是使用哈希处理字典中不存在的单词的问题OOV，应对0次学习问题
第四是进行了并行优化。

本文面临的场景是用户的行为数据量非常多，但是有噪音，同时用户在搜索的时候，是针对某一个比较窄的领域进行搜索，在这个过程当中还需要兼顾发现性。

模型

本文使用的模型的主要特点

第一是使用embedding方式将query，product映射到相同的空间
第二是生成embedding之后，使用average pooling的方式将embedding压缩到相同的维度。之所以能够用average pooling主要的考虑有两点（没有使用RNN的原因）
第一是query和product都比较短，没有太强的持续依赖的关系
第二是query一般都包含在product之中。同时因为quarry比较短，所以将query和product映射到同一空间中，无需额外参数

图:模型示意图

Loss function

使用pointwise 3阶段hingle loss作为lose function

相当于综合考虑了样本的三种情况:

第一正样本为用户购买的product
第二就是用户看到了（impressed），但是没有购买的结果
第3种是随机采样出来的结果作为副样本

相当于将label分成三种，三种有不同的域值，使用hingle loss方式进行建模

tokenization methods

本文使用不同维度的力度的embedding对query, product进行表达.主要分为以下几种:

word unigram:基于单词的unigram
word n-gram:用来捕捉PHRASE信息,以及对应的附属信息，例如用户如果买的是iPhone手机壳跟iPhone手机其实是不一样的，使用n-gram可以捕捉该类信息
character trigram:用来捕捉拼写错误信息或者像size型号之类似的信息

同时文中使用harsh trick来解决embedding没有表达到生僻词的情况。
最后在应用的时候，作者将所有的tokens组成一个bag of tokens，之所以能够那么做而没有考虑持续的原因，是因为query和product的title一般都相对较短，用这样的方式其实也能表达序列的关系，而不用用到rnn这样的模型。实验证明不用rn效果的影响也不大。

note：对于OOV的部分（word, n-gram, char-trigram）则使用hash trick的方式进行处理，将query, product中相同的部分映射到相同的bin中（参见图5）
该方法的好处，一方面能够保证高频的元素都能够找到，另一方面，query和product中OOV的元素都能够映射到相同的部分。

data

使用11months的search logs作为训练数据，使用1month作为evaluation。
文中使用用户数据来进行模型的训练使用和query和products的counts作为权重。
在构造样本的时候，一个query之下有6个impression的product和7个random的products和一个有购买的products。

实验指标

matching:抽取20k个query，看从100万的语料库里边能召回多少购买的products。
ranking:主要看NDCG，mrr。

Result

设置：文中固定dimension为256，batch size=8192，adam作为优化算法。。。
结论：

L2比L1正则更好，原因可能是L2对于cosine计算相似度的情况下，对于outlier更加泛化
效果 3 part > 2 part loss
average pooling效果优于gru/lstm，猜测可能是因为该场景中序列长度较短，RNN的效果没有发挥出来
tokenization算法中，unigrams+bigrams+char trigrams算法效果最好；增加OOV在保证参数不变的情况下效果更好

后续：借鉴意义

在后续推荐业务中存在的借鉴意义如下：
poi2poi embedding表示：计算可以使用该方法对搜索业务中 query-点击poi数据进行embedding，获取poi embedding，计算i2i
tag2tag embedding表示：将tag作为token，使用搜索数据进行训练，得到tag和poi在同一空间中的embedding表示
poi属性2poi的embedding表示

reference

原论文参见：
复制这段内容后打开百度网盘手机App，操作更方便哦链接:https://pan.baidu.com/s/1VITC73pw9fURLJ-K_7Kb3g 提取码:4h43
更多内容参见： www.semocean.com
P.S. 急招推荐，搜索，语音算法人才，阿里P6~P8，欢迎推荐和自荐，简历请发至 haibo.lihaibo@alibaba-inc.com

Mobvista反作弊系统实现

2017 GITC上的分享，做一个简单的记录

Adloox estimates advertisers could be wasting $16.4 billion to fraudulent traffic and clicks manufactured by bots in 2017
more than double the $7.2 billion the Association of National Advertisers estimated would be lost to ad fraud in 2016.
The World Federation of Advertisers, meanwhile, predicted last year that ad fraud will cost advertisers $50 billion by 2025, describing the malpractice as an organized crime "second only to the drugs trade."

这是沿引adloox的分析， 2017年网络作弊导致的预算损失搞到164亿美金，预计2025年将达到500亿美金，仅次于毒品交易（如果将网络作弊看成是犯罪的话）

回到流量变现，如果将其看成是一个生意，一个买卖的话，我们可以将流量侧看成是卖方，在卖流量，而广告主侧是买方，而Mobvista类似的广告平台，就是作为中间商负责分发赚差价（暂且抛开中间的定向，投放算法不说）。而作弊，我们就可以看成是在这个生意中，售卖假冒伪劣商品。

抓反作弊的思路的核心，就是分析中间存在利益作为的环节，或者叫：Follow The Money。我们可以简单的认为，作弊的动机都是从supply流量侧过来的，越接近demand侧，作弊的动机越小。而作为中间商的Mobvista，收的是demand侧，广告主的钱，所以需要保证demand的质量，否则广告主就去投其他平台了，这也是为什么各个广告平台现在都比较在意反作弊的原因。相当于Mobvista自己构建了一个质量检测体系。这个体系的价值表现为两方面：

能够保证广告主的质量，保证广告预算不丢失
保证Mobvista品牌形象，做长期生意，将生意做大

作为广告平台，Mobvista的反作弊体系主要有以下四方面构成：

Mobvista自建反作弊体系：主要是我们根据广告主的投诉，或者主动分析流量的特征制定的反作弊策略，目前引入的特征已经有20+维，覆盖点击作弊，安装作弊和安装劫持。目前覆盖了公司revenue的10%，还不包括市场上没有被抓出来的，可见市场上作弊的猖獗
和广告主合作定制的策略，例如监控event postback
另外比较重要的一类指标，就是跟进第三方监控平台的策略和指标，在我们自己的系统中实现
我们也会和一些知名的第三方反作弊服务合作，增强我们的反作弊服务，例如Distil Networks, Fraudlogix

从实现的方式上来看，Mobvista反作弊主要三种方式：

在线实时反作弊：例如实时的IP黑名单点击过滤，地域异常实时过滤等，直接就将点击过滤掉不发到demand侧。在线实时反作弊的优点是过滤及时，从数据层面广告主并无感知，也不会污染广告主的数据；缺点是能够实现的策略相对较少
离线挖掘反作弊：离线周期性按天，或者周运行反作弊逻辑。优点是有大量数据特征可供分析，而且可以做各个特征的交叉。准确性和覆盖率都比较高；缺点是这是事后的方式，可能损失已经产生无法弥补
混合方式：主要是引入了算法提供数据和建议+人工决策的方式。例如对于嫌疑比较大的CASE，算法抓出来后，并不会直接做决策，而是交由人工决策是否扣款，或者是否先不付款等

因为反作弊是和人斗的技术方向，而人有较多的创新，所以反作弊的技术不全都适合机器学习来完成，必须有较多规则。所以Mobvista的反作弊，可以认为30%模型+70%规则来实现

人与机器的行为区别

在反作弊分析过程中，也需要时刻牢记人的行为和机器行为的区别，虽然反作弊的人就是将机器算法的行为去模拟人的行为，但一般还是会有一些蛛丝马迹

人：行为有共性，符合特殊分布 vs 机器：随机
人：群体量大，个体分散 vs 机器：群体量小，个体集中
人：能力受限 VS 机器：能力不受限

反作弊的思想，就是以下两点：

以人为本
以利益为出发点进行探索，Follow The Money

以下是几个例子：

点击安装时间差异常：

机器自动抢发

ip重复安装

点击安装时间天级别异常

最终涉及到的特征会有20+维，针对不同的作弊方式，都会比较有用，会后会有文章详细介绍

完成PPT参见：《Mobvista 反作弊系统实现》

更多内容也可参见： http://semocean.com

如何使用机器学习解决实际问题-以关键词相关性模型为例

本文以百度关键词搜索推荐工具字面相关性模型为基础，介绍一个机器学习任务的具体设计实现。包括目标的设定，训练数据准备，特征选择及筛选，以及模型的训练及优化。该模型可扩展到语意相关性模型，搜索引擎相关性及LTR学习任务的设计实现。该模型的设计调研实现，也可以很容易移植解决其他包括语义相关性的问题

目标设定：提升关键词搜索相关性

作为一个搜索+推荐产品，百度关键词搜索推荐系统的产品形态是向凤巢用户推荐适合他业务的关键词。例如一个卖鲜花的广告主，他想在百度上做关键词搜索推广时，需要提交和他业务相关的关键词，而且提交的关键词需要业务相关，例如他需要提交和卖鲜花业务相关的关键词。例如鲜花快递，鲜花速递等。此时他可以在百度关键词搜索推荐系统中进行搜索查询，选择适合他的关键词。

百度关键词搜索推荐系统query搜索

这是一个典型的搜索问题，具体的从输入query，到触发，到排序等会涉及到很多因素，例如如何查倒排，如果处理地域因素等；要提升搜索的质量，我们首先需要保证输入的query和推荐出来的推荐词的相关性，此处我们要解决的主要问题，就是如何快速，准确地判断两个关键词（输入query和推荐词）的相关性，需要特别注明的是，我们主要的目标是让用户觉得该产品结果很靠谱，所以该处我们仅考虑字面相关性，更多的语意扩展该模型并未考虑。

注：该模型的调研实验实现方式，可以很容易平移到语义相关性。例如加入更多语意特征，例如plsa的bm25特征和word2vec的相似度特征（或者和扩展的相关性校验，例如将待推荐词扩展为baidu搜索结果的摘要扩展）提高语义特征的贡献。

相关性也是所有搜索问题的基石，只不过在不同的系统中使用方式不一样，在一般的搜索中，相关性占有较大权重，排序基本就以相关性为依据；在商业系统中，相关性则经常作为搜索展现的门槛用于控制商业推广结果的质量（如果仅考虑CTR，用户搜索鲜花快递时，给用户展现艳照门的结果，CTR会更高，但相关性较差）。当然，判断相关性我们可以简单使用某一种方法进行直接判定，例如直接进行两个关键词的TF-IDF计算，或是进行两个关键词的BM25。但这样的方式效果都不太理想，想要达到更好的效果，就需要使用更多特征，而更多特征很自然地，需要使用模型组合这些特征，达到最终的预期效果。

图：相关性在关键词系统中的位置

此处将会使用机器学习的方法解决该问题。本文以下内容会从数据准备，特征选择，模型选择，模

型调优等步骤介绍百度关键词搜索推荐系统如何解决该问题

数据，特征，模型

说到使用机器学习解决问题，我们经常提到的优化思路就是3方面的优化：数据，特征，模型。首先找到充足的，准确的label数据（该出仅考虑有监督学习任务，例如相关性，或是LTR），之后提取贡献较大的特征作为input space，以label作为output /ground true label，之后优化模型（Hypothesis) ）。下面会分别从这3方面对整个优化过程进行阐述

准备训练数据

训练数据的获取一般有几种方式：

人工标注：优点是质量较高，噪音较少；缺点是标注结果和标注者本身的认识相关，例如在搜索引擎中，判定苹果和手机的相关性，对于年轻人，一般都认为相关；但对于比较多的老人，可能认为不相关；另外一个缺点就是人工获取标注的成本较高
从日志中进行挖掘：优点是数据量相对更大，获取成本较低（编写几个hadoop脚本对日志进行统计）；缺点是噪音较多，例如搜索引擎中的恶意抓取访问导致的噪音数据

在相关性模型中，一开始我们使用百度关键词搜索推荐系统的人工反馈数据作为label对模型进行训练，分别提取1.5W query-推荐词pair作为正负例进行特征提取，模型训练。

如图所示，在交互上，当用户喜欢该关键词时，就会点击‘大拇指’表示该结果符合用户需求（正反馈，该query-推荐词 pair可作为正例）；如用户认为该关键词不符合需求，就会点击‘垃圾桶’，将该关键词扔入回收站（负反馈，该query-推荐词 pair 可作为负例）

在实验中，我们发现正例没有问题，不过负例中会存在较多这样的情形： query-推荐词是相关的，但该用户不做该业务，所以被定义为负例，所以负例个性化较强。所以后来我们让产品经理同学又对负例子进行筛选，重新标注1.5W负例，进行后续特征提取，模型训练。

之后我们将正负例打散后（直接使用python random.shuffle）分成10份，进行cross-validation

模型训练前，先定标准和样本

注：训练样本的挑选完全决定了我们的问题目标，所以在一开始就需要准确选择，如果可能，所有的case都最好人工来搞，或者至少需要人工review。确定没有问题后，再开展后续工作。特别是相关性类似的问题，比较主观，例如PM和RD在该问题的判断上就可能存在一定差异。

确定完训练样本，评估标准，之后再小布快跑，优化模型。

特征提取

一般特征的选择及处理会极大地影响学习任务的效果，而进行特征选择的时候，一般是先增加特征，并实验效果。对于相关性模型，我们可以先将传统的信息检索的特征加上，这些特征一般分为以下几类：

query/候选词的一般结构特征：例如query/候选词长度，term数等
query-候选词的相关性度量：例如TF-IDF, bm25, LMIR及多重变种， plsa相似度度量，word2vec语意向量相似度等；很多时候，关键词自身信息较少，还可以使用关键词在搜索引擎上的摘要扩展进行相似度度量
关键词自身在信息检索维度的重要性度量，例如关键词idf, 从语言模型方面的重要度等

在一开始的时候，我们可以先将能够想到，构造出来的特征均加入特征向量进行实验，而且每加一类特征，都可以看下该类特征对整体目标的提升程度。以便对该特征的贡献度有一个直观的感受。

以下数据可以简单看出随着特征的增加，效果的提升，其中的特征仅加不减（模型使用random forest 进行二分类）：

等到特征加得差不多，模型准确性已经提升不多的时候，可以考虑砍特征，有一种比较简单粗暴有效的砍特征的方法，就是使用树模型，就是直接砍掉特征贡献程度及特征重要性较低的特征，例如直砍掉特征贡献度为0的特征，对相关性模型的准确性几乎没有影响

特征贡献度

当增加特征已经很难提升效果，考虑到为了防止过拟合，同时考虑到模型online预测，需要对特征进行挑选。在使用树模型时，可以直接使用数节点特征贡献度和节点使用次数，判断是否需要去除该特征，以下为使用树模型进行选择特征的例子：

对于特征贡献度和分裂特征使用次数为0的特征，在调研时，直接去除对模型效果几乎没有影响，而且能提升预测的效率。

在选择特征的时候，有一些经验值得分享：

bm25特征及term weight特征对分类任务有极大贡献
一些单独的比值类特征并没有太大贡献，例如query，推荐词共同term与query term数，推荐词term数的比值，这些特征并没有太大贡献，但是这些特征与query，推荐词的term数结合到一起，贡献就非常多；所以有些特征需要联合在一起，才有较大作用。
特征选择需要和目标一致：例如word2vec是非常高大上，且非常靠谱的技术，但用在字面相关性，对目标并没有太大贡献（如果目标是语意相关，那么类似于PLSA,word2vec将会有很大贡献）
有些特征就就是用来解决特殊case的，虽然贡献不大，但需要保留（当然也可以直接设置为强规则与模型配合），例如query与推荐词拼音一致

模型选择

经典模型

最开始我们尝试了最大熵，SVM和adaboost模型，考虑到online使用的效率，最终我们选择了adaboost模型作为线上使用的模型，虽然效果不是最好的，但使用简单的weak learner构建的模型的确比较快（参见博文：《adaboost》），并且使用adaboost进行上线并取得较好效果：上线后不仅召回增加，准确性上90%的case相关性高于等于原有结果（采用非模型的版本）

评估结果分布图（2到-2分别代表扩召回结果相关性高于、略高于、等于、略低于、低于线上策略）

集成树模型

现在特别喜欢使用树模型，因为使用的时候，连特征归一化都省了：如果使用SVM类似的模型，还需要对特征进行归一化等处理，但使用树模型，直接将特征向量及label扔给模型，模型自己会根据信息增益，或是基尼系数等标准选择最合适的拆分点进行树节点的拆分（具体的拆分标准可参见博文：《使用impurity选择树模型拆分节点》），开源的树模型，例如大名鼎鼎的Quinlan的C4.5或是C5.0都在调研时都可以拿来试试作为特征选择的依据。

特别是集成树模型的出现，更是极大地提升了树模型效果。所以现在的项目中，我比较喜欢在增加特征的时候就使用集成树模型进行效果实验。具体树模型使用参见《集成树类模型及其在搜索推荐系统中的应用》

集成树模型配置选择

此处的配置选择和传统的模型参数稍有区别，该出的树模型配置主要指集成树模型中树的数量，每棵树的特征选择因子和样本使用因子等。在项目中，考虑到准确率和速度，最终确定的参数是树的数量是20，特征选择因子和样本选择因子均为0.65（每棵树随机选择0.65的样本和特征进行训练）

具体产品效果可参见www2.baidu.com中百度关键词搜索推荐系统的排序结果：

如何个性化

首要需要考虑的是我们的数据样本，是否本身就是包含个性化的case（此处的答案是否定的）；假设我们的标注case是个性化的，也就是case中本身就包含了个性化结果时，在模型训练流程上其实并没有太大区别，主要的区别就在于我们选取哪些能够区分这些个性化的特征，例如百度凤巢中账户（单元）的plsa模型产出的pzd向量与query的相似度等

登录www2.baidu.com->关键词工具->搜索query->查看结果即可。

更多内容也可参见： http://semocean.com

一个完整推荐系统的设计实现-以百度关键词搜索推荐为例

在之前一篇博文中，有同学在评论中问了个问题：如何解决因式分解带来的推荐冷门，热门关键词的问题。在回答这个问题的时候，想到了近几年在做搜索推荐系统的过程中，学术界和工业界的一些区别。正好最近正在做技术规划，于是写偏文章说下工业界完整推荐系统的设计。结论是：没有某种算法能够完全解决问题，多重算法+交互设计，才能解决特定场景的需求。下文也对之前的一些博文进行梳理，构成一个完整工业界推荐系统所具有的方方面面（主要以百度关键词搜索推荐系统为例）

完整的推荐系统肯定不会只用一种推荐算法

在学术界，一般说到推荐引擎，我们都是围绕着某一种单独的算法的效果优化进行的，例如按内容推荐，协同过滤（包括item-based, user-based, SVD分解等），上下文推荐，Constraint-based推荐，图关系挖掘等。很多比较牛的单个算法，就能在某个指标上取得较好效果，例如MAE，RMSE。。。不过有自己的优点，每种算法也有自己的缺点，例如按内容推荐主要推荐和用户历史结果相似的item，一般的item-based容易推荐热门item（被更多人投票过）。。。。所以在工业界，例如各互联网公司，都会使用多种算法进行互相配合，取长补短，配合产品提升效果。而且在完整的推荐系统中，不仅有传统的Rating推荐，还需要辅以非常多的挖掘， Ranking来达到预期效果。

推荐系统3大件：User Profile、基础挖掘推荐、Ranking

在实践中，一个完整的推荐系统会主要由3部分组成：

User Profile
基础推荐挖掘算法
Ranking

此处之所以将Ranking单独列出来，是因为其在推荐任务中过于重要，直接决定了推荐的效果。

以下为整个推荐的数据流：

User Profile

A user profile is a representation of information about an individual user that is essential for the (intelligent) application we are considering user profile主要是用户（注册）信息，以及对用户反馈的信息进行处理，聚合，用于描述用户的特征；是后续推荐和排序的基石。一般情况下，user profile会包含以下具体内容：

用户兴趣数据
用户的基础注册信息，背景信息：例如用户出生地，年龄，性别，星座，职业等。这些信息一般从用户注册信息中获取；例如高德，百度地图注册用户，淘宝注册用户等
用户行为反馈：包括显示的反馈(explicit)和隐藏(implicit)的反馈，显示的反馈包括用户的评分，点赞等操作，百度关键词搜索推荐工具上的点赞（正向显示反馈）和垃圾桶（负向显示反馈），淘宝上的评分；隐式反馈包括用户的浏览行为，例如在百度关键词搜索推荐上搜过那些词，淘宝上点击了那些页面，在高德上点击了那些POI等
用户交互偏好：例如用户喜欢使用哪些入口，喜欢哪些操作，以及从这些操作中分析出来的偏好，比如在高德地图上根据用户行为反馈分析出来的用户对美食的偏好：更喜欢火锅，粤菜，还是快餐
用户上下文信息：这些信息有些是分析出来的，例如在LBS中分析出来的用户的家在哪儿，公司在哪儿，经常活动的商圈，经常使用的路线等

user profile经常是一份维护好的数据，在使用的时候，会直接使用该数据，或是将该数据存储在KV系统中，供Online系统实时使用。在搜索或是推荐的场景下，每次请求一般只会涉及到一次user profile的KV请求，所以online使用的时候，主要的实现困难是存储，以及快速KV的快速响应。

基础挖掘推荐算法

基础挖掘推荐算法，主要使用传统推荐算法，结合分析的item profile和user profile，建立user和item的关系，此时并不会过多考虑其他因素，例如是否冷门/热门，最主要的就是建立user和item的关系。在各种论文中狭义的推荐，主要就是指该部分内容。主要围绕着Rating，以及Top N进行该处的Top N（更像是直接Rating值最高的Top N）传统的推荐算法研究主要围着这块工作进行，现在已经有很多比较成熟的算法，这些算法相关的研究可参见博文：《推荐系统经典论文文献及资料》；其中也能找到业界较多成功推荐系统的实践分享主要包含以下几类：

Content Based推荐：按内容推荐，主要的工作是user profile, item profile的提取和维护，然后研究各种相似度度量方法（具体相似度度量参见博文：《推荐系统中的相似度度量》）
协同过滤：相当于应用了用户的行为进行推荐（区别于Content based算法），比较经典的算法包括传统的item-based/user-based算法（参见博文：《协同过滤中item-based与user-based选择依据》，《collaborative-filtering根据近邻推荐时需要考虑的3要素》），SVD，SVD++(具体原理及源码参见博文：《SVD因式分解实现协同过滤-及源码实现》)
上下文相关推荐：和传统推荐相比，考虑更多上下文因素，LBS，移动场景下使用比较多（具体参见博文：《context-aware-recommendation》）
基于图的关系挖掘推荐：主要是利用图论原理，根据item,user之间的数据，反馈关联关系，挖掘更深层次的关系进行推荐，该类方法一般效果都不错，当然资源要求也较高。具体参见博文：《级联二步图关系挖掘关键词推荐系统》，《频繁二项集合的hadoop实现》《itemrankrandom-walk-based-scoring-algorithm-for-recommener-system》
Constrainted-based推荐：根据限制性条件进行演绎推荐

在实际应用时，我们经常使用按内容推荐，item-based寻找从感知的角度比较靠谱的结果，使用SVD,SVD++，图关系寻找更深层次的联系结果。同时在推荐时，会结合很多因素来进行综合排序，例如关键词，或是LBS中POI的热度等。具体可参见下文ranking部分。

算法效果衡量

以上这些算法，我们在离线的时候，使用Cross-Validation方式，就可以分析出其效果，而且离线分析的时候，代价比较小，比较容易操作。当然，对于不同的问题会使用对应的指标进行衡量。对于预测Rating准确性主要是用RMSE，或是MAE；具体可参见博文：《关键词搜索推荐系统中的推荐准确性度量》如果是排序，则更多使用NDCG，MAP, MRR等指标；具体可参见博文：《使用ndcg评估关键词推荐系统的相关性》在具体应用场景中，对于特定推荐问题，会涉及到选用哪种算法的问题。推荐不像CTR预估这样的问题，目标比较单一，经常我们需要考虑多个指标，而且这些指标可能此消彼长，需要做权衡，例如需要考虑算法的准确性(accuracy)，同时也需要考虑算法的覆盖(coverage)，置信度（confidence）,新鲜度(novelty)和惊喜度(Serendipity)，同时还需要考虑推荐为系统带来的收益和效用(utility)。这些指标经常需要权衡，而且经常提升某一个的时候会导致其它下降，所以有时候存在一定的主观性：我们到底看中哪一个指标？而且这个问题可能随着系统，平台所处的阶段而不同。例如在建立口碑的时候，我们可能不太关注coverage，而更关注accuracy，因为要让用户建立一种：该系统很准的认知；如果在系统已经比较成熟了，此时可能需要考虑novelty, serendipity的同时，还需要考虑utility：该推荐能为系统带来什么收益，例如对百度的变现有多大收益？对淘宝的销售有多少收益等具体这些指标的选择可参见博文：《选择推荐算法时需要考虑得因素》

Ranking，此部分是成熟的搜索，推荐系统具有的核心逻辑

比较简单的实现方法，是直接对各种特征拍阈值进行线性加权，比较成熟的系统一般会使用机器学习的方式和综合个维特征，学习出模型后进行排序，例如使用Learning to rank技术。该部分需要考虑的因素较多较为复杂。和传统的推荐相比，此处单独将Ranking拿出来。基础推荐挖掘，和传统的推荐部分比较类似，主要结合user profile，挖掘哪些item适合推给哪些user。但仅根据这些挖掘就直接进行推荐是不够的。真实online推荐场景中，需要考虑更多其他因素，例如：相关性，推荐的上下文，CTR预估，以及商业业务规则。

相关性： item与用户的相关性，这是大多数搜索和推荐任务的基石，例如在搜索中判定一个query和一个document的相关性，或是一个query 和另一个query的相关性，或是在特征比较多的情况下，一个user 和一个item 记录的相关性；实现方式可以很简单，例如传统的相似度度量方式（参见博文：《推荐系统中的相似度度量》），对于文本，业界使用简单的TF*IDF，或是BM25；不过很多时候我们需要增加更多维度特征，包括推荐item本身的重要性，例如IDF，Pagerank(具体参见博文：《pagerank的经济学效用解释》)，同时使用模型来提升相关性判断的准确性。使用模型的方式会更加复杂，但效果提升也非常明显。具体可参见博文：《集成树类模型及其在搜索推荐系统中的应用》，《分类模型在关键词推荐系统中的应用》，《adaboost》
推荐的上下文：例如推荐产品的入口，交互方式，不同的入口，甚至同一入口的不同交互方式，推荐的结果有可能都需要不一样；在LBS生活服务中，请求发生的时间，地点也是推荐需要重点考虑的上下文因素，例如饭点对餐饮item的提权；异地情况下对酒店等结果的加权等
CTR预估：成熟的商业系统都会使用模型来完成CTR预估，或是转化预估
以及商业业务规则：例如黑白名单，或者强制调权。例如在百度关键词搜索推荐中，某些有比较高变现潜力的词，就应该加权往前排；比如在高德LBS服务中，有些海底捞的店点评评分较低，但我们也应该往前排；或是在搜索引擎中，搜国家领导人的名字，有些最相关的结果可能因为法律因素是需要屏蔽的

算法评估

很直接，离线调研的时候看就看算法的评估指标，参见博文：《关键词搜索推荐系统中的推荐准确性度量》，《使用ndcg评估关键词推荐系统的相关性》上线的时候，进行圈用户（圈定某两个user集合作为实验/对照用户组）实验，或者圈请求实验（例如随机圈定5%流量进行实验），之后根据系统效果监控中的指标值判断实验效果。以下为一个典型的效果监控截图：实验如果证明成功，达到预期效果，一般之后推广到全流量；反之，如果实验未达到预期效果，则需要分析什么地方有问题，如何改进，之后继续调整算法继续实验。当实验较多时，还会涉及较多工程问题，例如分层实验框架等。

系统效果监控

对于整个系统，需要建立晚上的效果监控平台进行效果的实时监控，以便发现用户的行为模型，系统的不足，分析后续的发力点等。一般这样的监控平台会使用Dashboard来完成，基本的框架是前段UI + 后端数据库。很多时候，离线统计策略在hadoop上处理统计日志计算指标，并将计算出来的指标存入数据库，前端UI访问数据库，拉出指定时间段内某些指标的值，并进行简单分析。具体的监控指标，及指标体系的建立，可参见博文：《搜索引擎变现策略指标体系》

交互设计

完整的产品包括便捷的交互和背后牛叉的算法。很多时候，要提升推荐的效果，需要算法和交互配合，才能达到理想的效果：交互需要有健壮的算法产出结果；而算法也需要有配套的交互，才能达到预期效果，否则再牛叉的算法，对结果的影响也可能没那么明显。

一些交互的例子参见博文：

《关键词推荐工具中的用户引导机制之一：总述》

《关键词推荐工具中的用户引导机制之二：suggestion架构》

《关键词推荐工具中的用户引导机制之三：相关搜索query技术》

《关键词推荐工具中的用户引导机制之四：种子query推荐》

说了那么多，中心就是想说明，一个完整的推荐系统，远远不止是一两个rating算法能够覆盖的，而且此处还未涉及工程部分。

更多内容，也可直接访问： http://semocean.com

级联二步图关系挖掘关键词推荐系统及实现代码

youtube使用简单的共现思路，实现视频的高效推荐。受到该思路的启发，我们基于百度凤巢广告主在广告库中提交的关键词，更进一步设计出可级联的二部图关系挖掘算法框架，实现亿量级关键词，千万级别用户（单元结构）的高效推荐。本文即对该算法的实现进行详细介绍，并在最后给出实验结果。

youtube 推荐算法

首先还是简单介绍下youtube使用的推荐算法。符合google系一贯的风格，算法很简单，数据量很大，效果很明显。

大家都知道youtube上有N多vedio，而且各种各样档次类型。而youtube将用户的需求分为3类：

查找具体video。直接通过搜索
查找某一topic的video。基本也可以通过搜索解决
没有明确目的，随便看看打发时间娱乐

youtube算法，主要解决第三个需求，使用top N方式推荐video供访问者浏览。而youtube的问题是视频数量太多，且视频的兴趣点较为分散（相对的amazon和netflix的需求则较为集中），所以google没有选择高大上的svd等复杂方法，而是简单的共现计算。论文中整个数据流的处理方式，和传统的搜索引擎，或是搜索推荐系统还是一致的，基本分为：候选的选择（检索系统中叫触发逻）找到可能推荐的候选，排序（ranking过程）给出最终排序结果，并做top N截断

候选vedio选择

youtube 使用关联规则的形式，在24小时内所有用户session内找到共同访问（co-visitation）的video vi, vj

并计算，r(vi, vj) = cij/f(vi, vj) vi, vj的关联程度可以使用该公式计算得出，分母f最简单的方式就是ci*cj, cij为两个item共同出现的次数。之后根据阈值过滤r(vi, vj)即得到与vi关联的vj。定义S为用户u看过的种子video集合，则定义Ri为使用符合条件的r(vi, vj)得到的关联电影集合。

其中Ri为与vi关联的video，则C1(S)为使用种子电影S进行一次关联扩展后的电影集合，则可以定义：

则Cn(S)为种子video集合S进行n次扩展后的video集合。

以上思路虽然简单，但其中包含的一个特性是可以在相关性和种子集合数量间做一个权衡：使用降低相关性的方法，换取更多结果。

ranking

上述步骤为候选电影的挖掘方法，之后需要对挖掘出来的种子video进行ranking，例如使用pv排序，使用，候选电影与user profile 的相关性等进行ranking。当然此时还需要注意给出推荐理由（例如根据哪个种子电影进行推荐）以提升采纳率。

二部图实现思路简介

受到youtube二部图的启发，我们设计开发了级联二部图，基本思路是使用中间节点，建立二步节点之间的路径（关系）计算左右两节点的相关性。

二步跳转关系介绍

定义unit为一个凤巢中的单元（可理解为一组相关关键词）， unit1与关键词‘礼品’相关，而‘礼品’与‘礼品快递’关联，此时通过两次二部图的链接，即能找到unit1和‘礼品快递’的关联关系。

该级联二部图有两个特点：

二部图可以通过中间的节点建立关系：只要能各自建立两边的节点（例如unit和关键词）与中间节点的关系，级联二部图两端，可以不是相同类别的item。例如unit1包含关键词‘礼品’，而礼品与‘礼品快递’字面相关，则即使不包含‘礼品快递’，算法仍然能够找到unit1与‘礼品快递’的关系。
可以进行多步扩展：和youtube电影推荐算法类似，该算法可以由级联二步扩展为级联多步，当然，实在牺牲准确性的前提下。

二步图的基本思想，就是通过中间节点，建立左右两特定节点之间的路径，之后根据这些路径及权重，算出左右两节点的相关性，思路和random walk中价值传递的思路较为类似：一个节点的价值，最终流到那儿，就说明这两个节点比较接近。

具体挖掘步骤

步骤一：左右节点权重归一化，可以使用L1-norm，或是L2-norm进行归一化，之后得到每个左/右节点到中间节点的路径归一化权重。

步骤二：为了避免’哈利波特‘问题，或我们经常说的’新华字典‘问题，避免被多数人采用/提交的中间节点，需要对中间节点进行惩罚，降低部分中间节点的权重。

步骤三：计算左节点到右节点一条路径的权重，路径的权重 = 左边权重 * 右边权重 * 通过惩罚值；其中左右边权重通过步骤一计算得到，通过惩罚值通过步骤二得到。

步骤四：根据连接某对左右节点的所有路径计算该对节点的相关性。

由上述4个步骤大家可以看出，其实该框架和mahout中hadoop item-based 的计算item相似度的流程极为相似，具体算法可参见mahout源码：mahout推荐算法；但该算法具有很好的扩展性，就是前边介绍的：灵活更换左右节点，即可实现多步级联的推荐。

核心代码示意

具体实现即根据上文四个步骤进行划分，四个步骤的实现代码可参见下属配置文件：

通过conf文件，大家即可了解上述4个步骤的实现，具体该配置可以参见conf/twohop_bipartite.job.conf

实现效果

经过多次优化，包含基础数据的清洗，使用该方法，客户的覆盖率提升至75.6%，相关性85%。且针对一些大客户的需求，可以放松相关性来进行扩词。

工具使用方法

级联二部图工具使用方法如下：

python ${TWOHOP_MINING_HOME}/script/twohop_mining.py

-hadoop hadoop_client_path

-inputA input_A_path

-inputB input_B_path

-output output_path

注：该框架依赖于我们自行开发的hadoop任务框架，所以可能无法完整运行，但使用者可以将上述4个步骤的hadoop脚本单独抽取出来进行单独运行。

工具代码地址

代码可从我的云盘下载：级联二部图框架

参考文献：

mahout推荐算法：http://mahout.apache.org/users/recommender/recommender-documentation.html

youtube video推荐算法：Davidson J, Liebald B, Liu J, et al. The YouTube video recommendation system[C]//Proceedings of the fourth ACM conference on Recommender systems. ACM, 2010: 293-296.

百度关键词工具介绍参见：http://support.baidu.com/product/fc/4.html?castk=24b18bi7062c720d0d596

也可关注我的微博： weibo.com/dustinsea

或是直接访问： http://semocean.com

context-aware recommendation

智能手机的普及让大家随时随地都可接入互联网，而这样的随时随地的应用场景，也让传统推荐技术需要充分考虑，利用这些信息提升推荐的准确性，同时从另外一方面考虑，这种符合LBS的推荐，因为有了这些信息后，也能够更加准确。

传统的推荐系统基本上就是根据用户对物品的打分进行推荐，或者描述为 USER * ITEM -> RATING。其工作就是去填充一个matrix，matrix的横坐标为item，纵坐标为user，推荐的任务就是根据当前已经获得的该matrix中非空的元素，去填充该矩阵中没有值得元素，并保证用于填充matrix的模型，在非空元素上的误差最小。

什么是Context-Aware Recommendation

但在很多场景下， user的rating会受到context的影响，这里的context在不同的领域会有不同的定义。例如电影推荐，对是否为工作日这样的因素影响会比较大；在LBS应用中，推荐内容是否会被采纳，会受到地理位置的影响（特别现在移动是个大趋势，后续更多的访问流量都会转向移动），例如手机美团，如果一个人在饭点上美团，则他购买餐馆团购券的概率应该要比夜晚大，而购买离他距离近的餐馆团购券的概率也要比购买距离比较远的团购券大。这里的地理位置，时间，就可以看成是context内容。

而在搜索引擎中，例如百度，要增强搜索的个性化（如果我们将搜索也看成推荐问题），那么网民的IP所在地，或者网民之前输入的几个query，都可以看成是context内容。

那context内容如何与传统Recommender技术融合？这就是推荐技术中的contex-aware recommedation：结合上下文的推荐。例如，大家经常会进行团购，而团购中的项目，要数团购饭点的套餐最为划算了，这其中就会直接涉及到上文提到的时间，地点两个上下文因素。举个例子，如果我周末快到吃饭时间进行套餐的团购，海底捞离我比较远但小肥羊离我比较近，那我还是有可能会考虑离得比较近的小肥羊，或者离我比较近的海底捞的店。

在我看来，类似于美团，大众点评这样的生活服务，是最需要Context-Aware Recommendation技术的了（特别是近些年来智能手机的普及，大家很多时间都是用智能手机上网），需要结合用户诸如位置，时间及之前积累的用户信息（user profile）进行推荐。

如何实现context-aware recommendation

一般来说，可以使用以下3类方法，在推荐技术中引入上下文信息：

Contextual Pre-Filtering
Contextual Post-Filtering
Model-based

Contextual Pre-Filtering

该技术是在数据处理阶段，就使用contextual信息对数据进行处理过滤，之后就可以使用传统的推荐技术进行推荐。假设我们将信息的处理看成是一个漏斗：在获得候选信息后，逐步根据当前能够获得的信息过滤掉不相关的内容，保留下最相关的内容，则contextual pre-filtering方法就相当于将最严格的信息放在漏斗的最开始，直接过滤掉与用户context不相关的内容。

在实现contextual pre-filtering技术时，需要考虑contextual的表示方式，很多时候可以将这些contextual使用层次信息进行表示，以下是几个例子：

Company: Girlfriend →Friends →NotAlone →AnyCompany;

Place: Theater → AnyPlace;

Time: Saturday →Weekend→ AnyTime.

上边的例子，从左到右越来越泛化。

例如百度关键词搜索推荐系统，推荐地域相关关键词时，如果用户提供了地域信息，例如‘北京’后，在后续的推荐中，就不会考虑‘北京’以外的地域，而北京下属的几个区，都可以作为推荐的候选，这就需要维护一个全国地域term的层次树。而时间，关系(上文中的Company)等维度也需要有类似的层次树进行维护。

Contextual Pre Filtering方法优点：在一开始对contextual信息进行处理后，就可以使用传统方法进行推荐，例如将特定contextual相关的数据过滤出来后，就可以使用传统的按内容推荐，协同过滤等方法进行推荐。如果是实时的搜索引擎，使用类似于Contextual Pre Filtering的方法，能够有效地减少后续数据的处理量（相当于建立了一个数据过滤漏斗，在一开始的阶段即将后续不会用到的数据过滤，减少后续策略的计算量）；但推荐系统中如果将没中过contextual信息的数据过滤出来单独训练的话，速度并不会有所提升。

Contextual Post-Filtering

该方式对于数据的处理与传统的推荐方式一致，区别在于当结果已经推荐出来时，使用contextual信息对结果进行重新过滤或是重排序。

例如，对于地域这一维contextual信息，百度关键词搜索推荐（Baidu Keyword Recommender，后续简称KR）中就是用Contextual Post-Filtering方法，例如KR首先使用传统的方法进行推荐，之后在结果返回前，会根据地域对关键词进行排序过滤；又例如，美团的app，在进行餐饮团购推荐是，一开始可以使用传统的推荐算法进行推荐（当然此时就应该根据上下文进行粗过滤，例如对于在北京找餐饮服务的网名，给他推荐一个上海的海底捞可不是一个好的选择），当传统推荐算法推荐出结果后，就可以使用上下文来进行过滤排序了。例如餐饮服务推荐中国，在其他因素固定时，可以优先推荐离用户地理位置近的item。最终的结果也不是完全按照时间排序，时间只是众多考虑因素中的一个因子，例如可以使用另一个CTR模型来预估用户的点击概率，而网名地理位置离餐馆的远近可以作为一维重要特征（其他特征可

以包含推荐物品与网民兴趣的匹配程度，该item是否与该网民历史购买能力匹配等）

Contextual Post-Filtering的优点：该方法的优点和Contextual Pre-Filtering一样，可以使用传统的推荐技术。但该方法与Contextual Pre-Filtering相比，有一个优点：最终的过滤排序，都是在推荐算法完成后进行的，当有新的数据，或是算法接入时，最终的排序过滤标准是可以不做调整，只要在最终排序过滤逻辑前引入新算法的推荐结果即可，另一个优点是，最终出的结果的数量，可以视最终可能被保留下来的结果的数量进行调整，例如按照严格的contextural信息来过滤，可能最终剩下的结果只有两条，此时如果觉得结果太少，则可以适当放松过滤阈值，或者将接近阈值的结果打上特定标签推荐出来（例如，百度关键词搜索推荐中，如果推荐的结果太少，系统会将一些阈值相对偏低的结果也展现出来，只是结果后边会打上‘结果太少？网民也会这样搜索’）；但任何事物都有两面性，Contextual Post-Filtering方法的缺点一开始推荐出来的结果，会在后续直接因为Context不match而直接被过滤掉，这样就白白浪费了在排序过滤前的计算。

在实际应用中，需要根据具体应用选择使用Contextual Pre-Filtering或是Contextual Post-Filtering方法，而更为常见的是，两种实现思路经常会同时在同一系统中出现，仍然以KR中地域属性为例，在进行关键词候选结果选择时（一般称为触发过程），就会使用地域信息对结果进行粗选；在得到候选结果后，会使用地域信息（包括层级地域信息）对关键词进行更精细化的排序过滤。

Contextual-Model

可以理解为传统的Model-based推荐方法，区别在于在进行模型训练时，就将Contextual作为特征加入模型进行训练，该方法的优点是直接可以使用一个模型完成推荐，缺点在于如果上下文信息维度较多，会导致训练数据较为稀疏，同时当结果较差时不容易进行优化，因为众多因素进行了融合，很难指出问题出在什么地方。而Contextual Pre-Filtering和Post-Filtering方法，可以理解为对问题进行了拆解。这样的策略架构，问题定位会相对容易一些。

后记：前几天看到一个新闻，称美团2013年已经实现盈利。当时看到这个信息的时候还挺震惊的。2011年的时候百团大战时，团购网站都在各种烧钱推广。百度为了让团购网站能够更高效地在凤巢上进行推广（也可以理解为更高效地挣团购网站的钱），设计了无关键词拍卖系统：团购网站只要提供团购页面（或是团购页面的结构化属性描述），即可在百度上进行推广。但悲剧的是该系统才刚要开发完毕，团购网站的前就已经烧得差不多了，之后就出现一大批团购网站的倒闭。。。。现在美团居然活得好好的。

同时结合自己做推荐系统的几年，觉得美团和大众点评这样的网站，是最适合加大推荐系统研发投入的：每个美团/大众点评用户都有自己的ID，也都有自己够买的商品（explicit rating）和自己浏览的网页（implicit rating），同时手机客户端的的位置，时间信息可以作为推荐的context信息增强推荐的准确性。所以如果后续仍想在推荐系统方面做一些工作的话，美团和大众点评都会是不错的选择。

附上一个index.baidu.com上几个关键词的搜索量变化，美团的曲线是相当的漂亮！

百度关键词工具介绍参见：http://support.baidu.com/product/fc/4.html?castk=24b18bi7062c720d0d596

也可关注我的微博： weibo.com/dustinsea

或是直接访问： http://semocean.com

集成树类模型及其在百度搜索推荐系统中的应用

决策树是经典高效的机器学习分类算法，非常适用于线性模型效果不能满足需求，规则描述分布比较合适的场景。而决策树与传统bagging， boosting思想结合在一起，就形成集成树模型方法，包括Random Forest，GBDT等方法。在百度搜索关键词搜索推荐系统策略中，实验证明集成树模型具有非常高的预估分类准确性。

决策树模型

举一个简单例子(引自公司pengzhiming同学的PPT)：老妈让自己相过多次亲的女儿再次去相亲，女儿简单问了下对方的条件，以判断是否去；根据男方条件（特征）对去与不去进行分类的过程，就是一个CART决策树。

例如：

母女对话如下：

如果将女儿的历史相亲经历看成是训练样本（男方条件为特征，女儿到对方后觉得是否靠谱作为label），将女儿积累到现在的相亲经验则是一个CART模型：根据老妈的描述，就可以判断出是否有必要去见男方。

当然，决策树模型也可以再细分，包括经典的ID3,C4.5, CART。不同的决策树具有不同的树结构，以及不同的节点拆分算法及拆分标准。

树模型的优缺点

总体来说，树类算法都是使用贪心算法， 选择当前最合适属性进行拆分建立整棵决策树，该类模型比较适用于能够用复杂规则描述的应用场景。

以下为树模型的优点：

实现较为简单，且容易实现并行化
训练速度较快，且一般效果也比较好
能够处理离散连续值特征（和LR类似的模型相比），不用对特征做归一化即能取得较好效果
能够处理缺失值
能够处理高维特征
训练完毕后，能够给出哪些特征比较重要；而且很多情况下，即使最终使用其他模型， 也可以使用树模型选择特征

当然，所有的模型都有其弊端：

树模型容易过拟合，所以需要进行剪枝（以及使用后续将描述的集成学习方法解决）
不能表示复杂结构和运算：树模型原则上天然表示‘与’操作，所以不能表示类似于‘异或’的操作

因为树模型的以上优点，树模型在很多场景均会被选用

树模型训练框架

以下为使用数据集D，属性（特征）集合attribute_list产生决策树的算法框架。该算法未包含任何剪枝。

以上伪代码中（2）~（5）行用来处理数据中都是相同label及无属性拆分的情况，剩余代码使用贪心算法选择最合适的属性后，进行拆分，并递归建立子节点。

在上述伪代码中涉及到attribute_selection_method逻辑，也就是决策树节点拆分标准的问题。

树模型节点分裂标准

如上所述，决策树使用贪心算法进行拆分，选择当前认为最优的拆分特征进行树节点的分裂。这就涉及到选择何种属性作为拆分的标准。一般说来，经常使用的树节点拆分标准主要有以下几类：

information gain

一般情况下，在决策树中，使用信息增益（information gain）作为节点分裂的选择标准。

要定义信息增益，我们需要定义‘信息’，我们将信息定义为：对于数据集合D，我们需要对D中的各种类别进行编码的字节编码数，即：

信息量，也被称为熵（entropy），用于描述不稳定性或多样性。对样本集合D中，假设对于某一维度的特征，该特征A有v种取值，而每种取值对应的数据样本数为Dj，则在知道了某属性A的各种取值，并将符合各v值得样本进行分类后，需要将样本集合D完全分开所需要的信息量为：

其中Dj为符合每个A的取值（假设A为离散可数种取值）的子样本集合。infor(Dj)为完全划分子样本集合所需要的信息量。此时可定义信息增益：

在ID3算法中，使用信息增益进行分裂特征的选择，算法会使用贪心算法选择信息增益最大的特征进行树节点的分裂。但信息增益有一个缺点：会选择有众多值的特征进行节点分裂，极端情况，对于ID类特征（利用用户ID，或是item ID）， ID的个数与待分类的样本数一样，这样的分裂是没有意义的，此时，使用gain ratio作为节点拆分标准，能避免该问题。

gain ratio

为了解决信息增益偏向于选择属性值较多的特征问题，在c4.5中引入了gain ratio。首先定义：

注意splitinfo_A 与info_A的不同： splitinfo的第二项受到的是符合特征A下每种取值的样本数量影响； info_A则受到特征A下每种取值的样本包含的信息的影响。注意参考entropy的定义，当分布越是不均匀时，描述这种状态所需要的信息量约小，分布越是散时，需要的信息量越大(info值越大)，所以当拆分特征的值越多时， splitinfo会越大。

此时我们定义gainratio，分母为splitinfo 起到抑制拆分多值特征的倾向。

gini index

在CART中，使用gini index作为节点拆分的标准， gini系数的定义如下：

其中pi为样本集合D中各类的占比（总共有m类， pi=Di/D，其中Di为D中属于类别i的的样本数量）

定义：

即使用属性A来对样本进行节点拆分后时的gini index，此时可使用gini_A来对A进行拆分判定，选择gini系数值下降最快的属性进行拆分。

一般说来information gain，gain ratio， gini index就是最常使用的三种拆分指标。结合前述树模型构建方法，再加上构建树的过程中/后的限定条件及剪枝，即可构建出实际中高效的决策树。

集成学习方法

集成学习方法是将bagging，boosting思路与树模型结合的高效学习方法。

bagging的思路比较简单，就是汇集多个模型进行投票，每个模型的票的权重一样，获得票数最多的预估类胜出，该类获得的票数与总票数的比值可以作为置信度。如果是回归问题，则多模型预估值得平均值作为bagging结果。

boosting方法在bagging的思想上前进了一步： boosting在训练时会更在乎分类错误的样本，给予分类错误的样本更高的权重训练模型，并将这些权重不一的模型根据权重进行bagging。boosting更像是是医疗专家诊断病情一样：诊断容易出错的病情正确率更高的专家的话语权更高。具体adaboost的介绍可参见《adaboost》

bagging方法，特别是adaboost方法一般都会使用非常简单的弱分类器进行bagging和boosting，随着计算机处理能力的增强，可以使用更加复杂的模型进行bagging&boosting，而过将弱分类器使用更加复杂的树模型，就形成‘集成树模型’。比较常用的‘集成树模型’包括Random Forest和GBDT。

虽然单个树模型学习能力有限（拟合复杂的数据分布能力有限），但多个树模型放到一起，就能够高精度拟合出复杂的分布（如上图所示），这就是集成学习的强大之处。

Random Forest

Random Forest(RF)是典型的bagging树模型的方法。其思路就是使用随机的部分样本/特征构建树模型，之后使用bagging思想进行分类。

RF不仅对特征集合进行采样，同样也可以对样本进行采样，例如在进行单个cart训练时，对每个模型，随机使用这种方式一方面充分利用了所有样本，特征的贡献，另一方面，又能避免部分噪音带来的过拟合。设置合适的样本随机采样率（例如0.6表示每个模型选择60%的样本进行训练）以及何时的特征随机采样率（例如0.6表示每个模型选择特征集合60%的特征进行训练）进行RF训练。

在进行分类时，根据样本和特征抽样训练出来的模型使用bagging方法进行投票。

相对于boosting会依赖于前一模型分类正确or错误调整样本权值的思路， RF更容易实现并行化，因为RF中各子树的训练过程是完全独立的不会相互影响。

GBDT

Grandent Boosting(GB)是将梯度下降思路融入boosting方法中，不同于传统boosting每一步对分错样本进行加权（或对分对样本进行加权），GB定义整个模型的损失函数。

算法的每一步沿着损失函数下降最快的方向建立新的模型，这样使得算法在每一步均沿着下降最快的方向收敛。直到满足要求，建立满足要求的若干组合加权子模型。

Gradient Boosting将问题进行建模，定义loss function为

则对于训练样本集合{y, x}，我们的任务是寻找最小化loss的函数F*(x)：

而gradient boosting的思路是将映射模型函数表示为以下形式：

其中h(x;am)为简单函数/模型， am 为h的参数，此时， belta, a，就为我们要预估的最小化loss下的参数：

同时Fm与F_m-1的关系为

之后可以求belta和a序列参数，求解过程如下：

在第i个样本点，第m个模型里边的伪残差求解方法为：

要构建模型h(x,am)，最快的方法，就是让所有的样本点处，损失函数都沿着最快的方向下降。

也就是：

利用最小二乘法求解am后，即可求解belta_m

依次求解所有am, belta_m后，即得到最终模型F*(x)

树模型在百度关键词搜索推荐中的应用及实验结果

当然，很多时候我们不会直接去修改模型，在应用中，更多地是使用模型作为工具解决具体问题。例如在百度关键词搜索推荐中，我们更多是构建相关性判断的特征样本，之后对模型参数进行搜索：例如样本采样率，特征采样率等参数。具体效果参见实验部分。百度关键词搜索推荐介绍及交互流程参见《百度关键词搜索推荐系统交互流程》

一下为具体应用标注负样本示例，例如‘水仙花’，从搜索引擎商业价值角度考虑，是具体描述水仙花这个商品，而不一样是信息型舞蹈名字query'紫蝶广场舞水仙花开'：

具体GBDT在百度关键词搜索推荐中，相关性判断的应用方法（包括特征选取和实验结果），参见《分类模型在关键词搜索推荐中的应用》，使用树模型，在没有任何样本，特征调整的情况下，准确性直接提升了5个点，效果惊人。

同时，正如前述：树模型还有一个显著优点，就是在模型建立时，能够清晰分析出哪些特征对分类贡献大，哪些对分类影响小（常用的指标包括特征的贡献度，特征在分裂时的使用频率），一般情况下特征贡献度和特征使用频率均是越大越好。例如百度关键词搜索中，对关键词相关性模型（使用分类模型判断两个关键词是否相关）使用17维特征。使用Random Forest保留贡献最高的5维特征时，在交叉验证情况下，准确性基本保持不变，召回也就下降1个百分点。

而在排序任务重，使用衍生GBrank对百度关键词搜索推荐结果进行排序，一般情况下，效果随着树的深度增长而提升，但树深度达到8后，就不再提升。

随着叶子节点书的增长，效果仍然在提升，所以在应用中，如果效率允许，可以让最大叶子节点数多一些。

在实际应用中，理论上可以对众多参数进行全参数搜索，找到最优参数。实际应用中会快速找到比较好的参数后，策略即上线进行实验。

参考文献：

Friedman J H. Stochastic gradient boosting[J]. Computational Statistics & Data Analysis, 2002, 38(4): 367-378.
Quinlan J R. Induction of decision trees[J]. Machine learning, 1986, 1(1): 81-106.
Breiman L, Friedman J, Stone C J, et al. Classification and regression trees[M]. CRC press, 1984.
分类模型在关键词搜索推荐中的应用

百度关键词工具介绍参见：http://support.baidu.com/product/fc/4.html?castk=24b18bi7062c720d0d596

也可关注我的微博： weibo.com/dustinsea

或是直接访问： http://semocean.com

关键词推荐工具中的用户引导机制之四：种子query推荐

上一篇《关键词推荐工具中的用户引导机制之三：相关搜索query技术》中，我们提到可使用用户query-点击日志，session数据，及网页内容，挖掘与query意图相关（同时具有变现价值）的相query推荐给客户引导用户优化搜索。如用户还未输入，此时搜索引擎默认直接展示搜索框。但在关键词推荐系统中，更好的选择是push与用户相关高质量query，帮助用户高效发现兴趣点，本文将介绍在关键词推荐系统中，实现种子词推荐产品及策略

什么是种子query推荐功能

什么是种子词query推荐，先向大家展示两个直观的例子：百度锁屏，以及百度关键词推荐种子词推荐功能。

图：百度锁屏种子词query推荐

图：红框部分为关键词推荐工具中种子query功能

种子query推荐功能作用

种子query，就是在用户在搜索框中，还没有任何搜索时，通过线下挖掘计算，主动push推荐用户潜在感兴趣的query的功能。例如百度锁屏功能的种子query，当用户锁屏准备解锁时，app推荐用户可能感兴趣的搜索引擎候选query(种子query)后，用户可以直接点击进行搜索，以提升搜索引擎访问量；在百度关键词推荐系统中，用户还没有输入适合自己的query时，可以根据用户的历史搜索，以及百度推广业务等信息，推荐高质量的种子query给客户。

大家可能会有疑惑，既然关键词推荐就是一个推荐系统，那为什么还要有种子词推荐？而Baidu，或是Google首页上，也没有种子词推荐？从我的角度来看，Baidu，Google首页之所以没有种子词推荐功能，一方面是这两个搜索引擎简单的首页的访问量实在太大，首页上任何的信息，可点击的内容均会对网民带来影响巨大的引导作用，举个例子：之前就曾经发生过类似的时间，就是在百度首页上放了一个大型网站（具体网站名不便透露）的文字链，结果在很短时间内，该网站就被来自百度该文字链的流量压垮；反过来说，在搜索引擎首页上增加种子词推荐，也会分散用户的注意力。另一方面网民的搜索内容太泛，要做到准确推荐的确有难度。

在关键词推荐系统中，特定用户搜索的（商业）query对应的意图，产品范围均相对集中，或者说使用关键词推荐系统的用户，兴趣点相对集中，难点是用户很难想出来搜索引擎上可能接受的描述该兴趣点的千奇百怪的表述。所以就需要使用种子词推荐功能进行搜索引导。

如何设计种子词推荐策略

可以很简单，也可以很难。。。

为什么说很简单，例如，在搜索引擎上，最简单的方式，就是直接使用一定时间内网民的搜索，过滤掉黄赌毒反结果，作为推荐结果。但这样做有一个问题，就是有些搜索query，基本上可以说任何时候，搜索量都比较高，例如搜索query “淘宝”。为了避免该类问题，可以使用在某一段时间内搜索量变化比较大的query作为种子query。

为什么说可以很难？因为这本来就是一个关键词推荐问题：根据用户历史行为，数据，推荐用户可能感兴趣的query。当然，种子词推荐有它的特殊性，因为推荐的优化目标是不一样的，它是一个多目标的优化问题：

符合用户的搜索意图（搜索引擎中为搜索意图，百度推广中为推广意图）
用户使用该种子词搜索后，为搜索引擎/商业系统带来的效用

假设搜索意图质量为Q（Quality），带来的效用为U（Utility），则这个多目标优化问题可以描述为：

S = Q^(t) * U^(1-t)

其中S为最终的Score，使用t控制Q与U在最终结果中的权重。

我们可以使用经典的colleborative filtering，或是content-based recommendation方法，获取到推荐词源，之后使用以上双目标优化方式计算S来进行结果的filtering和ranking，给出Score权值最高的top n 结果。

例如，在关键词推荐系统中，我们希望用户使用种子query进行搜索后，一方面结果要相关，另一方面，返回的结果数要超过阈值（或者尽可能多），此时，搜索结果相关可以被定义为Q(可以离线挖掘时使用PLSA等技术进行判断相关性)，同时使用返回结果数作为U，最终对挖掘的种子词进行filtering和ranking。

更多内容请参考：

百度关键词工具介绍参见：http://support.baidu.com/product/fc/4.html?castk=24b18bi7062c720d0d596

关键词推荐工具中的用户引导机制之一：总述

关键词推荐工具中的用户引导机制之二：suggestion架构

关键词推荐工具中的用户引导机制之三：相关搜索query技术

《recommender systems handbook》

也可关注我的微博： weibo.com/dustinsea

或是直接访问： http://semocean.com

分类：数据挖掘

亚马逊semantic product search

亚马逊semantic product search

基于字面匹配的缺点

模型

Loss function

tokenization methods

data

实验指标

Result

后续：借鉴意义

reference

Mobvista反作弊系统实现

如何使用机器学习解决实际问题-以关键词相关性模型为例

目标设定：提升关键词搜索相关性

数据，特征，模型

准备训练数据

模型训练前，先定标准和样本

特征提取

特征贡献度

模型选择

如何个性化

一个完整推荐系统的设计实现-以百度关键词搜索推荐为例

级联二步图关系挖掘关键词推荐系统及实现代码

context-aware recommendation

集成树类模型及其在百度搜索推荐系统中的应用

推荐系统经典论文文献及业界应用

关键词推荐工具中的用户引导机制之四：种子query推荐