机器学习 – Semocean

AutoML技术&应用

介绍

参加了NeuraIPS回来后，公司让参会的几个同学都找个topic给公司其他人做一个分享，因为自己对AutoML比较感兴趣，所以就选在在公司分享这个话题。

其实我个人对AutoML这个方向没啥研究，也不是专家，只是对这个方向比较感兴趣。原因有二，一是觉得这个方向比较有意义，如果真的做成了，生产力提升不说，很多初中级的调参侠就要失业了，影响还是比较大的；二是一直在追推荐相关的技术，发现很多Paper都是在讲如何创新性地提出一个网络结构应对特殊场景，思路很像Neural Architecture Search做的工作，感觉这些事就应该AutoML来做。

下面就进入正文介绍分享的内容。

What&Why

大家在用机器学习解决具体问题的时候，流程一般比较长。一般包括以下几个步骤：

定义任务
收集数据
特征工程
模型选择
选择优化算法&参数
评估效果（效果不好则迭代）
发布&上线

这里边会存在以下几个挑战：

用machine learning解决问题的任务的pipeline比较长，包含定义问题，收集数据，数据预处理，模型选择，优化算法，以及这个过程的反复迭代，效果OK后再上线部署。里边混合着工程，算法，策略，很多时候一个人还搞不定
这方面的专家很贵，而且。之前爆出过机器学习的博士应届生薪水到60~80W，不是一般公司能够承受的
一般的专家就精通某个业务领域。而CV，NLP，语音等不同领域又有很大差异

所以这个时候的理想手段，就是使用AutoML，快速建立一套不错的机器学习流程来解决任务，不一定是最好的（也可能是最好的），但性价比比较高。这时留给人的主要工作，主要就是定义任务，收集数据以及线上部署及线上效果评估分析以及一些更有创造力，更有深度的工作

图：AutoML整体流程示意图

如果我们形式化地定义AutoML，则可以有以下定义：

图：AutoML形式化定义

简单来说就是：最优化整个学习工具（过程）的效果，优化的参数变量就是一组配置，限定条件有两个，1是没有人工参与，2是计算资源可控。该处的配置是个广义概念，包括使用哪些特征工程方法，使用什么模型，模型的超参数以及优化算法的种类和设置等

图：机器学习过程，人工调参并迭代

图：AutoML过程，机器自动完成特征工程，模型选择及调参

总结下来说，可以认为AutoML的特点是：效果好，性能优，无人工参与

How

那AutoML中会涉及到哪些技术呢？从问题的setup来划分，我们可以根据将机器学习过程进行拆解来解决该问题。例如将整个机器学习问题拆解为：选择哪些特征工程方法，什么模型，什么优化算法，以及对应的参数。这是偏传统Shallow模型的流程；近些年DNN逐渐成为解决机器学习问题的主流手段后，AutoML也出现了另外一类端到端的方法，就是基于DNN的方法，默认问题都是用DNN来解决，而这其中需要机器做的就是找到一种适合该机器学习任务的网络，这类方法也叫NAS(Neural Architecture Searching)

从另外一个技术维度，又可以将AutoML方法划分为Basic方法和Experienced方法。这种划分方式的依据是AutoML是着眼于拿到手要解决的任务自动快速找到一个最优配置，还是根据历史上其他机器学习任务作为经验的学习来源，找到一种最优配置。

当然，AutoML在具体实施的过程中也面临很多挑战，主要是以下几点：

目标函数与参数配置无法直接关联，难于优化。从AutoML的形式化定义我们可以认为AutoML是一个优化问题：AutoML拿到一个任务后，最后产出是一组最优的配置。但是我们很难像传统机器学习一样，写出目标函数后求一阶导数或者二阶导数进行求解，我们可以认为AutoML是零阶导数问题，所以求解需要用另外一些优化方法
超参数空间较大。选择什么样的特征工程方法，算法，正则，学习率等都是超参数，超参数空间非常大，难于优化
函数的评估代价较为昂贵。每选定一组超参数后都去train一个模型然后验证效果，时间和计算成本都非常高

要求解AutoML问题的配置，一般会将整个AutoML在框架上分为两个组件。Optimizer和Evaluator，有些系统中也叫Tuner和Assessor，名字不一样，定义大同小异

图：AutoML的一般框架

Optimizer主要负责寻找合适的配置，Evaluator负责评估Optimizer找到的配置，并将评估反馈回传到Optimizer以便Optimizer后续的决策

Optimizer

Optimizer可以认为是AutoML中研究最多最重要的组件，它直接决定了AutoML是否能够(快速)发现最优的配置，拿到最优的效果，经常使用的Optimizer算法有以下几种：

Simple Search Approachs：该方式就是暴力搜索，例如Grid Search，这个是我们经常使用的搜索算法，其做法是将各个维度的参数使用笛卡尔积的方式进行组合，优点是比较简单，缺点是组合方式呈指数爆炸，并且会将搜索试验的机会浪费在不重要的参数上；稍微改进的方式是Random Search，其优势是在各个维度上的试验次数都变多了，这样更容易在important的dimension上找到最优点，因为假设各个维度的参数相对独立。但总体Simple Search方法的缺点都是每次试验都是相对独立的，这就导致后续的搜索不能用到前边搜索的经验。

图：Simple Search Approach

Heuristic Method：该方式使用类似于自然界中种群行为和进化的思路。例如PSO(Particle Swarm Optimizer)会对新的参数进行探索，探索的方向是表现比较好的配置周边的配置(也可以认为是正向反馈较多的方向)，就类似于飞行中鸟群会向虫子比较多的方向移动；另一种方法是Evoluationary Method，该类算法的思路是每次选出两个效果最好的配置(ancestor)进行杂交变异(crossover&mutation)，类似于人的基因进化过程。Heuristic Method方法的优点是有效，思路容易理解，缺点是没有强的理论依据。

图：Heuristic Method

Model-based Method:该类方法是使用Samples(配置)产生模型，之后使用该模型产生一个比较好的配置，然后让Evaluator验证该配置，之后再使用该sample(配置)来更新该模型。经常使用的model-based方法为Baysian Method和Classification Method.其中Classification Method对samples进行二分类，每次从positive中找出一个sample去进行验证，验证结果再反馈更新模型

图：Model based Method

Reinforcement Learning Method:使用强化学习来找配置，当然有很多人也会有不同的声音，认为RL是比Optimizer复杂很多的问题，使用极度复杂的技术来解决相对简单的问题本身就是个问题，不合理。

图：Reinforcement Learning based Method

Evaluator

Evaluator主要关注三方面的指标：评估准确性，评估效率以及优化反馈。其中评估准确性和效率很多时候需要进行权衡

Evaluator的具体方法相对会简单一些，主要有以下几类：

Direct Evaluation：这是最粗暴的方式，相当于选定配置后直接train model，然后进行验证，是最慢的方式，当然也是验证结果最置信的方式
Sub-Sampling：选定配置后，仅使用一部分采样后的样本来验证参数，优点是速度比较快，缺点是验证结果不一定置信，因为sub-sample set不一定能够完全代表总体数据集合
Early Stop：验证过程中进行提前停止，减少迭代次数或者迭代时间，其中的假设是一个配置如果比较好，那么训练到一半的时候效果应该也比较好。该假设可能会产生噪音。一种Early Stopd的策略是并行跑多个配置，迭代特定次数后，保留效果最好的一半配置继续跑，这样不停减半淘汰
Parameter Reusing：每次模型训练使用上次的权重进行初始化。该方式的优点是快，缺点是可能引入bias，因为不同的start point的结果可能不一致

Meta Learning

Meta Learning相当于使用完全不一样的另外一个思路来产生配置。它从过往的多个机器学习任务中进行经验学习，相当于对于Meta Learning来说，学习的样本是过往的多个机器学习任务，将过往的机器学习任务进行特征表示，例如过往机器学习任务的数据量大小，正负样本比例等统计信息，以及使用的机器学习算法，配置等作为特征去train一个Meta Learner。之后对于新来的机器学习任务，使用Meta Learner推荐一组配置去进行验证.此处Meta Learner可以是比较简单的模型。该方式的优点是能够减少搜索空间，提升效果，不过如何提取特征，如何进行表示会比较有挑战(就像其他传统机器学习任务一样)，而且以机器学习任务作为训练样本，这个事也不是每个公司都能够做到的，这也可能是现在AutoML公司的先发优势，假设这些公司占了先机接了很多AutoML需求，则就能获取大量供Meta Learner进行学习的训练样本，而其它公司很难有这样的条件和实力获取这些训练样本

应用

早年在百度负责商业搜索推荐系统的时候，当时就想百度可以做一套通用推荐系统，该系统可以供中小网站主进行站内推荐：中小网站主提供数据，该系统自动为中小网站主定制推荐服务。该系统对中小网站主的价值是中小网站主获得了推荐系统的能力，对百度的价值是百度获得了这些网站的用户行为数据。但当时在百度组织结构划分的情况下该工作不太容易推进，同时项目系统的目标也没那么明确。但该系统可以认为从技术的角度就是需要AutoML的能力。

技术发展到现在，后续AutoML的发展还是很有希望能够有所突破的，原因有以下几点：

深度学习已经成为解决机器学习任务的标配
算力的持续增长
作为解决各种特定应用场景的tricky网络持续出现(算是AutoML的需求场景和价值)
NAS(Neural Architecture Search)技术成为热点并逐渐有所突破

那后续会不会出现这样的场景：公司定义好一个机器学习任务后，就使用AutoML技术来解决，现在公司中的各种调参侠，除了对业务比较精通的那些同学外，其他都失业?这个是大家需要考虑的问题

图：使用RNN进行NAS网络生成

目前很多主流的公司都有自己AutoML的解决方案，例如Google,Microsoft，国内的第四范式。其中部分项目是开源的，大家可以上github了解

图：微软Neural Network Intelligence

图：微软NNI提供提供的主要算法

Refference

Quanming Y, Mengshuo W, Hugo J E, et al. Taking Human out of Learning Applications: A Survey on Automated Machine Learning[J]. 2018.
Pham, Hieu, et al. "Efficient Neural Architecture Search via Parameter Sharing." arXiv preprint arXiv:1802.03268 (2018).

[LBS]工业界ETA应用及滴滴WDR技术

介绍

最近几年共享经济比较火，也出现了很多成功的共享经济企业，而共享经济中比较成功的模式大部分都围绕着共享出行展开业务，例如Uber，Lyft，中国的滴滴，以及近两年遍地开花的共享单车公司（虽然现在部分共享单车的业务已经在停滞或萎缩）

与此同时，很多关键技术也随着共享经济的发展而被重视起来。像MM(Map Matching)[10]，RP（Route Plan），Navi（Navigation）以及ETA（Estimation Time of Arrival），这些都是LBS中比较基础同时比较重要的关键技术，无论是共享单车，出租，快车，顺风车等在进行调度，收费定价的时候，都会涉及这些关键技术。

本文就向大家专门介绍其中的一个关键技术：ETA，内容包括： ETA是什么？为什么重要？常用ETA技术有哪些，有哪些优缺点，以及现在up-to-date的ETA技术实现细节及效果。特别会重点介绍目前滴滴已经公开发表的WDR模型在ETA上取得的成果

P.S. 本文不会透露滴滴出行内部仍在进行的项目及对应数据，涉及到的技术细节及数据均已通过论文，或者PR文对外公开发表

图：滴滴ETA（接驾ETA以及送驾ETA）

ETA是什么

从业务的角度讲，ETA就是预估一个行程中，从出发时间到到达时间的时间差，例如滴滴快车中预估到达时间，或者高德导航中规划路线行驶所花的时间

图：高德ETA(2：整体路径规划时间预估)

从技术上，我们可以将ETA的一次调用，看成是一次query，每个query的内容为：<o_i,d_i,s_i>，表示第i个请求o,d,s分别表示起点位置(original)，终点位置(destination),起点时刻，ETA需要给出的就是t_i = e_i - s_i，其中e_i为行驶到终点的时刻

ETA问题看似很直接，但现实中需要准确预估ETA却非常有挑战。挑战主要来自于以下几方面：

时空维度上数据较为稀疏：因为需要预估的物理世界的数据，在时空维度上非常稀疏，虽然滴滴对外宣称每天有近3KW单的订单，但这些订单所产生的轨迹，也不足于充分覆盖时间+空间的路网数据。例如光北京的路网link数就有超过1Million，而从时间的维度，每2分钟发布一次路网交通状况，全天时间维度上有720的时间切片，故时空维度仅北京市共需发布约2亿个发布值，轨迹数据覆盖会非常稀疏。
存在较多突发局部事件：且很多时候还存在较多不确定性，例如突发性的车祸，或者交通灯损坏，修路，交通管制，等都会导致路网历史信息失效。

数量较少但影响全局的事件：而碰到节假日或者恶劣天气，整个物理世界的交通也会从系统层面恶化导致预测算法整体失效

为什么重要

但ETA又是一个很基础的关键技术，其应用场景非常广泛，例如路径规划中用来寻找时间最短的行驶路径，分单，定价，拼单等场景都依赖于ETA。其准确性会直接影响到整个共享出行平台的效率，举几个例子：

体验：选定一条路线后，起终点的预估时间不准确，会直接影响用户对平台的信任，特别是很多时间敏感场景，例如赶飞机
计价：很多共享出行平台都会在计费的时候引入行驶时间，ETA不准会导致计价预估不准，如果是事前一口价等策略，则可能导致平台亏钱
调度：例如拼车场景，ETA不准则会导致拼成率大打折扣，影响用户体验，口碑及平台，司机收益

因为上述ETA的基础性&重要性，目前滴滴每天的ETA调用次数超过40 billions次（数据出处：https://outreach.didichuxing.com/tutorial/kdd2018/）

WDR模型

传统方法主要分为两类：

route-based method: 该类方法将route 的ETA问题分解为 subroute+crossing的子eta问题。其中subroute为待预估的<o, d> route的子route，一般地图行业叫link，为表征地图路网的最小单位，长度为数米到数百米不等，crossing为交叉路口，交叉路口因受到交通灯等的影响，故单独抽离出来。该类方法一般可以作为ETA的baseline，来评估复杂ETA算法的效果。该方法的优点就是计算比较直观，简单，而且具有很强的可解释性，出了问题后容易分析定位。缺点也很明显：时间空间上数据覆盖较低，误差容易积累，因为没有用上道路，时序，个性化等特征，故效果有提升空间。具体参见图：route-base method方法示意
另一类算法我们称为data-driven method，例如在预估<o, d>的ETA时，可以使使用neighborhood-based的方法找到相似的轨迹时间进行加权来计算ETA[5]，类似于推荐问题（具体参见图：neighborhood-based方法），该类问题的缺点仍然是时空上的覆盖较为稀疏，比较适合车流量较大，速度相对均衡的高速或者快速路。例如，在公开的‘Shanghai Taxi Data’上，虽然后超过3亿个点的记录，但仍然有50%的道路没有被任何轨迹覆盖，且该数据还没考虑时间维度，并且在时间维度上，高峰期和平峰期的数据分布也不一样

图：route-base method方法示意图

图：neighborhood-based方法

在解决ETA问题的同时，也会衍生出来不同分支的子问题，例如比较重要的一类问题是：我们不仅需要预估具体route的eta，同时需要预估对应eta的概率。应为有些场景我们并不需要最短的eta，但需要时间预估最准确的eta，例如赶飞机火车的场景，一条预估50分钟的路线并不比另一条1小时的route好，如果后者的预估置信度比前者高很多的话。该类问题可以参考[7]

而比较up-to-date的方法是使用模型来解ETA问题

问题定义

使用传统机器学习的概念，可以将ETA问题定义为regression问题，即每条sample为给定<o,d,s>以及该sample对应的特征，将问题建模成回归问题，使用模型来回归具体的ETA值

特征

传统的route-based方法及data-driven方法仅使用计算的路网的traffic特征来计算ETA，该处的traffic仅指具体子route（或称为link）的通行速度（或者对应的通行时间，因确定route后，route长度固定，故通行速度和时间可以相互转换）。

Traffic特征是计算ETA极其重要的特征，但在计算ETA的过程中，我们能够获取到更多更丰富的特征来提升ETA预估的准确性。route-based方法和data-driven方法的问题是很难直接使用这些特征，但复杂模型却能够使用这些特征提升模型的效果。这些特征包括：

空间特征spatial information：包括<o, d>路线之间经过的link序列，交叉路口序列(intersections)，经过的红绿灯信息，走过的（拥堵）POI等
时间信息(temporal information)：例如当前时间的月份，是一年中的第几天，周，小时等；以及根据历史信息计算出来是否为早晚高峰or非早晚高峰，是否节假日等；这些特征可能需要经过预处理才能得到，甚至需要将时间信息映射到频域，找出频域特征后引入模型（参见后续博文：《LBS时空特征的提取技术》）
路况信息(traffic information)：每两分钟发布一次全网（路网中所有link）的通行速度，该通行速度作为该2分钟时间片内全路网通行能力的重要描述。该路况信息在ETA的计算过程中比较基础也至关重要，发布路况的准确性会直接影响最终ETA的预估准确性，而且根据该路况信息，即可使用route-based方法计算出baseline的ETA。
另外路况信息发布是否准确也是一大挑战，因为在时空维度下，经过每个 link的轨迹数也比较少
个性化信息(personalized information) 包括driverid, 乘客id以及汽车相关的属性
其他特征：例如天气特征等，该类特征对大盘的影响相对较少，但对用户体验影响非常大，例如下雨天，整体路网的拥堵程度会大幅上升，但下雨天的占比相对较少，导致模型不一定能学出该规律，但异常天气下如果ETA不准，又会极度影响用户体验，故最后可能需要使用一些特殊逻辑进行定制处理

优化目标

模型候选的优化目标可以是MAPE,MAE,MSE等，考虑到预估偏差的大小对用户感知体验的影响，与行程本身的时长有关，故前期在提升模型总体效果的时候，离线模型使用MAPE作为优化目标。在模型基础能力提升到一定程度后，主要考虑用户体验影响较大的极端CASE时，会同时兼顾异常CASE率，对模型效果进行评估。

其中MAPE定义为：

模型

如，‘问题定义’部分所述，问题一旦定义成regression后，即可使用传统回归模型进行解决。

近些年深度学习比较火，所以在有足够数据，足够计算资源，对效果又有较高要求的场景，一般都会使用的深度学习来解决。相较之下，传统的浅模型就没有那么高端了，但这些模型在特定的场景，仍然会是比较好的选择。例如我们在使用模型预估当前的路况状态（行驶道路的状态：畅通，缓行，拥堵）的情况下，使用GBDT仍然会是比较好的选择，一则我们的Ground Truth较少，目前主要还是通过人工标注获取，另外则是我们的应用场景需要有较强的可解释性，否则收到用户或者业务方的投诉case时，很难进行分析解释。

在ETA场景中，浅模型和深度模型的特点如下：

浅模型

传统效果较好浅的模型有gbdt, fm，这两个模型各有优缺点， gbdt上手比较方便，且能够直接处理连续值，能够自己进行特征选择与组合，但gbdt很难处理特征量较大的场景；fm的效果依赖于特征的表达，表达能力有限，对于滴滴的ETA，我们能够获取海量的训练数据，且从加强表达能力的角度考
虑，深度学习会更胜一筹

图：Wide&Deep模型示意

深度模型

常用的深度模型很多，而且各自有适合自己的优缺点和应用场景，而现在的趋势是构建复杂网络，在复杂网络模型中，结合浅模型和深度模型的优点，最大化提升预估效果，比较经典且在工业界落地的方法是GooglePlay App推荐场景使用的方法，参见《Wide&Deep Learning for Recommender System》，该方法使用线性模型作为Wide部分进行exploitation，而使用Deep部分进行exploration

Wide&Deep两部分的作用如下：

Wide部分为线性模型，将特征映射到较高维度空间；一般具体的特征会先进行交叉（也相当于在线性模型中引入部分非线性特征）；Wide部分主要作用是做memorization，可以充分exploit历史信息，具有较强的可解释性，并且效率较高
Deep部分：将高维特征映射到低维的dense特征（进行embedding），之后进行concate。 Deep部分主要是进行exploration；embedding相当于从已经出现过的数据中学习feature的co-corelation，deep部分更倾向于多样性进行explore

但在滴滴ETA场景，我们引入了世界序列模型LSTM，因为传统W&D方案存在缺点：每个sample的feature必须要对齐，但对于给定<o,d>pair对应的route中，组成route的link数量不一样，一般起终点间距小则link数量会少，反之则link数量会比较多，这些link自身的属性可以作为强特征，对最终ETA的效果影响较大，但传统W&D模型在使用的时候，因为不能处理变长的link序列，故模型很难用到link的local，而只能用到这些link的统计信息，故需要引入额外的网络结构来学习这些local信息；此时时间序列模型能够处理变长输入，故是较好的选择。

所以很自然地在W&D模型基础上增加LSTM结构来adopt local的link序列信息，最终形成滴滴ETA使用的WDR模型

图：WDR模型，其中Wide部分既有dense特征也有sparse特征；而Deep部分的Sparse特征需要首先使用embedding方式转为Dense特征，之后进行Concatenation

说到这里简单岔开一下，我们在进行特征设计，或者模型网络结构设计的时候，背后都是有容易理解&解释的Philosopy的：W&D的思路是使用Wide部分进行Memorization，以便对历史信息进行exploitation，使用Deep部分寻找特征之前潜在的Co-Correlation，对特征进行exporation，而R（LSTM）部分则是为了处理W&D处理不好的link边长序列。

在具体实现过程中，线性部分一般会先做特征交叉；Deep部分会先将稀疏特征使用embedding方式转成dense特征，lstm部分则在输入link序列后，使用最终的hidden status输入值最后一层，作为最上层regression

评测方法

在评测模型的时候，我们首先对数据进行了预处理，移除了异常的trajectories, 例如travel time < 60s 或者speed>120km/h的trajectories；之后我们使用3个月的数据，并分接驾数据(pick-up)和送驾(trip)数据分别进行模型训练，并将接下来两周的数据按时间维度分为两份，分别作为验证集合(validation)和测试集(test)评估模型效果

指标

离线使用MAPE（之前提总体乘坐时间越长，偏差的容忍就越长）在线则同时使用MAPE, APE20, bad case率对模型效果进行评估，其中: APE20表示absolute error 小于 20%的case的占比，而相反地，bad case 率定位为预估偏差大于50%，或者大于180秒的case，该指标用于衡量bad case出现的概率，控制极端误差case对用户体验的影响

效果

此处仅给出送驾段MAPE衡量的模型效果，现实中送驾段MAPE能从baseline的15.01%降低到WDR的11.66%，而WDR效果可以比GBDT好2.5%.

其中WDR的R部分，在送驾段能带来1.77%的MAPE收益，可见将local的link信息使用时间序列方法引入模型，能够带来较大的效果提升。

当然，在算法需要上线时，还需要考虑线上服务的性能，故我们还尝试了另外一种更高效的基于Attention机制的深度网络，以后再向大家介绍。

参考文献

《2017年滴滴出行平台就业研究报告》
Gers, Felix A., Jürgen Schmidhuber, and Fred Cummins. "Learning to forget: Continual prediction with LSTM." (1999): 850-855.
Cheng, Heng-Tze, et al. "Wide & deep learning for recommender systems." Proceedings of the 1st Workshop on Deep Learning for Recommender Systems. ACM, 2016.
Wang, Zheng, Kun Fu, and Jieping Ye. "Learning to Estimate the Travel Time." Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. ACM, 2018.
Wang, Hongjian, et al. "A simple baseline for travel time estimation using large-scale trip data." Proceedings of the 24th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems. ACM, 2016.
Wang, Yilun, Yu Zheng, and Yexiang Xue. "Travel time estimation of a path using sparse trajectories." Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2014.
Asghari, Mohammad, et al. "Probabilistic estimation of link travel times in dynamic road networks." Proceedings of the 23rd SIGSPATIAL International Conference on Advances in Geographic Information Systems. ACM, 2015.
https://outreach.didichuxing.com/tutorial/kdd2018/
google官方wide&deep实现：https://github.com/tensorflow/models/tree/master/official/wide_deep
map-matching:http://www.semocean.com/lbs%E5%9C%B0%E5%9B%BEmap-matching%E6%B5%81%E8%A1%8C%E7%AE%97%E6%B3%95%E5%8F%8A%E5%BA%94%E7%94%A8/

更多内容也可参见: http://www.semocean.com

百度关键词搜索推荐系统交互流程

如果把百度凤巢系统比作商场，那这个商场的主要商品是什么？答案就是‘流量’，而关键词，就是流量对广告主最直观的表现载体。

客户想要在百度上做搜索广告，就需要找到能够准确描述自己推广意图的关键词集合；但另一方面，目前百度凤巢系统拍卖词接近10亿，百度每天有PV关键词约数十亿。从这些词海中淘出优质关键词，无论对于客户本身，还是为客户打理账户的客服而言都是一大挑战。
此时百度关键词搜索推荐工具（KR）就显现出它的重要作用。
那KR到底是什么呢？顾名思义，KR（Keyword Recommendation缩写）就是百度向客户推荐关键词的工具。当然，KR不仅提供诸如被动，主动，按URL，按行业等推荐形式为客户推荐个性化关键词，同时还提供像种子词，种子URL，Suggestion等引导提词技术；另外KR还提供客户账户诊断优化服务，一方面优化客户账户结构，提升客户提词，账户管理效率，同时也达到提升客户消费，提升百度凤巢系统整体消费的功能。

因为该工具是提供给百度广告主使用的，所以在网络上没有直接的入口，需要再www2.baidu.com上注册帐号后，找到‘关键词工具’后进行访问。

百度关键词搜索推荐交互

以下为关键词工具使用流程：

广告主进入KR入口（www2.baidu.com）中有多个入口，此时KR会根据广告主在凤巢中的历史操作行为，为其推荐种子关键词，广告主可以直接点击种子关键词进行搜索（种子关键词主要是面向对KR使用不熟练的客户，对他们的使用进行引导，百度搜索框也没有该功能，该功能为KR独有）；之后网民可输入搜索搜索query获取和该query字面，语义相似的关键词，同时系统会返回和这些关键词相关的属性。然后用户可以对关键词进行筛选及分组（系统会提供多种分组建议）

图：百度关键词搜索推荐系统交互示意图

同时KR也提供传统推荐的方式为广告主推荐关键词。就是根据客户历史提词行为，使用SVD，图关系挖掘等协同过滤技术直接将结果推荐给广告主，广告主无需有任何交互输入，直接进入提词页面就能看到结果。

搜索系统策略架构

百度关键词搜索推荐系统（KR）不仅提供典型的推荐服务，即不搜既得，同时也提供搜索功能，即用户输入关键词进行搜索，KR推荐出与该关键词最相关的top n 关键词，这些关键词不仅附带有容易理解的推荐理由（表明该关键词为何推荐出来），同时附带有关键词的各种属性（例如关键词在百度上的流量，竞争激烈程度等信息），同时对关键词按照字面，语义进行聚类；推荐出来的关键词默认已按照字面，语义相关性及marketing rule进行了排序。以下为KR搜索过程online部分的策略架构（offline部分涉及较多数据挖掘逻辑，参见之前的文章介绍）

其中最底层为各种基础数据及这些基础数据经过预处理，清洗后的存储，以及基于这些过程的挖掘数据。当用户发起一次请求时，系统会经历以下主要步骤：

关键词触发：根据经典的字面进行触发以及语义，同购关系及复杂图关系的挖掘数据，触发出推荐关键词的候选。对应到百度搜索引擎上，该步骤就是query改写变换及文档的检索。
相关性准入：考虑到后续的过滤步骤，触发的关键词量一般需要比最终需要的关键词数量多以保证召回。此时需要对这些候选关键词进行相关性过滤。例如使用GBDT模型进行二分类：相关 or 不相关。
audit：推荐出的关键词可能涉及黄赌毒，为避免风险，这些关键词需在推荐时尽早过滤。搜索引擎上，也需要对一些黄赌毒反内容进行过滤。
ranking：为提升KR推荐的效率，使用提词率模型，效用模型及价值模型对剩下的候选关键词进行排序，同时需要根据应用场景对关键词进行过滤（例如用户有pv过滤需求，则需要将pv值小于阈值的关键词过滤）；对应到百度上，最重要的技术就是ctr预估及质量度。
marketing rule：此处集中了人工干预的逻辑，例如：假设某个时间段需要KR推荐该消费的关键词，此时可以在此处增加逻辑对候选关键词队列进行重排序；或者对于某些bad case进行过滤。搜索引擎上也需要有该逻辑层，以便最快速度对结果进行人工干预。
UI：关键词的展现，以及保存等功能，同时包含传统推荐系统的正负反馈信息收集，反馈等机制；以及KR独有的关键词分组功能，信息筛选功能等。对应到搜索引擎上就是前端的展示。

主动推荐策略架构

KR中的主动推荐，就是传统的推荐技术在百度关键词搜索推荐中的应用。所谓主动，是针对KR而言的：关键词，广告主无需发起交互操作，KR即使用传统推荐技术： content-based， collaborative filtering及多种技术混合的hybrid filtering方法向广告主推荐结果。

以下为KR主动推荐的策略架构，一方面KR使用网民搜索日志，点击日志，广告库数据构建item候选集合，另一方面系统收集广告主的反馈（explicit or implicit）构建user profile，之后基于这些信息使用推荐算法向客户进行推荐。如果说KR中的搜索功能是即搜即得， 那么主动推荐就是不搜即得。

图：百度关键词搜索推荐系统主动推荐策略架构

按网页内容进行推荐

百度凤巢广告主都有自己的推广网站（或主页），而要达到较好的推广效果，广告主应该提交与网页相关性较高的关键词，否则即使广告主因为提交了一个高PV的关键词导致来到网站的流量较高，也会因为内容与关键词不相关而导致转化较低而得不偿失。

KR为此提供了按URL进行推荐，即广告主在KR搜索框中输入某一个网址（例如semocean.com），则KR会抓取该网站并分析其中的主题词进行推荐，以下为主要的策略流程。

图：KR按URL推荐策略处理流程

每一种KR推荐算法，或者做一个延伸：每一个商业搜索引擎中，都会包含以下几个模块：触发，相关性过滤，rank，marketing rule。

其中触发是根据输入，找到一个相对较大的候选集合，之后的所有排序过滤都是针对该集合的(在学术界使用的数据；例如搜索引擎中，根据网民输入的query，进行简单的字面语义匹配后，找到潜在的候选集合作为后续处理的对,又例如在学术界使用的LTR任务的开放数据LETOR中，直接使用BM25进行校验，筛选出相关性较高的top N进行后续的ranking实验；之后对返回的结果进行相关性过滤及排序，最后根据一些业务规则进行强制过滤及重排序，包括黄赌毒反动内容的过滤，或是某些特定的人工干预。

图：KR搜索推词逻辑

百度关键词工具介绍参见：http://support.baidu.com/product/fc/4.html?castk=24b18bi7062c720d0d596

adaboost

使用机器学习方法解决问题时，有较多模型可供选择。一般的思路是先根据数据的特点，快速尝试某种模型，选定某种模型后，再进行模型参数的选择（当然时间允许的话，可以对模型和参数进行双向选择）

因为不同的模型具有不同的特点，所以有时也会将多个模型进行组合，以发挥‘三个臭皮匠顶一个诸葛亮的作用’，这样的思路，反应在模型中，主要有两种思路： Bagging和Boosting

Bagging

Bagging 可以看成是一种圆桌会议，或是投票选举的形式，其中的思想是：‘群众的眼光是雪亮的’，可以训练多个模型，之后将这些模型进行加权组合，一般这类方法的效果，都会好于单个模型的效果。在实践中，在特征一定的情况下，大家总是使用Bagging的思想去提升效果。例如kaggle上的问题解决，因为大家获得的数据都是一样的，特别是有些数据已经过预处理。

以下为Data Mining Concepts and Techniques 2nd 中的伪代码

基本的思路比较简单，就是：训练时，使用replacement的sampling方法， sampling一部分训练数据k次并训练k个模型；预测时，使用k个模型，如果为分类，则让k个模型均进行分类并选择出现次数最多的类(每个类出现的次数占比可以视为置信度)；如为回归，则为各类器返回的结果的平均值。

在该处，Bagging算法可以认为每个分类器的权重都一样。

Boosting

在Bagging方法中，我们假设每个训练样本的权重都是一致的；而Boosting算法则更加关注错分的样本，越是容易错分的样本，约要花更多精力去关注。对应到数据中，就是该数据对模型的权重越大，后续的模型就越要拼命将这些经常分错的样本分正确。最后训练出来的模型也有不同权重，所以boosting更像是会整，级别高，权威的医师的话语权就重些。

以下为Data Mining Concepts and Techniques 2nd 中adaboost伪代码：

训练时：先初始化每个训练样本的权重相等为1/d d为样本数量；之后每次使用一部分训练样本去训练弱分类器，且只保留错误率小于0.5的弱分类器，对于分对的训练样本，将其权重调整为 error(Mi)/(1-error(Mi)) ，其中error(Mi)为第i个弱分类器的错误率（降低正确分类的样本的权重，相当于增加分错样本的权重）；

与测试：每个弱分类器均给出自己的预测结果，且弱分类器的权重为log(1-error(Mi))/error(Mi) ) 权重最高的类别，即为最终预测结果。

在adaboost中，弱分类器的个数的设计可以有多种方式，例如最简单的就是使用一维特征的树作为弱分类器。

adaboost在一定弱分类器数量控制下，速度较快，且效果还不错。

我们在实际应用中使用adaboost对输入关键词和推荐候选关键词进行相关性判断。随着新的模型方法的出现， adaboost效果已经稍显逊色，我们在同一数据集下，实验了GBDT和adaboost，在保证召回基本不变的情况下，简单调参后的Random Forest准确率居然比adaboost高5个点以上，效果令人吃惊。。。。

Bagging和Boosting都可以视为比较传统的集成学习思路。现在常用的Random Forest，GBDT，GBRank其实都是更加精细化，效果更好的方法。后续会有更加详细的内容专门介绍。

参考内容：

Data Mining Concepts and Techniques 2nd

Soft Margin for Adaboost

也可关注我的微博： weibo.com/dustinsea

或是直接访问： http://semocean.com