在高德吃喝玩乐！LBS信息的AI技术应用

还是先插个招聘信息：急招推荐，搜索，语音算法，数据挖掘，工程人才，阿里P5~P9，欢迎推荐和自荐，微信扫码关注以下二维码了解详细信息

以下才是正文。。。。

从毕业步入职场到现在10年多的时间，就一直在搞两个技术领域：搜推广信息分发以及LBS。

搜推广不用说，近十年一直都是热门的领域，另一个是LBS的技术，可以说也是深入到我们生活的方方面面。过去既做LBS的信息分发，也做底层的实时路况，ETA以及RP算路，甚至更底层的地图匹配（或者叫抓路，绑路，map matching），目前，更多在做人地关系大数据，以及基于LBS的搜推广。相当于将两个领域结合到了一起。

《在高德如何吃喝玩乐！LBS信息分发的AI技术应用》就是团队的工作在高德技术开放日进行的介绍，感兴趣的同学可以在抖音，B站等平台观看交流。具体B站的链接视频，参见‘阅读原文’

对于地图平台，无论是高德地图还是百度地图，腾讯地图，现阶段心智最强的功能还是出行。而在整个出行的用户交互过程当中，用户首先需要进行定位，确定自己所在的位置，然后进行POI的搜索，确定要去的目的地，之后就是怎么去的问题？包括路线规划导航ETA等相关技术。

随着地图平台的定位由出行工具逐渐转成吃喝玩乐相关的LBS本地生活平台，信息分发的范畴也在扩展：从原有的POI搜索，展到了交易的分发以及广告的分发。

同时，这个过程当中需要有非常多的内容的理解，包括文本，语音以及视频内容的建设。具体参见：ID+图像特征联合训练CTR模型

同时，分发的手段也有更多的扩展，由原来的搜索，扩展到推荐以及语音的更多的交互方式。包括搜前，搜中，搜后，语音主动提示等多种交互方式，和用户进行信息的交互。（完整的工业级搜索+推荐用户交互机制实现参见：关键词推荐工具中的用户引导机制）

同时，分发的形态，也由原来的单纯的POI list，扩展到视频，聚合榜单的更加丰富的模式。

对应的工作也包括最底层的数据建设，上层的引擎平台的建设，通用算法策略的建设，以及业务的定制。都是非常复杂的过程。

在这个过程当中，也会用到非常多机器学习相关的算法模型，当然，我们要时刻意识到，机器学习模型只是整个业务逻辑很小的一部分，虽然它起着无可替代的重要作用。

LBS的搜推广和传统的信息分发最大的区别，就是他会有很强的空间，时间的划分属性。

在LBS场景，每一个区域，或者每一个POI，都可以看成他是一个个的局域网，这些局域网之间其实是没有非常强的关系的，例如一个云南的用户，可能从来也不会去一个天津的饭馆吃饭，因为地域天然将这两个要素隔离开。这和淘宝的信息分发是有本质的区别的，在淘宝上，一个云南的用户和一个天津的用户可能都会买同样一个商家的，同样一个商品，而且几乎代价是没有区别的。

因为地域，或者距离的差别，就会导致LBS的信息分发和传统的信息分发有本质的区别，这样就衍生出非常多的LBS信息分发独特的技术。

例如POI的别名挖掘，如何挖掘同一个地点的不同的别名。以及反过来如何挖掘不同地点，有相同名称的POI，都是特有的结合LBS空间挖掘的技术。

同时，我们会依赖于用户的搜索，点击导航路线规划以及位置信息，去使用定制的序列模型挖掘用户的行为序列信息，去做更准确的用户个性化定向。

在地图场景，需要主动给用户展示信息的入口/场景非常多，而且不同的入口有不同的产品形态和定位，如果对每一个入口都定制一个推荐模型，那维护的成本是非常高的；同时，不同入口的信息无法共享，所以我们也是用了多任务的模型，对不同入口的推荐算法进行统一的建模。（具体ctr预估参见：推荐系统，变现系统CTR&CVR预估算法演进－模型）

而且在地图场景，我们使用了丰富的LBS数据，却对用户的时间，空间，行为进行预测，例如，用户接下来会去的地点，区域和城市，并且取得了显著的效果。

这个领域的工作非常多，也非常有意思，而且LBS本地生活是非常重要，非常有前途的一个领域，也是目前各个大公司重兵投入的兵家必争之地。如果大家感兴趣，请联系我进行高德岗位的内推。

real-time personalization using embeddings for search ranking at airbnb

内容简介

搜索排序和推荐系统在类似于网页搜索内容发布等场景都是比较重要的技术，但是很难有统一的技术能够适用于所有的场景。
在爱彼迎的场景中，需要同时满足商家和用户的偏好需求。而且在特定的时间，一个民宿只能接待一位客人。
文中使用embedding技术对list和用户进行建模，以便用在搜索和推荐中。这两个频道带来的转化占了99%以上。并且能做到实时的个性化。从离线和在线的ab test效果都验证比较好。

intoduction

随着数据的增长继续学习，在搜索和推荐中的个性化应用都比较成熟，有很多的发展。有些集中在engagement的优化，有些集中在购买的优化，有些则集中在双边的优化。例如像租房行业中的airbnb打车行业中的uber,都会涉及到供需双方的满足。
airbnb需要满足双边的供应和需求双方包括说客人的预计定酒店地点，日期以及说酒店的一些要求，比如容忍的客户数,是否有宠物,要把不匹配的酒店放在比较低的排序位置。
最后使用的方法是将问题建模成pairwise排的问题,并使用lambda rank方式实现。
在爱彼迎的场景中，一般用户有需求的时候都会在同session中搜索多次,所以我们可以个性化的向用户推荐同一session中用户可能喜欢的item,以及将排序比较高的推荐出来,但没有被点击的item作为负例。
方法:
在具体实现的时候，使用用户有过交互的item作为trigger，使用搜索session的数据训练word representation,并计算与trigger item的相似度,以便在搜索和推荐中作为排序similarity的度量。
兴趣建模方式

使用用户近期点击行为作为用户短期的兴趣偏好
使用用户预定的行为作为用户长期的偏好
因为用户预定的行为会比较稀疏，所以将用户映射到群体使用规则的方式
User和item都映射到同样一个向量空间，以便计算其相似度

文章的贡献

实时个性化:传统的方法是离线计算好user 2 item或者说item 2 item的内容，之后在线去拉倒排，本文使用的方法是将用户即时的交互item embedding化，然后再去查相似的item。做到实时个性化
适应具有聚集性的数据的训练模式:在短租市场中，用户一般是在特定的时间，只针对特定的区域有需求，故在训练的时数据的负样本选择需要具有区域性聚集
将转化作为全局的内容
用户类别embedding:很多文章对每一个用户进行一个embedding，但是在短租市场，用户行为非常稀疏，故将用户的类别进行embedding
将用户拒绝作为负例

方法

文中将embedding分成两种，一种是用户实时短期item的embedding，另一种是user type和item的embedding，表征长期实时兴趣。

相当于优化每个session中每一个item对应的上下文的概率最大化。

此处的概率是用softmax来表示。
note:以上公式中，m为前后上下文的窗口长度，V为字典大小。使用以上方式，得到的li的representation，在session中越相似，则距离约近。
此处V表示id数量较大，所以使用随机负采样方式来降低数量提升计算的速度。
负采样：
负采样的方法为，使用click和对应session中的上下文作为positive pairs(c,l)，以及click和随机采样的上下文作为negative pairs(c,l)进行模型训练。以下为对应的优化目标，其中Dp为positive pairs集合，Dn为negative pairs集合。

将session分为两种

第1种是以完成订单预定的session, booked session
第2种是有点击，但没有预定的session，exploratory session
为了让预定作为一个全局的上下文，在每一个booked session中的样本，都强制将预定的item作为结束的item。

对于exploratory session，则优化目标仍然为公式（3）
Adapting training for congregated search:
以上公式的random sampling会导致random sampling出来的负样本都是和本次搜索地域不一致的结果，最终导致模型学习出来的是区域之间的相关性，为了解决该问题，增加对同区域结果的sampling

上式中Dmn为在l的同区域中sampling出来的结果

冷启动

新加入的店面没有embedding，此时我们会用距离内的相似民宿的中心点来进行表示，比如说找到半径10英里内，相同price以及相同房型等其他属性相同的三个embedding，然后做一个平均，来表示新的民宿的embedding作为冷启动。用该方法能够覆盖98%的new item。

embedding效果的检验

使用围围度为32的embedding进行表征，发现地理位置的聚类关系的确编码进去了，同时房型价格的信息也编码进去了。

user-type & listing-type embeddings

目的是捕捉用户的长期兴趣。但是存在以下几方面的挑战:

数据较为稀疏。
很多预定的session长度为1，没法学习。一般出现5~10次才能学习出来。
用户预定的间隔很长，可能偏好已经改变了。

具体的实现方式为将用户按照meta信息进行聚类分为人群，将listing/item按照meta信息进行聚类，按照聚类后的群体构建预定session进行训练。相当于学习的对象由原来的list_id，变为list_type
用户的长期兴趣可能会改变，故在具体学习操作的时候，将user和listing映射到同一vector space中进行学习。

构造(u_type1,l_type1)的用户群体，listing群体的点击session，之后进行训练，即可将user和listing映射到相同vector space中

模型训练

以30分钟作为一个session进行模型训练
去除无效的点击，例如点击后在页面时间较短的点击
将session处理为同时包含booking&EXPLORATION的session形式

评估方式

给定用户最近的点击，以及待排序的candidate, 看最终被预定的item是否能够被排上来

线上使用的方式，为使用GBDT模型进行特征组合，使用user, listing embedding构建各种特征进行模型训练

reference

原论文参见：

https://pan.baidu.com/s/1R8xeb0iRq089myl3oXJlZA 提取码:1j9n
更多内容参见： www.semocean.com
P.S. 急招推荐，搜索，语音算法人才，阿里P6~P8，欢迎推荐和自荐，简历请发至 haibo.lihaibo@alibaba-inc.com

GITC演讲-滴滴路况感知AI及应用

背景介绍

第三次受邀作为嘉宾参加GITC人工智能方向的演讲。前两次的演讲题目都和推荐和变现相关。因为现在在滴滴负责地图感知AI团队，所以这次介绍的内容主要和地图AI相关。

地图与推荐&变现AI技术差异

地图中设计到的AI技术与推荐&变现既有相同的地方，但也有很多的不同。

地图是一个整体上环节较多的复杂问题，整个地图系统中涉及到数据采集，生产，更新；中台的各种数据引擎；以及最终的地图应用。而且在涉及到数据生产的过程中会更像传统行业的生产过程，会涉及到较多的生产工艺保证数据质量，如果数据质量上不去，后边的算法效果就无从谈起；同时整个地图产品中涉及到的环节较多，包括底层的物理世界感知，例如定位，地图匹配，实时路况或者路况预测；作为引擎的路径规划（route planing），ETA，上层的导航等，均是环环相扣，某个环节没做好，可能都会导致最终效果较差。同时地图还存在另外一个较大的问题：效果不容易评估。

而相较之下，变现或者推荐反倒是一个相对单纯的问题，所有的数据，包括内容数据，用户反馈数据均形成闭环，而且相对来说也较为容易评估

演讲内容

地图中AI的使用场景非常多，例如定位，地图匹配，实时/预测路况，上下车点，ETA，路径规划等。这次演讲的内容主要集中在地图感知AI。什么是地图感知AI？说的简单一点，就是我们如何通过大规模的预采集数据，以及用户反馈数据，来感知物理时间中发生的和交通相关的状态和事件。该方向涉及到的环节也非常多，故这次演讲主要集中在底层的地图匹配和实时路况/路况预测两个方向。

图：地图感知AI技术：定位，地图匹配，（实时/预测）路况

地图匹配（Map-Matching）

图：基于隐马尔科夫模型的地图匹配（Map-Matching）

目前业界比较流行的地图匹配的算法来源，基本的思路都来自于微软09年发布的基于马尔科夫地图匹配算法。该算法的基本思路是将GPS点匹配某条候选道路的概率，拆解为发射概率（观察概率）与转移概率的组合。具体参见博文《LBS地图Map-Matching流行算法及应用》

该方式的优点是模型相对简单，且在很多场景均能够取得较好的效果。但缺点也很明显：该算法很难进一步融入更丰富的特征，例如GPS的精度，候选道路的属性等，以及运动信息（例如速度是否超过限速信息）

所以后来Map-Matching提升效果的思路逐渐演变为融合多维信息，而最直接的方法就是使用Shallow模型进行学习。

图：浅模型Map-Matching算法

路况预测

该方向一般一开始的做法，也是性价比最高的做法，都是快速根据专家的经验，使用规则的方式将效果快速做上去，因为现实物理世界情况太多，而且很多时候是只要某个因素发生的时候，就能够确定现实物理世界发生的情况，但该情况覆盖的CASE却不多。所以一开始使用规则的方式，一方面性价比比较高，另外一方面也能够让我们把问题分析理解的更透彻，例如现实世界可能会出现哪些情况，应该使用那些规则来进行处理。而这些规则，后续很容易转变为模型的特征输入。

图：Rule-based 路况发布

所以在rule-based的算法做到一定效果后，我们就开始尝试浅模型的方法，为了保持系统的可解释性，我们选择了经典的xgboost。虽然模型并没有那么高深，但效果提升比较明显。

图：浅模型路况发布

而后续需要进一步提升效果，就需要做两方面的工作：更多高质量，信息更丰富的数据，以及表达能力更强的模型。

对于数据：GPS信息的使用虽然还有空间，但天花板已经比较明显，很难使用GPS就出现质的飞越；此处解决的思路是引入图像数据，因为图像是现实世界的绝对真实体现，信息丰富。

而从模型的角度，浅模型的缺点是很难将时间和空间关系建模进模型。解决的思路很直接：使用图卷积学习空间依赖关系，而使用时间序列学习时间依赖关系。目前该算法还在尝试中[6]

图：时空依赖模型

ETA

ETA内容在《工业界ETA技术及滴滴WDR模型》中进行介绍，故此处就不进行展开

图：DIDI WDR ETA[5]

更多内容请参见GITC发布的演讲视频，或参见PPT：滴滴地图感知AI技术及应用

参考文献

《2017年滴滴出行平台就业研究报告》
《滴滴地图感知AI技术及应用》
Gers, Felix A., Jürgen Schmidhuber, and Fred Cummins. "Learning to forget: Continual prediction with LSTM." (1999): 850-855.
Cheng, Heng-Tze, et al. "Wide & deep learning for recommender systems." Proceedings of the 1st Workshop on Deep Learning for Recommender Systems. ACM, 2016.
Wang, Zheng, Kun Fu, and Jieping Ye. "Learning to Estimate the Travel Time." Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. ACM, 2018.
Zhang, Zhengchao, et al. "Multistep Speed Prediction on Traffic Networks: A Graph Convolutional Sequence-to-Sequence Learning Approach with Attention Mechanism." arXiv preprint arXiv:1810.10237 (2018).

https://outreach.didichuxing.com/tutorial/kdd2018/

Mobvista 海外移动变现核心技术

之前受邀在QCON进行了名为海外移动变现核心技术的演讲。正好近期也在总结过去一段时间的工作，所以就直接在这儿总结了。

流量分类

Mobvista的移动变现业务，从流量侧来看，主要分三类流量：

外部Affliliates的流量，这个就是传统的买量，很多时候我们也不知道流量的来源，仅根据数据表现，以及运营人工经验评判流量渠道的好坏
Mobvista的自有流量，其实也是和开发者谈下来的流量：和开发者签订协议，将Mobvista的SDK达到开发者的app中，之后出Mobvista的广告。一般内部我们就叫该系统为M系统
程序化买量：Mobvista建立DSP，从各大ADExchange买量

Affiliates买量过程人工运营成分比较多，而DSP可以是一个专门的TOPIC，所以此处就主要介绍Mobvista的自有流量业务的挑战，以及解决方案。

挑战

移动变现，特别是国际化移动变现过程中，面临的挑战非常多，以下是主要的挑战：1，广告样式多样化：banner,appwall, offerwall, native, interstitial, native video, rewarded video。样式丰富，效果表现不一，导致要进行算法抽象，数据共享的时候存在较大挑战

2，转化路径较长：impression -> click -> install(安装激活) -> 应用内付费。。甚至impression之前的展示广告是否返回成功，SDK加载是否成功等都是问题

3，流量参差不齐，不同国家间网络基础设施也有较大差异

4，移动广告的归因方式，决定了产业中出现了较多的黑科技。这个之后值得用大篇幅进行介绍

以上这些问题，都是对算法的较大挑战，也早就叫较多算法优化点以及衍生的创收的黑科技。

技术应对方案

为了应对上述挑战，我们必须有较为完善的架构，算法解决这些挑战。以下为Mobvista变下架构，主要包含如下及部分，从左至右分别为流量侧到广告主侧

1.SDK：我们会开发SDK对开发者变现流量进行托管， SDK不仅支持IOS系统，也支持ANDROID系统，同时支持多种广告形式，包括native, appwall和video等广告样式，从功能上SDK主要负责广告分发，展现控制，缓存机制及消费空。其中自创的缓存机制配合算法，不仅能大幅减少广告请求交互，提升广告加载，展现速度，同时还能保证开发这的ECPM

2.Mobvista会对对外的API进行封装，所以提供直接的OPEN API供开发者调用。当然，一般需要配合SDK的控制机制，才能达到较高的受益

3.Mobvista同时提供完善的广告设置管理portal对广告素材，预算，展现机制等进行管理控制，方便对广告的金细化运营

4.同时系统中还有完善的实验机制及样式模板管理，方便整个系统对效果的优化

5.画红线的部分主要包括我们使用大数据平台对ECPM的模型训练及预估机制

对于模型相关的组件，在省略了工程细节后，主要是以下算法策略在系统中的重要组件。

与传统变现系统的较大差别，在于我们为了处理长转化路径问题，对模型进行了拆分，拆分为CTR预估模型及CVR模型；

同时为了解决多样性问题，我们设计了定制的优质campaign探索机制，及Mobvista的Exploration&Exploitation机制；

同时我们使用模型assabling的方法，对LR, GBDT， FM等模型进行组合，提升预估精度

Ecpm就是我们预估的目标，以下是我们对ecpm的拆解方法：其中 ctr及cvr是未知量，需要模型进行预估。

预估的方法比较直接：我们寻找优质高效特征对样本进行描述，同时使用点击和安装作为labels，之后训练模型对ctr, cvr进行预估，最后使用 ecpm = 1000 * ctr * cvr * price 的方式计算ecpm，并按照计算ecpm进行广告排序推荐

每次模型升级后会使用a/b test机制进行效果测试，选出效果最好的模型

下图为我们的模型算法框架图。

为了适应我们全球化的变现业务需求，我们的大数据机器学习平台是给予亚马逊aws云计算搭建的。

平台分为在线预估部分和离线部分，离线部分又分为日志处理及模型训练与配置模块

我们的日志具有较强的多样性及复杂性，主要体现在两方面：

1.Mobvsita流量覆盖230+个国家，故我们再多国及地区均有服务器，数据需要从多地多服务器进行快速收集汇总

2.Mobvista有多条产品线，不同产品线为适应业需求特性，会使用不同存储系统对数据进行存储，故须要从不同系统中对数据进行收集汇总，包括DynamoDB, MongoDB, 以及内部的多种API接口

数据均使用AWS EMR分布式系统进行汇总，计算机清洗。我们会使用azkaban任务调度系统周期性定时启动生成EMR平台，对数据进行处理，处理后的日志按照访问实时性要求高低分别存放在 AWS redshift和S3上。同时我们会根据数据量大小及计算任务复杂度动态调整EMR集群资源，在保证计算任务实时性要求的同时，减少计算资源浪费。并在AWS上搭建机器学习平台进行模型训练。

更多内容可以参见PPT：

QCON 2016 北京《Mobvista海外移动变现系统核心技术》

更多内容可直接访问: semocean.com

Mobvista反作弊系统实现

2017 GITC上的分享，做一个简单的记录

Adloox estimates advertisers could be wasting $16.4 billion to fraudulent traffic and clicks manufactured by bots in 2017
more than double the $7.2 billion the Association of National Advertisers estimated would be lost to ad fraud in 2016.
The World Federation of Advertisers, meanwhile, predicted last year that ad fraud will cost advertisers $50 billion by 2025, describing the malpractice as an organized crime "second only to the drugs trade."

这是沿引adloox的分析， 2017年网络作弊导致的预算损失搞到164亿美金，预计2025年将达到500亿美金，仅次于毒品交易（如果将网络作弊看成是犯罪的话）

回到流量变现，如果将其看成是一个生意，一个买卖的话，我们可以将流量侧看成是卖方，在卖流量，而广告主侧是买方，而Mobvista类似的广告平台，就是作为中间商负责分发赚差价（暂且抛开中间的定向，投放算法不说）。而作弊，我们就可以看成是在这个生意中，售卖假冒伪劣商品。

抓反作弊的思路的核心，就是分析中间存在利益作为的环节，或者叫：Follow The Money。我们可以简单的认为，作弊的动机都是从supply流量侧过来的，越接近demand侧，作弊的动机越小。而作为中间商的Mobvista，收的是demand侧，广告主的钱，所以需要保证demand的质量，否则广告主就去投其他平台了，这也是为什么各个广告平台现在都比较在意反作弊的原因。相当于Mobvista自己构建了一个质量检测体系。这个体系的价值表现为两方面：

能够保证广告主的质量，保证广告预算不丢失
保证Mobvista品牌形象，做长期生意，将生意做大

作为广告平台，Mobvista的反作弊体系主要有以下四方面构成：

Mobvista自建反作弊体系：主要是我们根据广告主的投诉，或者主动分析流量的特征制定的反作弊策略，目前引入的特征已经有20+维，覆盖点击作弊，安装作弊和安装劫持。目前覆盖了公司revenue的10%，还不包括市场上没有被抓出来的，可见市场上作弊的猖獗
和广告主合作定制的策略，例如监控event postback
另外比较重要的一类指标，就是跟进第三方监控平台的策略和指标，在我们自己的系统中实现
我们也会和一些知名的第三方反作弊服务合作，增强我们的反作弊服务，例如Distil Networks, Fraudlogix

从实现的方式上来看，Mobvista反作弊主要三种方式：

在线实时反作弊：例如实时的IP黑名单点击过滤，地域异常实时过滤等，直接就将点击过滤掉不发到demand侧。在线实时反作弊的优点是过滤及时，从数据层面广告主并无感知，也不会污染广告主的数据；缺点是能够实现的策略相对较少
离线挖掘反作弊：离线周期性按天，或者周运行反作弊逻辑。优点是有大量数据特征可供分析，而且可以做各个特征的交叉。准确性和覆盖率都比较高；缺点是这是事后的方式，可能损失已经产生无法弥补
混合方式：主要是引入了算法提供数据和建议+人工决策的方式。例如对于嫌疑比较大的CASE，算法抓出来后，并不会直接做决策，而是交由人工决策是否扣款，或者是否先不付款等

因为反作弊是和人斗的技术方向，而人有较多的创新，所以反作弊的技术不全都适合机器学习来完成，必须有较多规则。所以Mobvista的反作弊，可以认为30%模型+70%规则来实现

人与机器的行为区别

在反作弊分析过程中，也需要时刻牢记人的行为和机器行为的区别，虽然反作弊的人就是将机器算法的行为去模拟人的行为，但一般还是会有一些蛛丝马迹

人：行为有共性，符合特殊分布 vs 机器：随机
人：群体量大，个体分散 vs 机器：群体量小，个体集中
人：能力受限 VS 机器：能力不受限

反作弊的思想，就是以下两点：

以人为本
以利益为出发点进行探索，Follow The Money

以下是几个例子：

点击安装时间差异常：

机器自动抢发

ip重复安装

点击安装时间天级别异常

最终涉及到的特征会有20+维，针对不同的作弊方式，都会比较有用，会后会有文章详细介绍

完成PPT参见：《Mobvista 反作弊系统实现》

更多内容也可参见： http://semocean.com

如何使用机器学习解决实际问题-以关键词相关性模型为例

本文以百度关键词搜索推荐工具字面相关性模型为基础，介绍一个机器学习任务的具体设计实现。包括目标的设定，训练数据准备，特征选择及筛选，以及模型的训练及优化。该模型可扩展到语意相关性模型，搜索引擎相关性及LTR学习任务的设计实现。该模型的设计调研实现，也可以很容易移植解决其他包括语义相关性的问题

目标设定：提升关键词搜索相关性

作为一个搜索+推荐产品，百度关键词搜索推荐系统的产品形态是向凤巢用户推荐适合他业务的关键词。例如一个卖鲜花的广告主，他想在百度上做关键词搜索推广时，需要提交和他业务相关的关键词，而且提交的关键词需要业务相关，例如他需要提交和卖鲜花业务相关的关键词。例如鲜花快递，鲜花速递等。此时他可以在百度关键词搜索推荐系统中进行搜索查询，选择适合他的关键词。

百度关键词搜索推荐系统query搜索

这是一个典型的搜索问题，具体的从输入query，到触发，到排序等会涉及到很多因素，例如如何查倒排，如果处理地域因素等；要提升搜索的质量，我们首先需要保证输入的query和推荐出来的推荐词的相关性，此处我们要解决的主要问题，就是如何快速，准确地判断两个关键词（输入query和推荐词）的相关性，需要特别注明的是，我们主要的目标是让用户觉得该产品结果很靠谱，所以该处我们仅考虑字面相关性，更多的语意扩展该模型并未考虑。

注：该模型的调研实验实现方式，可以很容易平移到语义相关性。例如加入更多语意特征，例如plsa的bm25特征和word2vec的相似度特征（或者和扩展的相关性校验，例如将待推荐词扩展为baidu搜索结果的摘要扩展）提高语义特征的贡献。

相关性也是所有搜索问题的基石，只不过在不同的系统中使用方式不一样，在一般的搜索中，相关性占有较大权重，排序基本就以相关性为依据；在商业系统中，相关性则经常作为搜索展现的门槛用于控制商业推广结果的质量（如果仅考虑CTR，用户搜索鲜花快递时，给用户展现艳照门的结果，CTR会更高，但相关性较差）。当然，判断相关性我们可以简单使用某一种方法进行直接判定，例如直接进行两个关键词的TF-IDF计算，或是进行两个关键词的BM25。但这样的方式效果都不太理想，想要达到更好的效果，就需要使用更多特征，而更多特征很自然地，需要使用模型组合这些特征，达到最终的预期效果。

图：相关性在关键词系统中的位置

此处将会使用机器学习的方法解决该问题。本文以下内容会从数据准备，特征选择，模型选择，模

型调优等步骤介绍百度关键词搜索推荐系统如何解决该问题

数据，特征，模型

说到使用机器学习解决问题，我们经常提到的优化思路就是3方面的优化：数据，特征，模型。首先找到充足的，准确的label数据（该出仅考虑有监督学习任务，例如相关性，或是LTR），之后提取贡献较大的特征作为input space，以label作为output /ground true label，之后优化模型（Hypothesis) ）。下面会分别从这3方面对整个优化过程进行阐述

准备训练数据

训练数据的获取一般有几种方式：

人工标注：优点是质量较高，噪音较少；缺点是标注结果和标注者本身的认识相关，例如在搜索引擎中，判定苹果和手机的相关性，对于年轻人，一般都认为相关；但对于比较多的老人，可能认为不相关；另外一个缺点就是人工获取标注的成本较高
从日志中进行挖掘：优点是数据量相对更大，获取成本较低（编写几个hadoop脚本对日志进行统计）；缺点是噪音较多，例如搜索引擎中的恶意抓取访问导致的噪音数据

在相关性模型中，一开始我们使用百度关键词搜索推荐系统的人工反馈数据作为label对模型进行训练，分别提取1.5W query-推荐词pair作为正负例进行特征提取，模型训练。

如图所示，在交互上，当用户喜欢该关键词时，就会点击‘大拇指’表示该结果符合用户需求（正反馈，该query-推荐词 pair可作为正例）；如用户认为该关键词不符合需求，就会点击‘垃圾桶’，将该关键词扔入回收站（负反馈，该query-推荐词 pair 可作为负例）

在实验中，我们发现正例没有问题，不过负例中会存在较多这样的情形： query-推荐词是相关的，但该用户不做该业务，所以被定义为负例，所以负例个性化较强。所以后来我们让产品经理同学又对负例子进行筛选，重新标注1.5W负例，进行后续特征提取，模型训练。

之后我们将正负例打散后（直接使用python random.shuffle）分成10份，进行cross-validation

模型训练前，先定标准和样本

注：训练样本的挑选完全决定了我们的问题目标，所以在一开始就需要准确选择，如果可能，所有的case都最好人工来搞，或者至少需要人工review。确定没有问题后，再开展后续工作。特别是相关性类似的问题，比较主观，例如PM和RD在该问题的判断上就可能存在一定差异。

确定完训练样本，评估标准，之后再小布快跑，优化模型。

特征提取

一般特征的选择及处理会极大地影响学习任务的效果，而进行特征选择的时候，一般是先增加特征，并实验效果。对于相关性模型，我们可以先将传统的信息检索的特征加上，这些特征一般分为以下几类：

query/候选词的一般结构特征：例如query/候选词长度，term数等
query-候选词的相关性度量：例如TF-IDF, bm25, LMIR及多重变种， plsa相似度度量，word2vec语意向量相似度等；很多时候，关键词自身信息较少，还可以使用关键词在搜索引擎上的摘要扩展进行相似度度量
关键词自身在信息检索维度的重要性度量，例如关键词idf, 从语言模型方面的重要度等

在一开始的时候，我们可以先将能够想到，构造出来的特征均加入特征向量进行实验，而且每加一类特征，都可以看下该类特征对整体目标的提升程度。以便对该特征的贡献度有一个直观的感受。

以下数据可以简单看出随着特征的增加，效果的提升，其中的特征仅加不减（模型使用random forest 进行二分类）：

等到特征加得差不多，模型准确性已经提升不多的时候，可以考虑砍特征，有一种比较简单粗暴有效的砍特征的方法，就是使用树模型，就是直接砍掉特征贡献程度及特征重要性较低的特征，例如直砍掉特征贡献度为0的特征，对相关性模型的准确性几乎没有影响

特征贡献度

当增加特征已经很难提升效果，考虑到为了防止过拟合，同时考虑到模型online预测，需要对特征进行挑选。在使用树模型时，可以直接使用数节点特征贡献度和节点使用次数，判断是否需要去除该特征，以下为使用树模型进行选择特征的例子：

对于特征贡献度和分裂特征使用次数为0的特征，在调研时，直接去除对模型效果几乎没有影响，而且能提升预测的效率。

在选择特征的时候，有一些经验值得分享：

bm25特征及term weight特征对分类任务有极大贡献
一些单独的比值类特征并没有太大贡献，例如query，推荐词共同term与query term数，推荐词term数的比值，这些特征并没有太大贡献，但是这些特征与query，推荐词的term数结合到一起，贡献就非常多；所以有些特征需要联合在一起，才有较大作用。
特征选择需要和目标一致：例如word2vec是非常高大上，且非常靠谱的技术，但用在字面相关性，对目标并没有太大贡献（如果目标是语意相关，那么类似于PLSA,word2vec将会有很大贡献）
有些特征就就是用来解决特殊case的，虽然贡献不大，但需要保留（当然也可以直接设置为强规则与模型配合），例如query与推荐词拼音一致

模型选择

经典模型

最开始我们尝试了最大熵，SVM和adaboost模型，考虑到online使用的效率，最终我们选择了adaboost模型作为线上使用的模型，虽然效果不是最好的，但使用简单的weak learner构建的模型的确比较快（参见博文：《adaboost》），并且使用adaboost进行上线并取得较好效果：上线后不仅召回增加，准确性上90%的case相关性高于等于原有结果（采用非模型的版本）

评估结果分布图（2到-2分别代表扩召回结果相关性高于、略高于、等于、略低于、低于线上策略）

集成树模型

现在特别喜欢使用树模型，因为使用的时候，连特征归一化都省了：如果使用SVM类似的模型，还需要对特征进行归一化等处理，但使用树模型，直接将特征向量及label扔给模型，模型自己会根据信息增益，或是基尼系数等标准选择最合适的拆分点进行树节点的拆分（具体的拆分标准可参见博文：《使用impurity选择树模型拆分节点》），开源的树模型，例如大名鼎鼎的Quinlan的C4.5或是C5.0都在调研时都可以拿来试试作为特征选择的依据。

特别是集成树模型的出现，更是极大地提升了树模型效果。所以现在的项目中，我比较喜欢在增加特征的时候就使用集成树模型进行效果实验。具体树模型使用参见《集成树类模型及其在搜索推荐系统中的应用》

集成树模型配置选择

此处的配置选择和传统的模型参数稍有区别，该出的树模型配置主要指集成树模型中树的数量，每棵树的特征选择因子和样本使用因子等。在项目中，考虑到准确率和速度，最终确定的参数是树的数量是20，特征选择因子和样本选择因子均为0.65（每棵树随机选择0.65的样本和特征进行训练）

具体产品效果可参见www2.baidu.com中百度关键词搜索推荐系统的排序结果：

如何个性化

首要需要考虑的是我们的数据样本，是否本身就是包含个性化的case（此处的答案是否定的）；假设我们的标注case是个性化的，也就是case中本身就包含了个性化结果时，在模型训练流程上其实并没有太大区别，主要的区别就在于我们选取哪些能够区分这些个性化的特征，例如百度凤巢中账户（单元）的plsa模型产出的pzd向量与query的相似度等

登录www2.baidu.com->关键词工具->搜索query->查看结果即可。

更多内容也可参见： http://semocean.com

一个完整推荐系统的设计实现-以百度关键词搜索推荐为例

在之前一篇博文中，有同学在评论中问了个问题：如何解决因式分解带来的推荐冷门，热门关键词的问题。在回答这个问题的时候，想到了近几年在做搜索推荐系统的过程中，学术界和工业界的一些区别。正好最近正在做技术规划，于是写偏文章说下工业界完整推荐系统的设计。结论是：没有某种算法能够完全解决问题，多重算法+交互设计，才能解决特定场景的需求。下文也对之前的一些博文进行梳理，构成一个完整工业界推荐系统所具有的方方面面（主要以百度关键词搜索推荐系统为例）

完整的推荐系统肯定不会只用一种推荐算法

在学术界，一般说到推荐引擎，我们都是围绕着某一种单独的算法的效果优化进行的，例如按内容推荐，协同过滤（包括item-based, user-based, SVD分解等），上下文推荐，Constraint-based推荐，图关系挖掘等。很多比较牛的单个算法，就能在某个指标上取得较好效果，例如MAE，RMSE。。。不过有自己的优点，每种算法也有自己的缺点，例如按内容推荐主要推荐和用户历史结果相似的item，一般的item-based容易推荐热门item（被更多人投票过）。。。。所以在工业界，例如各互联网公司，都会使用多种算法进行互相配合，取长补短，配合产品提升效果。而且在完整的推荐系统中，不仅有传统的Rating推荐，还需要辅以非常多的挖掘， Ranking来达到预期效果。

推荐系统3大件：User Profile、基础挖掘推荐、Ranking

在实践中，一个完整的推荐系统会主要由3部分组成：

User Profile
基础推荐挖掘算法
Ranking

此处之所以将Ranking单独列出来，是因为其在推荐任务中过于重要，直接决定了推荐的效果。

以下为整个推荐的数据流：

User Profile

A user profile is a representation of information about an individual user that is essential for the (intelligent) application we are considering user profile主要是用户（注册）信息，以及对用户反馈的信息进行处理，聚合，用于描述用户的特征；是后续推荐和排序的基石。一般情况下，user profile会包含以下具体内容：

用户兴趣数据
用户的基础注册信息，背景信息：例如用户出生地，年龄，性别，星座，职业等。这些信息一般从用户注册信息中获取；例如高德，百度地图注册用户，淘宝注册用户等
用户行为反馈：包括显示的反馈(explicit)和隐藏(implicit)的反馈，显示的反馈包括用户的评分，点赞等操作，百度关键词搜索推荐工具上的点赞（正向显示反馈）和垃圾桶（负向显示反馈），淘宝上的评分；隐式反馈包括用户的浏览行为，例如在百度关键词搜索推荐上搜过那些词，淘宝上点击了那些页面，在高德上点击了那些POI等
用户交互偏好：例如用户喜欢使用哪些入口，喜欢哪些操作，以及从这些操作中分析出来的偏好，比如在高德地图上根据用户行为反馈分析出来的用户对美食的偏好：更喜欢火锅，粤菜，还是快餐
用户上下文信息：这些信息有些是分析出来的，例如在LBS中分析出来的用户的家在哪儿，公司在哪儿，经常活动的商圈，经常使用的路线等

user profile经常是一份维护好的数据，在使用的时候，会直接使用该数据，或是将该数据存储在KV系统中，供Online系统实时使用。在搜索或是推荐的场景下，每次请求一般只会涉及到一次user profile的KV请求，所以online使用的时候，主要的实现困难是存储，以及快速KV的快速响应。

基础挖掘推荐算法

基础挖掘推荐算法，主要使用传统推荐算法，结合分析的item profile和user profile，建立user和item的关系，此时并不会过多考虑其他因素，例如是否冷门/热门，最主要的就是建立user和item的关系。在各种论文中狭义的推荐，主要就是指该部分内容。主要围绕着Rating，以及Top N进行该处的Top N（更像是直接Rating值最高的Top N）传统的推荐算法研究主要围着这块工作进行，现在已经有很多比较成熟的算法，这些算法相关的研究可参见博文：《推荐系统经典论文文献及资料》；其中也能找到业界较多成功推荐系统的实践分享主要包含以下几类：

Content Based推荐：按内容推荐，主要的工作是user profile, item profile的提取和维护，然后研究各种相似度度量方法（具体相似度度量参见博文：《推荐系统中的相似度度量》）
协同过滤：相当于应用了用户的行为进行推荐（区别于Content based算法），比较经典的算法包括传统的item-based/user-based算法（参见博文：《协同过滤中item-based与user-based选择依据》，《collaborative-filtering根据近邻推荐时需要考虑的3要素》），SVD，SVD++(具体原理及源码参见博文：《SVD因式分解实现协同过滤-及源码实现》)
上下文相关推荐：和传统推荐相比，考虑更多上下文因素，LBS，移动场景下使用比较多（具体参见博文：《context-aware-recommendation》）
基于图的关系挖掘推荐：主要是利用图论原理，根据item,user之间的数据，反馈关联关系，挖掘更深层次的关系进行推荐，该类方法一般效果都不错，当然资源要求也较高。具体参见博文：《级联二步图关系挖掘关键词推荐系统》，《频繁二项集合的hadoop实现》《itemrankrandom-walk-based-scoring-algorithm-for-recommener-system》
Constrainted-based推荐：根据限制性条件进行演绎推荐

在实际应用时，我们经常使用按内容推荐，item-based寻找从感知的角度比较靠谱的结果，使用SVD,SVD++，图关系寻找更深层次的联系结果。同时在推荐时，会结合很多因素来进行综合排序，例如关键词，或是LBS中POI的热度等。具体可参见下文ranking部分。

算法效果衡量

以上这些算法，我们在离线的时候，使用Cross-Validation方式，就可以分析出其效果，而且离线分析的时候，代价比较小，比较容易操作。当然，对于不同的问题会使用对应的指标进行衡量。对于预测Rating准确性主要是用RMSE，或是MAE；具体可参见博文：《关键词搜索推荐系统中的推荐准确性度量》如果是排序，则更多使用NDCG，MAP, MRR等指标；具体可参见博文：《使用ndcg评估关键词推荐系统的相关性》在具体应用场景中，对于特定推荐问题，会涉及到选用哪种算法的问题。推荐不像CTR预估这样的问题，目标比较单一，经常我们需要考虑多个指标，而且这些指标可能此消彼长，需要做权衡，例如需要考虑算法的准确性(accuracy)，同时也需要考虑算法的覆盖(coverage)，置信度（confidence）,新鲜度(novelty)和惊喜度(Serendipity)，同时还需要考虑推荐为系统带来的收益和效用(utility)。这些指标经常需要权衡，而且经常提升某一个的时候会导致其它下降，所以有时候存在一定的主观性：我们到底看中哪一个指标？而且这个问题可能随着系统，平台所处的阶段而不同。例如在建立口碑的时候，我们可能不太关注coverage，而更关注accuracy，因为要让用户建立一种：该系统很准的认知；如果在系统已经比较成熟了，此时可能需要考虑novelty, serendipity的同时，还需要考虑utility：该推荐能为系统带来什么收益，例如对百度的变现有多大收益？对淘宝的销售有多少收益等具体这些指标的选择可参见博文：《选择推荐算法时需要考虑得因素》

Ranking，此部分是成熟的搜索，推荐系统具有的核心逻辑

比较简单的实现方法，是直接对各种特征拍阈值进行线性加权，比较成熟的系统一般会使用机器学习的方式和综合个维特征，学习出模型后进行排序，例如使用Learning to rank技术。该部分需要考虑的因素较多较为复杂。和传统的推荐相比，此处单独将Ranking拿出来。基础推荐挖掘，和传统的推荐部分比较类似，主要结合user profile，挖掘哪些item适合推给哪些user。但仅根据这些挖掘就直接进行推荐是不够的。真实online推荐场景中，需要考虑更多其他因素，例如：相关性，推荐的上下文，CTR预估，以及商业业务规则。

相关性： item与用户的相关性，这是大多数搜索和推荐任务的基石，例如在搜索中判定一个query和一个document的相关性，或是一个query 和另一个query的相关性，或是在特征比较多的情况下，一个user 和一个item 记录的相关性；实现方式可以很简单，例如传统的相似度度量方式（参见博文：《推荐系统中的相似度度量》），对于文本，业界使用简单的TF*IDF，或是BM25；不过很多时候我们需要增加更多维度特征，包括推荐item本身的重要性，例如IDF，Pagerank(具体参见博文：《pagerank的经济学效用解释》)，同时使用模型来提升相关性判断的准确性。使用模型的方式会更加复杂，但效果提升也非常明显。具体可参见博文：《集成树类模型及其在搜索推荐系统中的应用》，《分类模型在关键词推荐系统中的应用》，《adaboost》
推荐的上下文：例如推荐产品的入口，交互方式，不同的入口，甚至同一入口的不同交互方式，推荐的结果有可能都需要不一样；在LBS生活服务中，请求发生的时间，地点也是推荐需要重点考虑的上下文因素，例如饭点对餐饮item的提权；异地情况下对酒店等结果的加权等
CTR预估：成熟的商业系统都会使用模型来完成CTR预估，或是转化预估
以及商业业务规则：例如黑白名单，或者强制调权。例如在百度关键词搜索推荐中，某些有比较高变现潜力的词，就应该加权往前排；比如在高德LBS服务中，有些海底捞的店点评评分较低，但我们也应该往前排；或是在搜索引擎中，搜国家领导人的名字，有些最相关的结果可能因为法律因素是需要屏蔽的

算法评估

很直接，离线调研的时候看就看算法的评估指标，参见博文：《关键词搜索推荐系统中的推荐准确性度量》，《使用ndcg评估关键词推荐系统的相关性》上线的时候，进行圈用户（圈定某两个user集合作为实验/对照用户组）实验，或者圈请求实验（例如随机圈定5%流量进行实验），之后根据系统效果监控中的指标值判断实验效果。以下为一个典型的效果监控截图：实验如果证明成功，达到预期效果，一般之后推广到全流量；反之，如果实验未达到预期效果，则需要分析什么地方有问题，如何改进，之后继续调整算法继续实验。当实验较多时，还会涉及较多工程问题，例如分层实验框架等。

系统效果监控

对于整个系统，需要建立晚上的效果监控平台进行效果的实时监控，以便发现用户的行为模型，系统的不足，分析后续的发力点等。一般这样的监控平台会使用Dashboard来完成，基本的框架是前段UI + 后端数据库。很多时候，离线统计策略在hadoop上处理统计日志计算指标，并将计算出来的指标存入数据库，前端UI访问数据库，拉出指定时间段内某些指标的值，并进行简单分析。具体的监控指标，及指标体系的建立，可参见博文：《搜索引擎变现策略指标体系》

交互设计

完整的产品包括便捷的交互和背后牛叉的算法。很多时候，要提升推荐的效果，需要算法和交互配合，才能达到理想的效果：交互需要有健壮的算法产出结果；而算法也需要有配套的交互，才能达到预期效果，否则再牛叉的算法，对结果的影响也可能没那么明显。

一些交互的例子参见博文：

《关键词推荐工具中的用户引导机制之一：总述》

《关键词推荐工具中的用户引导机制之二：suggestion架构》

《关键词推荐工具中的用户引导机制之三：相关搜索query技术》

《关键词推荐工具中的用户引导机制之四：种子query推荐》

说了那么多，中心就是想说明，一个完整的推荐系统，远远不止是一两个rating算法能够覆盖的，而且此处还未涉及工程部分。

更多内容，也可直接访问： http://semocean.com

百度搜索引擎变现策略指标体系

下文就百度商业变现的指标体系进行概要描述，并针对一个类似于百度LBS系统的变现思路，阐述一个商业系统变现策略指标体系的建立过程。

为什么需要商业变现策略指标体系

一般情况下，一个互联网产品，或是一个移动端产品在发展前期，主要会关注流量及用户量的增长。当流量，用户量做到一定程度时，就会考虑商业变现。例如今日头条，美丽说，高德地图这样的产品现在都开始商业化变现。而要从变现效果，效率衡量整个系统，以及监控技术策略对系统变现的贡献时，就需要建立一套完善的策略指标体系监控系统当前的状况，发现系统策略效果瓶颈并有的放矢地去提升。

之前在百度，在和一位高级技术经理聊天时，他就说过，之所以百度内部一位从Google过来的VP很受老板的重视，一个非常大的贡献，就是他推动百度凤巢指标体系建立，保证公司收入灵活可控，保证每次百度都能在华尔街交出漂亮的财报

指标体系包含的内容

广告主关心的指标

在广告界的人士都知道广告主的这样一句名言：“我知道我投入的广告费用的一半是白费钱财，但问题是，我不知道是哪一半”。而搜索引擎的搜索一大优点，就是能够监控每一次搜索点击的效果。

对百度广告主来说，他们最关心的，和所有的商业投资一样，是：投资回报率（ROI）。广告主们（商家）想知道在百度体系的广告的投入是否真的有回报，而这个回报是否能够超过投入的资金，超过的比例有多大，这一点上，搜索引擎商业变现系统是做了精心的设计的：

从商家的角度理解ROI，就要了解三个指标：

1．广告展现次数（简称show）：当网民提供关键字，使用百度的搜索业务时候，相关的广告也会根据算法出现在页面相应的位置，用户投放的广告的展现次数，每天，每周，每月都会有统计。当然，相对于传统的广告投放模式，只要展现了就要收费，百度对展现的广告是不收费的，哪怕用户看到了广告主企业的名字和推广口号，广告主已经获得了一定的广告收益，是要用户不点击广告链接，广告主不需要支付任何费用（针对竞价排名高，和右端广告而言）。这在传统的广告界是不可想象的，因为传统媒体，例如电视，包括门户网站上的banner广告，都是按照展现收费的：看到一次收一次的费用。

2．广告点击次数（简称clk） ：用户看到广告后，点击了广告主提供的链接。可以用每千次广告展现的点击率来计算。网民点了推广信息的链接。推广信息被点的次数被称为点击量，即Clicks，产生的费用叫做点击费用，平均到每次点击的费用被称为单次点击价格，即CPC，是Cost Per Click的缩写。推广信息点击量与展现次数之间的比值被称为点击率，即CTR，是Click-Through Rate的缩写，计算公式为：点击率=（点击量/展现量）×100%

3．点击率到商业收益的转换：用户点击了客户的广告，就会看到客户自己的网站页面，如果被客户提供的商业服务或者产品所吸引，而付费的话，那么客户就实现了一次成功的商业收益

因为商业系统必须要保证客户（广告主）的利益，这样才能长久合作，所以商业变现策略指标体系必须包含这些指标。

在类似于百度，360，或是Google这样的搜索引擎，其能精准监控的，就是1，2，对于最终的商业转化，因为是在商家的网站上完成的，所以除非网站上内嵌了搜索引擎单独提供的独立工具（例如百度的福尔摩斯），否则搜索引擎无法了解这些信息。

投资人关心的变现策略指标

以上是百度广告主需要关心的指标。对于百度这样的上市公司，每个季度的财报中都需要有公司详细的赚钱相关财报内容及各种指标分解，以便了解当前变现系统的健康程度及瓶颈及后续的突破点。

例如百度的投资人不仅关心这个季度百度多挣了多少钱，还会关心多挣的这些钱是来自于哪个环节的提升，是否可持续，是否后续还有增长空间。就和分析公司财务报表，或是分析股权收益率一致。

为了让大家对搜索引擎变现策略指标体系有一个对比了解，以下先用股权收益率说明问题。大家可以不用有较强的金融，财务知识也能看懂这个公式，而搜索引擎变现策略的指标体系，与此公式有异曲同工之处，都是将最终的收益（率），分解为各个相对独立的因素，以便发现系统挣钱效率的优势与瓶颈。

该公式主要的目的是让大家了解如何对最终目标指标进行拆解，如果大家不感兴趣可以跳过该节。

股权收益率

即在股市中，投资人购买的股票收益率，设想一下，一个精明的投资人，在购买了某个公司大宗股票后，一方面会关注每年的股票收益，另一方面也会分析股权收益是来自于哪些因素的上涨，这样才能分析公司增长是否健康，例如，股权收益率可以简单地使用以下公式计算ROE=净利润/权益。但如果要对这个公式进行细分，将其中对股权收益率相关的影响因素均拆分出来，那可以得到以下公式：

其中

税收负担比例：反映公司的税收负担情况，例如有一个季度百度的税率为腾讯的一半，因为百度和国家有什么高新技术的合作所以税收减免（记得百度可能是7%左右，腾讯13%左右，不是精确比例），类似的情况就可以在（1）中反映
为公司向债权人负担的利息比例，借的钱越多，这个值越小
利润率：为每一块钱的销售额所带来的利润。
资产周转率：为公司资产的使用效率，例如家乐福，沃尔玛虽然利润率很低，但因为出货量大，所以照样赚钱
杠杆比例：公司资产与公司权益的比例，用于表示用于赚钱的钱中，有多少是自己的，有多少是别人的（例如银行）。例如：北京以前买房的人都发了，因为买的早，一方面房价便宜，一方面使用银行贷款，假设30%首付，那相当于剩下70%银行贷款在房产上的收益，也是自己的。

类似地，如果对百度商业变现体系的收入进行一个拆解，也能将其分解为类似的独立因子，对系统效率进行细化分析。

搜索引擎投资人关心的变现策略指标

从宏观上，我们假设投资人都是唯利是图的，收入是他们最关心的事。当然，很多投资人也会兼顾长远的收益，所以他们会关系收入是如何组成的。我们这里抛开运营，股权收益，利息支付，税收等各种公司的开销，我们仅考虑变现系统的名义收入，即搜索引擎中计费系统的计费和。此时可以将搜索引擎收入分解为以下独立因子：

Revenue =PV * PVR * ASN * CTR2 * ACP

以上公式就是百度，360，Google搜索广告变现收入的拆解。

要弄清楚以上公式的具体含义，需要了解下列指标的定义：

CPM1：cost per thousand1 按每千次检索收费，百度用户每使用百度一千次做搜索为百度带来的收益。也就是用户使用了百度服务一千次所带来的百度的收入。这个是衡量百度赚钱能力的重要指标。是百度变现能力的基本衡量标准。是根据每个季度的总收入除以PV（Page View）算出来的。
CPM2：cost per thousand2 按每千次展示收费，广告所在的网页被浏览了一千次，即认为该广告展示了一千次。这个指标是衡量广告客户的广告展现了一千次的时候，客户交付的费用（注意客户是在用户点击广告后才付费的）. 这个指标可以衡量用户对于广告的感兴趣程度。从广告客户的角度讲，也可以衡量在百度投放广告的费用多少，以及投放的有效性。
CPM3：cost per thousand3 表示平均每千次有广告展现的检索请求对应的广告收入，衡量单次有广告展现检索的平均收入贡献。这个指标是衡量当搜索结果的页面有广告展现的时候，每展现一千次，百度能够拿到的收入。有的搜索结果是没有广告展示的（CPM1把这些PV也计算进去了）。
CPC：cost per click 按每次点击收费，是目前最流行的搜索引擎营销的付费方式，即只有当用户点击观看了你的推广链接后，才发生费用。
CPA：cost per action 按每次用户消费行动收费，被认为将是互联网广告未来必然的发展方向，但由于不同产品的广告对action的定义和回报率有太大差异，实现过于复杂，目前在全球范围尚无搜索引擎使用CPA收费的成功先例。 CTR——点击率，在这里特指广告或推广链接出现后被用户点击的机率。CTR还将可以进一步的细分。
CTR1：表示平均每次检索请求对应的广告点击数，衡量单次广告检索的平均点击贡献。理论上 CTR1 可能大于 1。因为每次检索客户可以点击一个广告，看了后，在回去原来的检索页，点击下一个广告。
CTR2：表示平均每次广告展现对应的广告点击数，衡量单次广告展现的平均点击贡献。
CTR3：表示平均每次有广告展现的检索请求对应的广告点击数，衡量单次有广告展现检索的平均点击贡献。理论上 CTR3 可能大于 1。
ARPU：户均消费，影响它的因素包括：点击流量大小、关键词的相关性、同一关键词的竞争度，以及客户在搜索引擎广告上的预算上限等。
PV:检索量，百度搜索框的搜索次数
ADPV:出广告的检索量，即PV中，有广告展现的搜索数量
CLK：click number，广告的总点击次数
CSM：百度广告主的总广告费支出
ASN：平均展现条数。即：如果展现了搜索推广广告，每次平均展现多少条
ACP：Average Click Price 平均点击价格总消费/总点击
PVR：Page View Rates, PV比率，出广告的检索量 / 检索量

有了以上这些定义后，我们再来回顾变现系统的计算公式：

Revenue =PV * PVR * ASN * CTR2 * ACP

可以看出以上各因子表明了变现系统不同组成的效率

PV：是百度能够用于变现的流量上限，由用户体验决定，百度越好用，口碑越好， PV越高。该指标在百度类似的搜索引擎公司，主要由搜索部门负责。
PVR：就是PV中被用于变现的比例，PVR越高，说明在百度搜索中，出广告的概率越高，有可能导致用户体验的下降
ASN：单次有广告展现的PV，展现的广告数量，表明单次有广告展现时的变现利用程度。ASN越高表明单次搜索出的广告越多，可能导致用户体验的下降
CTR2：单条广告展现时，广告北点击的概率。表明广告推的是否精准，是否满足用户需求（至少是感官上是否吸引用户）
ACP：单次点击价格，相当于单价的高低

这样的指标分解非常有利于指导策略的优化，以下是几个case：

PV：搜索部门的重要指标，增加下降，都能立刻看出搜索部门的业绩，或是竞争对手带来的影响，例如，就百度而言，Google退出中国PV上升，360上了搜索， PV下降，都能直接看出来
点击率预估：假设PV,PVR,ASN，ACP都固定，则要增加收入，需要提升用户对广告的点击率，此时可以用模型来对点击率预估，提升CTR2。各大搜索引擎公司，对CTR2的预估，基本上都是商业部门的重要机密，也是最重视的技术之一
增加广告展现：在各上市公司（包括传统行业公司），都会有‘冲业绩’这么一说，就是极度末时，为了达到之前的营收计划，需要使用各种手段增加收入，例如我们经常听说的银行给高利息临时拉存款等，在百度则可以通过调参提升收入，比如增加ASN或是PVR，达到收入符合华尔街预期的效果
ASN的变化：如果收入的增长是来自于ASN的增长，则说明百度的点击卖得更贵了，广告主会不乐意。相反，ASN下降，说明点击卖便宜了，百度的收入有可能降低，所以类似于CTR2上升，ASN不变这样的策略，是最好的

有了以上定义即收入的拆解，则收入可以用其他集中形式表示：

Revenue = PV * CPM1

Revenue =PV * PVR * CPM3

Revenue =PV * PVR * ASN * CPM2

Revenue =PV * CTR1 * ACP

Revenue =PV * PVR * CTR3 * ACP

百度商业部门的工作，几乎每天都是在围绕着这些指标来进行的。每一次策略的调整，工作方式的改变，都希望在这些指标上做出正向的贡献，因为这些指标对百度的收入是直接造成影响的。从百度的收入（Revenue）的计算公式上就可以看出（每一种计算方法得到的结果都殊途同归）

如何建设LBS变现策略指标体系

拿百度地图类似的LBS产品为例，假设我们的转化漏斗路径是：推荐&搜索之后展示结果列表也，然后用户点击结果进入店家的表述页面（POI），之后如果用户感兴趣，则点击具体的团购，优惠券进行购买，搜索漏斗如下：

图：搜索漏斗

对应到线上系统，在评估衡量线上系统效果时，我们也需要分为这3阶段进行衡量，以及时发现线上策略效果的瓶颈所在，快速找到提升重点。在以上3阶段中：

搜索or推荐：主要表明流量大小
点击详情页：表现为用户带来的流量到详情页的浏览情况
转化：最终转化action

对于商业系统，我们最重要的目标就是保证在既定流量上，转化最高。

以下为我们需要关注的所有指标：

表：策略效果指标

如后续变现系统按转化收费，则整个LBS变现系统收入可定义为：

收入= pv * pvr * easn * ctr2 * atr2 * aap

在产品的不同阶段，我们需要关注的重点不一样：

在产品上线的阶段，我们需要关注用户体验，所以ctr2和atr2需要重点关注
用户体验提升到一定程度，商户已经认可我们产品效果时，再考虑提升成单的单价（例如佣金等），同事可以考虑对商业POI进行放量，提升pvr和easn

物料召回及检索类指标

该类指标主要用于监控系统的检索量，以及系统的召回能力。检索量等指标是系统变现可以使用的所有资源，更多受用户产品影响；而召回能力相关指标则体现出CPR系统对商业物料的召回能力。

以下为重要指标说明：

检索量: 发送到系统的所有请求量；通过统计检索日志条数得到；为能够变现的流量全集。
查询用户数:所有发起请求的用户数；统计检索日志中去重后uid得到，体现参与检索的用户量。
用户平均检索量：平均每个用户发起的请求数量；体现用户检索角度的活跃度。
单次检索返回结果数：平均单次检索返回结果条数；体现系统的召回能力（准确性参见相关性评估）
商业结果检索量：出现商业结果的检索次数；
商业结果检索用户数：出现商业结果的检索用户数；体现商业结果能够覆盖的客户群体
商业检索占比：出现商业结果检索量占总体检索量占比；可根据改指标分析潜在变现流量。
商业检索用户占比：看到商业结果的用户占所有检索用户占比；可根据该指标分析潜在变现用户。
单次检索商业结果返回条数：一次出现商业结果的检索，返回的结果条数；

点击行为类指标

该类指标主要用于衡量用户浏览搜索/推荐结果后的点击行为。该过程为转化漏斗第二阶段。

以下为具体指标及含义:

点击条数：被点击的POI数量(包括自然POI和商业POI)
有点击检索次数：产生点击行为的检索次数（包括自然POI和商业POI）。
有点击用户数：产生点击的用户数量。
商业POI点击条数：商业POI被点击的数量。
商业POI有点击检索次数：出现商业POI，且产生商业POI点击的次数。
商业POI点击用户数：点击商业POI的去重用户数。
单次检索点击率：平均每次检索点击POI的概率；该值理论上可能大于1
单次检索商业POI点击率：平均每次检索，点击商业POI的概率；该值理论上可以大于1
单条商业POI展现点击率：平均每条商业POI展现的点击概率；用于衡量每条商业POI曝光产生点击的效率。
单次有商业结果展现点击率：平均每次有商业POI展现的检索的点击概率；用于衡量出商业POI的流量产生点击的效率。

效用类指标

该类指标主要用于衡量用户点击进入POI详情页后，根据详情页信息，做出最终决策的阶段（包括点击‘预订’，‘成单’，‘下载’等行为）。该过程处于转化漏斗的第三阶段，也是最终阶段。

以下为具体指标定义：

POI展现数：包括自然POI和商业POI的展现次数。
POI展现用户数：浏览POI的去重用户数。
POI详情页转化数：此处的转化根据每个入口可能有所不同。
POI详情页转化率：POI详情页转化数/POI详情页展现数。
单次转化收费：完成单次转化后，向商户收取的平均费用。

以上密密麻麻的指标，在不同的商业变现系统中会有所差别，但基本上都是按照用户产品形态及转换漏斗进行设定，而每个策略的上线，都会使用类似的指标体系来衡量策略对不同漏斗部分的效率影响。

更多内容也可参见: http://semocean.com

《小米是如何炼成的》-雷军百度讲互联网思维做手机

雷军前些天到百度给百度的员工进行了一次演讲，演讲的题目是《我和小米这三年》，主要介绍了小米的铁人三项：软件，硬件和互联网服务；以及如何用互联网思维做手机。尽管是非开放性报名，仅有高T和M序列能报名。虽然讲座在百度大厦最大的五福降中天举行，但现场还是超级爆满，而且很多没报上名的同学很早就在现场门外守候，期望最后能有机会进场。

黑百度的开场

雷军上台演讲后，先没干别的，立马黑了百度一把，雷军说：‘大家知道，百度还是一家挺好的公司，在全国范围内就不说了。。。。’，此时按照逻辑，我会以为雷军会说百度在国际上也有一定知名度，结果雷军顿了顿后，接着说‘在中关村，百度还是一家不错的公司。。。。’当时立马笑喷了，觉得雷军带着一种幽默来踢馆。在后来的演讲中，一直伴随着类似的幽默，所以整个演讲下来，一方面觉得说活颇多，另一方面也不觉得累，因为雷军非常风趣。

讲座部分流水账

接下来的演讲，雷军先介绍了小米的8位co-founder，听起来背景都挺牛的，也介绍了小米成立那天几个同事一起喝小米粥的故事，还有google 全球副总裁的hugo早就谈好来小米，但重点提到： hugo是来小米，但一直不来北京：啧啧，污染那么严重，也可以理解。。。

之后就介绍了小米13年的业绩，当时雷军给了一个截图，图中列出的是全球最具创新企业50强中的部分企业，当中惊奇地发现小米居然名列第3，好像比苹果还要高。当时觉得老牛了，后来百度了一下， 360也是最具创新的企业之一，后来才知道这个奖有两个版本。两个版本的结结论还差了好多。

后来就是介绍小米的一些产品，功能设计理念的介绍。雷军主要围绕着设计贴心产品

互联网思维做手机

在整个讲座中，有两个内容让我印象深刻，一个是雷军详细介绍如何使用互联网思维做手机的思想；另一个就是就是小米如何考核员工的KPI。

雷军使用了一个图完整地描述了他的思想：

专注地快速做到极致打造口碑

整个过程的中心，就是如何打造良好的口碑。可以将图分为两部分：打造口碑所要做的事，在上图的左边，包括专注，极致，快等几个因素，都是小米自己需要做到的：只有将事非常快地做到极致，才有可能在用户心中建立良好的口碑，而要将事做得非常快地做到极致，就需要专注。

在Q&A环节，有同学还专门问了雷军：极致和快，很多时候是相互矛盾的：做得快，很可能就很难做到极致，反之亦然。我当时也好奇，雷军如何回答这个问题。雷军给出的答案是：需要专注。他提到小米就只做手机，虽然很多人提议他做很多东西，但很多都被他咔嚓了。。。后来想了一下，其实很多互联网大佬在实际执行的过程中，都体现出专注，例如百度的boss Robin，就一直在提专注，专注地做搜索（当然，后来发现，也不能太专注，或者说是要有远见地专注，例如作为搜索护城河的输入法，浏览器，在早期的百度，就没有收到太多重视。要眼观六路，耳听八方地专注）。在一万小时天才理论中，也提到专注于某一项即能， 1W小时成为天才的观点。而在软件工程中， ‘好，快，省，任选其二’ 也作为不变的定律，这个地方的‘省’，在这里也可以作为专注理解：可以做的事太多，之后专注，才能快起来，才能做好（极致）

不将用户做上帝，将用户当朋友

在上图，口碑中心的右边，雷军提到，不要把顾客做上帝，因为大家不信上帝，要将顾客当朋友，采纳顾客的意见，这样顾客会帮忙推销，同时使用互联网媒体将这种作用无限放大达到营销效果，这个过程中雷军一直说自己没有做太多营销；需要虚心采纳用户的建议，用户的建议采纳后，一方面的确能够改进小米，另一方面，用户会非常高兴，他们会积极地帮小米做宣传，相当于小米发动了人民战争，用户都在为小米积极宣传，用户在帮小米营销。他还举了一个例子，说真由用户来北京，在小米办公楼下苦等几个小时，就是为了见雷军，将自己制作的小米台历送给雷军。

雷军还提到，在做功能的时候，不仅要做得好，更要超过客户的预期。有时候，一个东西做得好，没有超出用户的预期，用户也不会买账。他举了两个例子：他去迪拜帆船酒店前，大家都说这家酒店如何如何高大上，但去了以后，发现里边的装修，都是土豪金，导致他期望太高，失望越大，所以感觉没有达到预期；但在海里捞，看到真诚的笑，感觉非常好。看来海底捞你还真是学不会。。。

通过自身品质的提升和发动人民战阵做宣传，才能打造出现在小米的口碑。

小米的去KPI化管理

后来雷军还讲了其他很多内容，但我都记不清了，或者说，内容以前都听过了，没有超出预期。不过Q&A环节比较有意思：在Q&A开始前，雷军说：前4个提问的同学有奖品：两个小米手机和两个小米移动电源，所以大家提问异常火爆，一开始我也积极举手，可以坐在后排加上矮小的我，虽然每次都举手，但还是没有提问的机会。我想问的问题和小米管理过程相关：雷军讲座中提到小米提倡去KPI化的管理风格，具体衡量方式为：

做让用户尖叫的产品
让用户用户愿意分享给朋友

我一直还是觉得大家做事必须要有一个可以衡量的目标，只是如何找到合适的目标是一个艺术问题。所以当时我想问的问题就是：以上两点，在小米内部如何衡量。不过幸好有个哥们问了这个问题，雷军提到在小米内部，有3个措施来保证以上目标的达成。

找到对的人，自我驱动较强的人来做事；将事做好做到极致；
充分，足够扁平化，例如小米仅3层管理结构，有否问题，老板很容易知道。相当于去管理化（最大程度去行政化管理，仅保留技术管理）。我听360的同学说360也是极其扁平化，看来异曲同工。相较下百度已经是个大公司了，各种管理级别。。。
发动人民群众提问题，收集反馈（雷军说道自己两周换一次手机，自己亲自积极体验，回想百度最年轻的副总裁李明远上天天向上的时候，也是腰间别了N多手机，自己就天天作为PM琢磨里边的功能与体验；同时也提到因为经常采纳用户体验，有一些米粉甚至专程在小米办公楼下等候几小时给他送礼物）

一场风趣的讲座，看来以后做啥事，都可以想想如何用互联网思维来做：）