PageRank的经济学效用解释

google大名鼎鼎的pagerank算法大家都耳熟能详,基本的思路就是: 网页的重要性由指向该网页的链接,及指向网页的重要性决定。
那从经济学的角度, 背后隐藏的深层含义是什么呢?  说简单点,就是‘具有流动性的市场对商品价值的客观定价’。
我们先举一个简单而又经典的例子: 假设在原始社会中, 没有货币的概念, 所有的交换均为物物交换。 且生产社会中只有三个生产者:  农夫(使用F表示), 生产衣服的人(使用C表示)和生产工具的人(使用M表示)。 三个生产者生产出来的物品, 除一部分留己自用外, 其余均用于与其余二人进行交换。 交换关系如下:
图1: 三生产者的交换比例关系
F M C
F 1/2 1/3 1/2
M 1/4 1/3 1/4
C 1/4 1/3 1/4
图2:三生产者的交换关系邻接关系
以农民为例,除1/2生产的农作为自行享用外,剩余1/4与工具制造人换取他制造的1/3的工具,用剩下的1/4与衣服制造人交换他生产的1/2的衣服。 则根据列昂惕夫生产投入产出理论, 在自由市场下,交换的比例也即反映出该产品的内在价值。 以上图为例,假设:
一份农产品的内在价值为x1,一份生产出的工具内在价值为x2,一份衣服的为x3,则获得方程如下:
1/2 * x1 + 1/3 * x2 +  1/2 * x3 = x1
1/4 * x1 + 1/3 * x2 + 1/4 * x3 = x2
1/4 * x1 + 1/3 * x2 + 1/4 * x3 = x3
即可用解线性方程组的方法解除各内在价值。 该方程组背后的思想是: 任一物品的价值由自由市场中其他商品对其的认可程度决定。  后续会讲到, PageRank中迭代求稳定特征向量的过程, 其实就相当于是在自由市场中, 货物经过长时间流通后所反映出来的市场价值认可程度。
上述例子是在知道了邻接矩阵(转移关系)的情况下直接求解内在价值的过程。 如果我们对每种物品进行初始定价, 则能够计算在该转移矩阵的作用下,物品的价格在市场的作用下逐渐趋向于内在价格。
又例如:
教科书中一个非常经典的例子,是小镇上已婚女性和单身女性每年的数量问题:某小镇上,每年30%的已婚女性离婚,20%的单身女性结婚,镇上有8000已婚女2000单身女,假设小镇上女性总量为常数,分别求一年,二年后的女性数量?
求解方式为构建已婚,单身女性的转移矩阵A=[[0.7, 0.2],[0.3, 0.8]]   (此处使用python第三方库 numpy方式表示matrix)   x=[8000, 2000]为当前已婚,单身女的数量向量。 则一年后小镇上已婚,单身女性的数量向量x1 = A*x  两年后为 x2 = A* x1 = A*A * x    ;  如将x 写为已婚,单身女性的比例, 则该过程为Markov Process(Markov Process为随机过程)
PageRank
PR其实就是随机过程在网页ranking过程中的应用,该算法假设网页都是有价值的, 且价值是可以传递的,同时价值传递时也会衰减。 价值大的节点传递给指向的网页的价值也比较大。该算法中的思想其实是个人类学的问题: 和权威的人关系紧密的人, 一般也较有权威; 也经常说: 你的收入和你关系最近的5个人类似  啥的说法都比较类似。
PR的计算方式如下:
其中PR(n)为节点n的PR值,它由指向n的节点q集合的PR值及系数w决定, 1/|V| 为随机跳转概率避免闭环
所有节点的PR值计算方式如上, 其中C即为转移矩阵。
实际应用中, 一般是制定PR的迭代次数作为停止条件。
而PR值其实就可以直接看作是一种价值转移直到稳定状态。
参考文献:
  1. 经济学原理
  2. The PageRank Citation Ranking: Bringing Order to the Web
也可关注微博: weibo.com/dustinsea
或是直接访问: http://semocean.com

发表评论

电子邮件地址不会被公开。 必填项已用*标注