马海祥博客是一个专注于分享SEO优化、网站制作、网络营销和运营思维的自媒体博客!
马海祥博客 > SEO优化 > SEO研究院 > Google(谷歌)使用PageRank算法给搜索结果排序的原理

Google(谷歌)使用PageRank算法给搜索结果排序的原理

时间:2014-09-17   文章来源:马海祥博客   访问次数:

一个正常的搜索引擎,其核心功能自然是网页搜索,那搜索结果应该怎样排序才最好呢?实际上,在谷歌主导互联网搜索之前,人们为此伤透了脑筋。

当时人们认为,通过判断能够得知哪个网页更重要,对搜索引擎的发展十分有帮助,很显然搜索引擎应该把重要的网页放到搜索结果中比较靠前的地方。这个问题看起来很容易,但是解决的方法却没有想象的那么简单。

Google(谷歌)使用PageRank算法给搜索结果排序的原理-马海祥博客

一、网页排名和谷歌算法的诞生

在谷歌诞生之前那段时间,流行的网页排名算法都很类似,它们都使用了一个非常简单的思想:越是重要的网页,访问量就会越大,许多大公司就通过统计网页的访问量来进行网页排名。但是这种排名算法有两个很显著的问题:

1、因为只能够抽样统计,所以统计数据不一定准确,而且访问量的波动会比较大,想要得到准确的统计需要大量的时间和人力,还只能维持很短的有效时间。

2、访问量并不一定能体现网页的“重要程度”,可能一些比较早接触互联网的网民还记得,那时有很多人推出了专门“刷访问量”的服务。

那有没有更好的方法,不统计访问量就能够为网页的重要度排序呢?

就是在这种情况下,1996年初,谷歌公司的创始人,当时还是美国斯坦福大学研究生的佩奇和布林开始了对网页排序问题的研究。

在1999年,一篇以佩奇为第一作者的论文发表了,论文中介绍了一种叫做PageRank的算法(具体算法可查看马海祥博客《pr值是什么》的相关介绍),这种算法的主要思想是:越“重要”的网页,页面上的链接质量也越高,同时越容易被其它“重要”的网页链接。

于是,算法完全利用网页之间互相链接的关系来计算网页的重要程度,将网页排序彻底变成一个数学问题,终于摆脱了访问量统计的框框。

二、模拟PageRank算法的运行过程

在详细讲述这个算法之前,不妨让我们用一个游戏,先来简单模拟一下PageRank算法的运行过程,以便读者更好地理解。

三兄弟分30颗豌豆,起初每人10颗,他们每次都要把手里的豌豆全部平均分给自己喜欢的人,下图表示了三兄弟各自拥有的初始豌豆数量,以及相互喜欢的关系(箭头方向表示喜欢,例如老二喜欢老大,老大喜欢老二和老三)。

Google(谷歌)使用PageRank算法给搜索结果排序的原理-马海祥博客

第一次分配后,我们会得到结果如下:

Google(谷歌)使用PageRank算法给搜索结果排序的原理-马海祥博客

就这样,让游戏一直进行下去,直到他们手中的豌豆数不再变化为止。

那么这个游戏到底是否可以结束呢,如果可以,最终的结果又是什么样的?

在此我们用电脑模拟了这个过程,得出的结果是:老大和老二的盘子里各有12颗豌豆,而老三的盘子里有6颗豌豆,这时候无论游戏怎么进行下去,盘子里的豌豆数量都不会再变化。

看到这里,读者可能会问:这个游戏和网页排序有什么关系?

实际上,PageRank会给每个网页一个数值,这个数值越高,就说明这个网页越“重要”。

而刚刚的游戏中,如果把豌豆的数量看作这个数值(可以不是整数),把孩子们看作网页,那么游戏的过程就是PageRank的算法,而游戏结束时豌豆的分配,就是网页的PageRank值。

三、PageRank算法的数学模型

不同于之前的访问量统计,PageRank求解了这样一个问题:一个人在网络上浏览网页,每看过一个网页之后就会随机点击网页上的链接访问新的网页。

如果当前这个人浏览的网页x已经确定,那么网页x上每个链接被点击的概率也是确定的,可以用向量Nx表示。

在这种条件下,这个人点击了无限多次链接后,恰好停留在每个网页上的概率分别是多少?

在这个模型中,我们用向量Ri来表示点击了i次链接之后可能停留在每个网页上的概率(则为一开始就打开了每个网页的概率,后面我们将证明的取值对最终结果没有影响)。很显然R i的L1范式为1 ,这也是PageRank算法本身的要求。

仍以上面的游戏为例,整个浏览过程的一开始,我们有:

其中,A表示每一次点击链接概率的矩阵,A的第i列第j行的含义是如果当前访问的网页是网页i,那么下一次点击链接跳转到网页j的概率为

这样设计矩阵A的好处是,通过矩阵A和向量相乘,即可得出点击一次链接后每个网页可能的停留概率向量。例如,令,可以得到点击一次链接后停留在每个网页的概率:

Google(谷歌)使用PageRank算法给搜索结果排序的原理-马海祥博客

之后一直迭代下去,有:

Google(谷歌)使用PageRank算法给搜索结果排序的原理-马海祥博客

对于上面的例子,迭代结果如下图:

Google(谷歌)使用PageRank算法给搜索结果排序的原理-马海祥博客

由上图我们可以看到,每个网页停留的概率在振荡之后趋于稳定。

在这种稳定状态下,我们可以知道,无论如何迭代,都有,这样我们就获得了一个方程:

而整个迭代的过程,就是在寻求方程R = AR的解,而无论是多少,迭代无限多次之后,一定会取得令R = AR成立的R值,整个求解R的过程,就如同一个人在一张地图上的不同位置之间随机地行走一样,所以被称为“随机行走模型”。

随机行走模型有一个显著的特点,那就是每一次迭代的结果只与前一次有关,与更早的结果完全无关,这种过程又被称为马尔可夫过程(Markov Process)或马尔可夫链(Markov Chain)。

马尔可夫过程的数学定义是:如果对于一个随机变量序列, 其中X n表示时间n的状态及转移概率P,有:

只受的影响,则此过程成为马尔可夫过程。其中称作“一步转移概率”,而两步、三步转移概率则可以通过一步转移概率的积分求得。

当状态空间有限时,转移概率可以用用一个矩阵A来表示,称作转移矩阵(transition matrix),此时转移概率的积分即为矩阵的幂,k步转移概率可以用表示,这也是随机行走模型中的情况,而对于一个正的(每个元素都为正的)转移矩阵A ,可以证明一定有:

这就完整解释了为什么的取值对最终结果没有影响。

四、修正“悬挂网页”带来的不良影响

但是这里有一个问题:即便的取值对最终结果没有影响,用R作为网页排序的依据是否真的合理?

在马海祥看来,这个其实并不合理,因为当一个网页只有链入链接没有链出链接的时候,这个网页就会像一个“黑洞”一样,将同一个连通子图中其它网页流向它的PageRank慢慢“吞掉”(因为算法中虚拟的用户一旦进入那样的网页,就会由于没有对外链接而永远停留在那里),这种网页我们称之为“悬挂网页”(Dangling Link)。

这种“黑洞”效应是如此显著,以至于在一个连通性良好的互联网上,哪怕只有一个“悬挂网页”,也足以使整个互联网的网页排序失效,可谓是“一粒老鼠屎坏了一锅粥”。

为了解决这个问题,佩奇和布林进行了修正,他们意识到,当用户访问到“悬挂网页”时,都不可能也不应该就停留在了这个页面,而是会自行访问其它网页。

虽然对每个用户来说,自行访问的网页与各人的兴趣有关,但马海祥觉得从平均意义上来讲,佩奇和布林假定用户将会在整个互联网上随机选取一个网页进行访问。

所以他们给PageRank算法加入了一个新的向量E,它的作用是,按照其中所描述的比例来向全部网页分配悬挂网页每一次“吞掉”的PageRank。

这样,相当于为悬挂网页添加了链向网络上全部网页的链接,避免了悬挂链接的出现。

以上就是谷歌背后最重要的PageRank算法奥秘,与以往那种凭借关键词出现次数所作的排序不同,这种由所有网页的相互链接所确定的排序是不那么容易做假的,因为做假者再是把自己的网页吹得天花乱坠,如果没有真正吸引人的内容,别人不链接它,一切就还是枉然。

而且“佩奇排序”还有一个重要特点,那就是它只与互联网的结构有关,而与用户具体搜索的东西无关,这意味着排序计算可以单独进行,而无需在用户键入搜索指令后才临时进行,谷歌搜索的速度之所以快捷,在很大程度上得益于此。

马海祥博客点评:

最后,我要强调的一点是,虽然PageRank是Google搜索结果排序的重要依据,并以此发家,不过它并不是全部依据,实际上,Google发展到现在,已同时用了数百种不同的算法来确定最终显示给用户的搜索结果顺序。

本文发布于马海祥博客文章,如想转载,请注明原文网址摘自于https://www.mahaixiang.cn/seoyjy/812.html,注明出处;否则,禁止转载;谢谢配合!

相关标签搜索: 搜索结果   谷歌   pagerank算法   pagerank   谷歌排序原理  

上一篇:网站SEO优化的分析诊断报告包含了哪些内容
下一篇:SEO优化人员常用的30个灰帽SEO或黑帽SEO技巧

您可能还会对以下这些文章感兴趣!

  • 网站SEO优化的分析诊断报告包含了哪些内容

    SEO优化是针对搜索引擎规则做出优化以提高网站排名为目的的优化手段。其所需时间往往是长久性的,包括从网站域名、服务器、程序选取、网站结构、行业分析、竞争分析而切入的优化过程。而SEO诊断,在时间的要求上恰与其截然相反,所求目的完全与优化过程一致:提高网站友……【查看全文

    阅读:7211关键词: 网站seo   seo优化   seo分析   seo诊断   seo报告   seo   日期:2014-09-15
  • 搜索引擎判定相似文章网页的原理

    余弦相似性是指通过测量两个向量内积空间的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是 -1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时,余弦相似度的值……【查看全文

    阅读:1384关键词: 搜索引擎   判定相似文章   相似文章原理   文章判定原理   日期:2013-10-13
  • SEO链轮是什么?

    SEO链轮(SEO Link Wheels)是从国外引入国内的,一种比较新颖的SEO策略,是一种比较先进的网络营销方式。SEO链轮是指通过在互联网上建立大量的独立站点或是在各大门户网站上开设博客,这些独立站点或是博客群通过单向的、有策略、有计划紧密的链接,并都指向要优化的目标……【查看全文

    阅读:1139关键词: seo   seo链轮   日期:2016-02-24
  • 404 Not Found错误页面的解决方法和注意事项

    404页面就是当用户访问某网站时,点击了错误的链接时,所返回的页面。最常见的出错提示:404 Not Found。其目的就是告诉浏览者其所请求的页面不存在或链接错误,同时引导用户使用网站其他页面而不是关闭窗口离开。错误页面的文字可以自定义,有些网站没有设置404错误页面,或……【查看全文

    阅读:96618关键词: 404页面   404错误   404   日期:2014-02-16
  • 落地页体验白皮书5.0解读:如何合理设置展开全文功能

    本文解读文章深度剖析展开全文功能的设置要求。白皮书5.0提到”展开全文的设置必须具有文字标示,且功能实际可用;展开全文功能最多只能出现一次,但不可出现在落地页的首屏内容中(列表页除外);展开全文与广告等引导性内容要设置一定距离间隔,避免干扰用户操作。”如何设置展开全文按钮才更符合用户的体验习惯呢?这篇文章将为你答疑解惑。百度搜索用户研究团队的用户调研发现,搜索用户进入落地页的诉求是浏览页面全部内容,展开……【查看全文

    阅读:115关键词: 落地页   白皮书   展开功能   日期:2020-04-19
  • 如何分析网站是否真的被降权惩罚及解决方法

    对于混迹于国内站长圈的朋友来说,每天起早贪黑发外链的网站被百度惩罚似乎在这几年已经是司空见惯的事了,所以很多时候网站流量、排名或者是收录有小幅度波动时,站长都会认为网站又被惩罚了,有到处的去抱怨。其实,很多情况都只是站长自己太过于敏感了而已,网站被百……【查看全文

    阅读:2958关键词: 网站分析   网站被惩罚   网站降权   日期:2014-04-24
  • 落地页体验白皮书5.0解读:什么样的顶部嵌入广告符合体验标准

    《百度APP移动搜索落地页体验白皮书5.0》对页面广告的内容、形式、位置和面积的要求都做出了详细的说明,受到了全网开发者的广泛关注。关于白皮书5.0中最新提出的顶部嵌入广告标准”落地页首屏顶部允许嵌入不超过一屏面积10%的优质广告”,不少开发者对此提出疑问和反馈,本篇文章将对顶部嵌入优质广告要求做出具体解读:落地页首屏顶部允许嵌入优质广告的总体要求如下:面积:顶部嵌入广告面积必须小于首屏面积的10%。标识:广告位上有明……【查看全文

    阅读:89关键词: 落地页   白皮书   广告   广告标准   日期:2020-04-17
  • 基于用户投票的六大排名算法研究

    随着互联网的发展,网站的数量也在随着成倍的增加着,就中国的互联网来说,根据中国互联网信息中心的数据显示,目前中国的网站数量每半年都会以接近10%的数量增长。这些大量的网站涌现,也就意味着我们已进入了信息大爆炸的时代。 而如今用户担心的已不再是信息太少,而……【查看全文

    阅读:4660关键词: 用户投票   排名算法研究   排名算法   用户投票算法   日期:2013-12-28
  • 揭秘搜索引擎中的反SEO作弊研究

    从搜索引擎优化服务开始,分析了现在所存在的搜索引擎优化的作弊手段;然后提出了四种方法用来预防、破解作弊,并结合现实总结提出逐级分层审查刮度;最后结合Google搜索引擎,讨论并分析了Google搜索引擎的反作弊方法及其中的PR值算法……【查看全文

    阅读:687关键词: 搜索引擎   反SEO作弊   SEO研究   日期:2012-10-15
  • 《百度搜索优质内容指南》全文解读

    今日,《百度搜索优质内容指南》在百度搜索学院悄悄地上线了,这是百度近两年,再次重新深度定义什么是百度搜索优质内容,对于SEO人员而言,特别是对于新站长而言,具有非常积极的指导意义,以免造成过多的资源浪费,给予了明确的指导规范的建议。百度搜索2020年全新发布了面向全网内容生产者的《百度搜索优质内容指南》,详细讲述了优质内容的标准,希望给广大内容生产者在生产优质内容时提供参考。关于优质内容的详细标准,请查看以下……【查看全文

    阅读:345关键词: 百度搜索   优质内容   百度指南   日期:2020-04-01
  • 2011-2012年百度历次大更新数据分析

    本篇文章记录了百度从2011年到2012年中旬百度大更新记录的文章。以下数据分析以站长之家官方提供的网站监控分析数据为蓝本,结合优词网等站点观察数据和一些 优秀SEO站长工具和软件的收集,并佐以自己手上二十几个站点作参考进行综合分析,基于统计学分析原理,以大量站……【查看全文

    阅读:636关键词: 百度大更新   数据分析   日期:2012-08-09
  • Google搜索质量小组专业解答的25个SEO问题

    2013年对于众多站长和SEO可以说是最为波折的一年,这一年百度出台了百度绿萝算法、百度石榴算法和百度绿萝算法2.0,而google也相继出台了谷歌EMD算法、熊猫算法、企鹅算法2.0和蜂鸟算法。作为一个站长或SEOer,你是否对这些算法还存在很多的疑惑,尤其对于靠做外贸产品……【查看全文

    阅读:692关键词: Google   Google搜索   搜索质量   解答SEO问题   SEO问题   日期:2013-11-22
  • linux系统或windows+iis系统设置404页面方法

    404页面通常是为用户访问了网站上不存在或已删除的页面,服务器返回404错误页面,告诉浏览者其所请求的页面不存在或链接错误,同时引导用户使用网站其他页面而不是关闭窗口离开,消除用户的疑虑。网站设置404页面后,如果网站出现死链接,搜索引擎蜘蛛爬行这类网址……【查看全文

    阅读:169关键词: 404   linux   系统   window   iis   404页面   日期:2018-11-22
  • 百度最新调整后的算法规则

    最近闹得沸沸扬扬的百度6.22和6.28的K站事件到目前已经告一段落了,K站的主要原因已经渐渐明朗,以及百度将会对哪些类型的网站会做降权处理,现在也已经明朗化。针对各大站长漫长的着急等待,以及愤恨的心情,百度目前已经给出了较为明确的答案,那么百度规则和算法调整……【查看全文

    阅读:1586关键词: 百度最新算法   百度算法规则   百度最新调整   日期:2012-08-17
  • 百度移动搜索落地页体验白皮书4.0全文解读

    进入移动互联网时代,百度搜索致力于提升搜索用户的浏览体验,营造健康的搜索生态。过去一年中,在百度搜索和全网资源提供者的共同努力下,移动搜索落地页广告问题已经得到了明显的改善。现在,百度搜索发布《百度移动搜索落地页体验白皮书4.0》,旨在继续与各内容生产……【查看全文

    阅读:153关键词: 移动搜索   落地页   白皮书   日期:2018-08-15
  • 百度索引量下降的原因及解决方法

    作为一名专业的SEO人员,我们很多的时候都在研究站点中有多少页面可以作为搜索候选结果,也就是一个网站的索引量,所谓网站索引量,就是搜索引擎抓取你网站的数量,这能影响到网站收录率,是一个非常重要的SEO因素,索引量是流量的基础,索引量数据的每一个变动都拨动着……【查看全文

    阅读:5771关键词: 百度索引量   百度   索引量   百度索引   日期:2015-05-21
  • 反向链接是什么意思

    反向链接又叫导入链接(Backlinks),外部链接,是指外部网站有你的网址指向你的网站,其实就是在目标文档(网页)内部进行声明,要求目标文档指向自己(网页)的链接,通俗点讲,网页A上有一个链接指向网页B,则网页A上的链接是网页B的反向链接,换言之,常规链接在文……【查看全文

    阅读:2048关键词: 反向链接   日期:2012-08-14
  • 网站最新SEO优化公式解析

    网站seo优化公式 SEO=Clock=C1+L2+K3+O4 1、是一个积分符号,C=content,L=link,K=keywords,O=others。SEO就是一个长期的对时间积分过程,内容是核心; 2、C1丰富的内容是第一位的要素,按照原创、伪原创、转载依次排列内容的重要性满足用户体验; 3、L2链接的合理与……【查看全文

    阅读:2119关键词: seo   seo优化公式   网站seo   网站优化   seo公式   日期:2012-08-06
  • 百度排名算法规则及SEO优化要点总结

    做SEO目的其实就是为访客服务,满足用户的需求,想方设法的为了用户提供他们想要看的内容,而不是一味的最求最大利益化,其实百度只是一个展示的平台,只要你有了用户的青睐,你想达到的目标,自然也就水到渠成了,做SEO的核心就是要挖掘用户的力量,只有挖掘用户的力量……【查看全文

    阅读:3006关键词: 百度   百度排名   百度算法   seo优化   日期:2015-12-31
  • 百度快照更新是什么意思?

    最近发现有很多刚入SEO行业的新手对网站seo的技巧有很多的误区,比如网站快照不更新就代表网站被惩罚。关于这个观点我们先看看什么是百度快照,百度快照的作用是什么?我们有该如何让百度快照持续更新呢?快照即为Web Cache,可以翻译为网页缓存,当搜索引擎派出蜘蛛去对网站……【查看全文

    阅读:9777关键词: 百度快照   百度快照更新   快照更新   日期:2014-03-17
↓ 点击查看更多 ↓

互联网更多>>

SEO优化 更多>>

百度冰桶算法4.5:发力打击Landing Page恶劣广告 如何通过IIS日志分析网站的隐形信息