目录

🧠 搜索引擎的底层逻辑:李彦宏与谷歌 PageRank

ℹ️ 学习看板

  • 前置要求:无,零基础可读
  • 预计成本:免费 · ⏱ 30 分钟 · 🧠 中

💬 版权声明

  • 本文类型:整理/重构
  • 作者:AI 磨刀匠
  • 许可协议:CC BY 4.0(知识共享署名 4.0 国际许可协议)
  • 说明:本文根据公开资料、专利文件及学术论文整理,核心内容(专利号、论文标题、算法原理)均有原始来源可查。

💡 引子:1998年,两个团队同时在解决同一个问题

1998年,互联网刚刚爆发。那时的搜索引擎(AltaVista、Yahoo等)用的是最笨的方法:谁的关键词出现次数多,谁就排在前面

这个方法的问题很快暴露出来——网站主可以在页面里疯狂堆砌关键词来刷排名,搜索结果质量极差。「搜索结果的第一名」意味着「最会作弊的网站」,而不是「最有价值的网站」。

这一年,有两个团队几乎同时提出了解决方案,并且用的是高度相似的核心思路:

  • 李彦宏,在美国硅谷 Infoseek 工作,申请了一项专利
  • 拉里·佩奇(Larry Page)和谢尔盖·布林(Sergey Brin),在斯坦福大学的博士生,发表了一篇论文

他们的共同答案是:不要数关键词出现了多少次,要数有多少网站在引用这个页面。


📖 一、李彦宏的「超链分析」专利

专利信息

  • 专利号:US 6,285,999
  • 标题:Method for node ranking in a linked database(基于链接数据库的节点排名方法)
  • 申请时间:1998年
  • 发明人:Robin Li(李彦宏)
  • 所属公司:Infoseek Corporation

核心思想:链接就是投票

李彦宏的洞见非常直观:

如果一个网页被很多其他网页链接,说明这个网页很重要;如果链接它的那些网页本身也很重要,那它就更加重要。

换一个生活中的比喻:

你想知道谁是这个领域最权威的专家。你不去数这个人说了多少话,而是去数有多少其他专家在引用他的观点。被引用越多的人,越可信;被顶级学者引用的人,比被普通人引用的人更可信。

这就是「超链分析」(Hyperlink Analysis)的本质——把互联网上的链接,当成网站之间的相互推荐和背书。

这个想法从哪里来?

李彦宏的灵感来自学术论文引用体系。在学术界,判断一篇论文是否重要,看的是被引用次数(Citation Index)。一篇被引用1000次的论文,显然比只被引用3次的论文更有影响力。

互联网上的链接,本质上和学术引用是一回事——一个网站链接另一个网站,就是在说「我认为这个网站有价值」。

历史意义

李彦宏的专利比谷歌公司的成立(1998年9月)稍早。他后来回国创建百度时,将这套思想用在了中文搜索中,这也是百度早期质量远超其他中文搜索引擎的核心原因。


📖 二、谷歌的 PageRank 算法

论文信息

  • 论文标题:The Anatomy of a Large-Scale Hypertextual Web Search Engine(大规模超文本网络搜索引擎的剖析)
  • 作者:Sergey Brin, Lawrence Page
  • 发表时间:1998年,第七届国际万维网大会(WWW7)
  • 机构:斯坦福大学计算机系

这篇论文是谷歌的「出生证明」,也是互联网历史上被引用最多的计算机科学论文之一。

PageRank 的核心逻辑

PageRank(网页排名)这个词,字面上是「网页排名」,但 Page 其实也是 Larry Page 的名字——这个算法用创始人的名字命名。

基本规则:

一个网页的 PageRank 值,由所有链接指向它的网页的 PageRank 值共同决定。

用一个公式来理解(不需要真的懂数学):

你的重要性 = (推荐你的人A的重要性 ÷ A推荐的总数量)
           + (推荐你的人B的重要性 ÷ B推荐的总数量)
           + ……以此类推

每个推荐你的人,先把自己的重要性均分给他推荐的所有人,你只拿到属于你的那一份,然后把所有人给你的那份加在一起,就是你的 PageRank。

举个具体的例子:

  • A 的重要性是 2,A 总共推荐了 5 个网站(包括你)
  • B 的重要性是 3,B 总共推荐了 6 个网站(包括你)
你的分数 = (2 ÷ 5) + (3 ÷ 6)
         = 0.4   + 0.5
         = 0.9

注意:分母不是 5+6=11,而是 A 和 B 各自独立去除,再把结果相加。A 把自己的 2 分成 5 份,你得 1 份(0.4);B 把自己的 3 分成 6 份,你得 1 份(0.5)。两份合起来才是你的总分。

关键点:

  1. 被重要网页推荐,比被普通网页推荐值钱得多

    • 《纽约时报》链接你 ≠ 一个无人访问的小博客链接你
    • 前者对你的 PageRank 贡献远大于后者
  2. 一个网页推荐的东西越多,每一条推荐越不值钱

    • 如果一个页面链接了1000个网站,它投给你的票只有 1/1000
    • 如果一个页面只链接了3个网站,它投给你的票有 1/3
  3. PageRank 是迭代计算的

    • 先给所有网页一个初始值(假设所有网页同等重要)
    • 然后反复计算:根据谁链接谁来重新分配重要性
    • 经过多轮迭代,最终稳定下来的值就是 PageRank

随机冲浪者模型:最直观的理解方式

PageRank 的论文提供了一个绝妙的比喻——「随机冲浪者」(Random Surfer):

想象一个极度无聊的网民,他随机打开一个网页,然后随机点击页面上的一个链接,进入下一个网页,再随机点击一个链接……如此循环。

如果让这个人冲浪无限长的时间,他停留在某个页面的概率,就是那个页面的 PageRank 值

这个比喻揭示了一个道理:一个页面越重要,随机冲浪者越容易「自然地」来到这里——因为有更多重要的页面在链接它。

一个小细节:「阻尼系数」

随机冲浪者不会永远点链接,偶尔他会厌倦,直接在浏览器输入一个新的网址。PageRank 引入了一个「阻尼系数」(Damping Factor),通常设为 0.85,意思是:

有85%的概率,冲浪者点击当前页面上的链接;有15%的概率,他会直接跳到一个随机网页。

这个设定防止了一些「陷阱网站」——如果所有链接都指向彼此形成闭环,PageRank 会被这个闭环独吞。阻尼系数让重要性得以流通到整个互联网。


⚖️ 三、两者的对比与关系

李彦宏超链分析谷歌 PageRank
时间1998年专利申请1998年论文发表
核心思想链接数量反映网页重要性链接质量+数量共同决定重要性
数学工具相对简单矩阵特征向量、迭代计算
实际影响百度早期核心技术谷歌搜索的基础
关系独立发明,思路高度相似独立发明,思路高度相似

值得注意的是:两者是独立发明的,思路却高度相似,这说明 1998 年前后,「用链接结构来评价网页质量」是整个搜索领域在同时逼近的方向——就像牛顿和莱布尼茨同时发明了微积分一样。


💡 四、这对普通用户意味着什么?

理解了 PageRank 和超链分析,你就能理解几个日常现象:

为什么维基百科总是排第一? 因为全世界几乎所有网页都会在提到某个知识点时链接到维基百科。被链接次数多,且链接来源质量高,PageRank 自然极高。

为什么内容农场/垃圾网站能刷上来? 因为他们会组建「链接农场」——一堆互相链接的网站,人为制造高 PageRank。这是 SEO 黑产的核心手法之一,谷歌和百度一直在与之博弈。

为什么「被权威媒体报道」对一个网站很重要? 因为《人民日报》《纽约时报》这类网站本身 PageRank 极高,它们链接你,相当于高质量的「一票」,对你的排名提升非常显著。

为什么老网站往往比新网站排名高? 积累的外部链接需要时间。一个运营了10年的网站,往往有大量网页引用它;一个新网站,还没来得及被别人引用。


🔄 五、搜索引擎之后发生了什么

PageRank 和超链分析是搜索引擎 1.0 时代的基础,但搜索引擎没有停在这里。

搜索引擎 2.0(2005-2015)

  • 引入用户行为信号:点击率、停留时间、跳出率
  • 引入语义理解:同义词、上下文
  • 引入个性化:根据你的历史搜索调整结果
  • PageRank 的权重逐渐下降,变成 200+ 个排名因素之一

搜索引擎 3.0(2015至今)

  • 深度学习和神经网络介入
  • Google 的 BERT(2019)、MUM 模型:真正理解句子含义,而不是匹配关键词
  • 语义搜索:搜「哪种水果维生素C最高」,能理解你在比较水果,而不只是找包含这些词的网页

AI 搜索(2023至今)

  • Perplexity、ChatGPT Search、Google AI Overview
  • 不返回链接列表,而是直接综合回答
  • PageRank 的意义进一步弱化,但链接结构仍是判断信息质量的依据之一

✨ 结语

李彦宏的专利和谷歌的 PageRank,解决了一个根本问题:在信息爆炸的互联网上,如何区分「有价值的信息」和「垃圾信息」。

他们的答案是:让互联网自己投票。这个思想如此优雅,以至于在 AI 时代到来之前的20多年里,它一直是搜索引擎的核心基础。

理解这个逻辑,不只是满足好奇心——当你知道搜索引擎在衡量什么,你就更能理解:

  • 为什么某些结果排在前面
  • 为什么权威来源比小网站更可信
  • 为什么验证信息要看「有多少独立来源引用」而不只是「有没有人说过」

这个道理,从搜索引擎的算法,一直延伸到我们在现实中判断信息可信度的方法。


🔗 延伸阅读

  • 李彦宏专利原文:US Patent 6,285,999(可在 Google Patents 搜索 6285999
  • PageRank 论文原文:Brin, S. & Page, L. (1998). The Anatomy of a Large-Scale Hypertextual Web Search Engine(可在 Google Scholar 搜索标题全文)
  • 《超链分析技术》:李彦宏于 1997-1998 年在 Infoseek 的研究工作,《硅谷之谜》等书中有记述

🚀 下一步

学完本节,继续阅读 信息在哪找:各平台搜索调性指南——知道了搜索引擎怎么工作,接下来学习不同平台各自擅长找什么。