🧠 搜索引擎的底层逻辑：李彦宏与谷歌 PageRank

ℹ️ 学习看板

前置要求：无，零基础可读

预计成本：免费 · ⏱ 30 分钟 · 🧠 中

💬 版权声明

本文类型：整理/重构

作者：AI 磨刀匠

许可协议：CC BY 4.0（知识共享署名 4.0 国际许可协议）

说明：本文根据公开资料、专利文件及学术论文整理，核心内容（专利号、论文标题、算法原理）均有原始来源可查。

💡 引子：1998年，两个团队同时在解决同一个问题

1998年，互联网刚刚爆发。那时的搜索引擎（AltaVista、Yahoo等）用的是最笨的方法：谁的关键词出现次数多，谁就排在前面。

这个方法的问题很快暴露出来——网站主可以在页面里疯狂堆砌关键词来刷排名，搜索结果质量极差。「搜索结果的第一名」意味着「最会作弊的网站」，而不是「最有价值的网站」。

这一年，有两个团队几乎同时提出了解决方案，并且用的是高度相似的核心思路：

李彦宏，在美国硅谷 Infoseek 工作，申请了一项专利
拉里·佩奇（Larry Page）和谢尔盖·布林（Sergey Brin），在斯坦福大学的博士生，发表了一篇论文

他们的共同答案是：不要数关键词出现了多少次，要数有多少网站在引用这个页面。

📖 一、李彦宏的「超链分析」专利

专利信息

专利号：US 6,285,999
标题：Method for node ranking in a linked database（基于链接数据库的节点排名方法）
申请时间：1998年
发明人：Robin Li（李彦宏）
所属公司：Infoseek Corporation

核心思想：链接就是投票

李彦宏的洞见非常直观：

如果一个网页被很多其他网页链接，说明这个网页很重要；如果链接它的那些网页本身也很重要，那它就更加重要。

换一个生活中的比喻：

你想知道谁是这个领域最权威的专家。你不去数这个人说了多少话，而是去数有多少其他专家在引用他的观点。被引用越多的人，越可信；被顶级学者引用的人，比被普通人引用的人更可信。

这就是「超链分析」（Hyperlink Analysis）的本质——把互联网上的链接，当成网站之间的相互推荐和背书。

这个想法从哪里来？

李彦宏的灵感来自学术论文引用体系。在学术界，判断一篇论文是否重要，看的是被引用次数（Citation Index）。一篇被引用1000次的论文，显然比只被引用3次的论文更有影响力。

互联网上的链接，本质上和学术引用是一回事——一个网站链接另一个网站，就是在说「我认为这个网站有价值」。

历史意义

李彦宏的专利比谷歌公司的成立（1998年9月）稍早。他后来回国创建百度时，将这套思想用在了中文搜索中，这也是百度早期质量远超其他中文搜索引擎的核心原因。

📖 二、谷歌的 PageRank 算法

论文信息

论文标题：The Anatomy of a Large-Scale Hypertextual Web Search Engine（大规模超文本网络搜索引擎的剖析）
作者：Sergey Brin, Lawrence Page
发表时间：1998年，第七届国际万维网大会（WWW7）
机构：斯坦福大学计算机系

这篇论文是谷歌的「出生证明」，也是互联网历史上被引用最多的计算机科学论文之一。

PageRank 的核心逻辑

PageRank（网页排名）这个词，字面上是「网页排名」，但 Page 其实也是 Larry Page 的名字——这个算法用创始人的名字命名。

基本规则：

一个网页的 PageRank 值，由所有链接指向它的网页的 PageRank 值共同决定。

用一个公式来理解（不需要真的懂数学）：

你的重要性 = （推荐你的人A的重要性 ÷ A推荐的总数量）
           + （推荐你的人B的重要性 ÷ B推荐的总数量）
           + ……以此类推

每个推荐你的人，先把自己的重要性均分给他推荐的所有人，你只拿到属于你的那一份，然后把所有人给你的那份加在一起，就是你的 PageRank。

举个具体的例子：

A 的重要性是 2，A 总共推荐了 5 个网站（包括你）
B 的重要性是 3，B 总共推荐了 6 个网站（包括你）

你的分数 = (2 ÷ 5) + (3 ÷ 6)
         = 0.4   + 0.5
         = 0.9

注意：分母不是 5+6=11，而是 A 和 B 各自独立去除，再把结果相加。A 把自己的 2 分成 5 份，你得 1 份（0.4）；B 把自己的 3 分成 6 份，你得 1 份（0.5）。两份合起来才是你的总分。

关键点：

被重要网页推荐，比被普通网页推荐值钱得多
- 《纽约时报》链接你 ≠ 一个无人访问的小博客链接你
- 前者对你的 PageRank 贡献远大于后者
一个网页推荐的东西越多，每一条推荐越不值钱
- 如果一个页面链接了1000个网站，它投给你的票只有 1/1000
- 如果一个页面只链接了3个网站，它投给你的票有 1/3
PageRank 是迭代计算的
- 先给所有网页一个初始值（假设所有网页同等重要）
- 然后反复计算：根据谁链接谁来重新分配重要性
- 经过多轮迭代，最终稳定下来的值就是 PageRank

随机冲浪者模型：最直观的理解方式

PageRank 的论文提供了一个绝妙的比喻——「随机冲浪者」（Random Surfer）：

想象一个极度无聊的网民，他随机打开一个网页，然后随机点击页面上的一个链接，进入下一个网页，再随机点击一个链接……如此循环。

如果让这个人冲浪无限长的时间，他停留在某个页面的概率，就是那个页面的 PageRank 值。

这个比喻揭示了一个道理：一个页面越重要，随机冲浪者越容易「自然地」来到这里——因为有更多重要的页面在链接它。

一个小细节：「阻尼系数」

随机冲浪者不会永远点链接，偶尔他会厌倦，直接在浏览器输入一个新的网址。PageRank 引入了一个「阻尼系数」（Damping Factor），通常设为 0.85，意思是：

有85%的概率，冲浪者点击当前页面上的链接；有15%的概率，他会直接跳到一个随机网页。

这个设定防止了一些「陷阱网站」——如果所有链接都指向彼此形成闭环，PageRank 会被这个闭环独吞。阻尼系数让重要性得以流通到整个互联网。

⚖️ 三、两者的对比与关系

	李彦宏超链分析	谷歌 PageRank
时间	1998年专利申请	1998年论文发表
核心思想	链接数量反映网页重要性	链接质量+数量共同决定重要性
数学工具	相对简单	矩阵特征向量、迭代计算
实际影响	百度早期核心技术	谷歌搜索的基础
关系	独立发明，思路高度相似	独立发明，思路高度相似

值得注意的是：两者是独立发明的，思路却高度相似，这说明 1998 年前后，「用链接结构来评价网页质量」是整个搜索领域在同时逼近的方向——就像牛顿和莱布尼茨同时发明了微积分一样。

💡 四、这对普通用户意味着什么？

理解了 PageRank 和超链分析，你就能理解几个日常现象：

为什么维基百科总是排第一？ 因为全世界几乎所有网页都会在提到某个知识点时链接到维基百科。被链接次数多，且链接来源质量高，PageRank 自然极高。

为什么内容农场/垃圾网站能刷上来？ 因为他们会组建「链接农场」——一堆互相链接的网站，人为制造高 PageRank。这是 SEO 黑产的核心手法之一，谷歌和百度一直在与之博弈。

为什么「被权威媒体报道」对一个网站很重要？ 因为《人民日报》《纽约时报》这类网站本身 PageRank 极高，它们链接你，相当于高质量的「一票」，对你的排名提升非常显著。

为什么老网站往往比新网站排名高？ 积累的外部链接需要时间。一个运营了10年的网站，往往有大量网页引用它；一个新网站，还没来得及被别人引用。

🔄 五、搜索引擎之后发生了什么

PageRank 和超链分析是搜索引擎 1.0 时代的基础，但搜索引擎没有停在这里。

搜索引擎 2.0（2005-2015）：

引入用户行为信号：点击率、停留时间、跳出率
引入语义理解：同义词、上下文
引入个性化：根据你的历史搜索调整结果
PageRank 的权重逐渐下降，变成 200+ 个排名因素之一

搜索引擎 3.0（2015至今）：

深度学习和神经网络介入
Google 的 BERT（2019）、MUM 模型：真正理解句子含义，而不是匹配关键词
语义搜索：搜「哪种水果维生素C最高」，能理解你在比较水果，而不只是找包含这些词的网页

AI 搜索（2023至今）：

Perplexity、ChatGPT Search、Google AI Overview
不返回链接列表，而是直接综合回答
PageRank 的意义进一步弱化，但链接结构仍是判断信息质量的依据之一

✨ 结语

李彦宏的专利和谷歌的 PageRank，解决了一个根本问题：在信息爆炸的互联网上，如何区分「有价值的信息」和「垃圾信息」。

他们的答案是：让互联网自己投票。这个思想如此优雅，以至于在 AI 时代到来之前的20多年里，它一直是搜索引擎的核心基础。

理解这个逻辑，不只是满足好奇心——当你知道搜索引擎在衡量什么，你就更能理解：

为什么某些结果排在前面
为什么权威来源比小网站更可信
为什么验证信息要看「有多少独立来源引用」而不只是「有没有人说过」

这个道理，从搜索引擎的算法，一直延伸到我们在现实中判断信息可信度的方法。

🔗 延伸阅读

李彦宏专利原文：US Patent 6,285,999（可在 Google Patents 搜索 6285999）
PageRank 论文原文：Brin, S. & Page, L. (1998). The Anatomy of a Large-Scale Hypertextual Web Search Engine（可在 Google Scholar 搜索标题全文）
《超链分析技术》：李彦宏于 1997-1998 年在 Infoseek 的研究工作，《硅谷之谜》等书中有记述

🚀 下一步

学完本节，继续阅读信息在哪找：各平台搜索调性指南——知道了搜索引擎怎么工作，接下来学习不同平台各自擅长找什么。