目录
🧠 搜索引擎的底层逻辑:李彦宏与谷歌 PageRank
ℹ️ 学习看板
- 前置要求:无,零基础可读
- 预计成本:免费 · ⏱ 30 分钟 · 🧠 中
💬 版权声明
- 本文类型:整理/重构
- 作者:AI 磨刀匠
- 许可协议:CC BY 4.0(知识共享署名 4.0 国际许可协议)
- 说明:本文根据公开资料、专利文件及学术论文整理,核心内容(专利号、论文标题、算法原理)均有原始来源可查。
💡 引子:1998年,两个团队同时在解决同一个问题
1998年,互联网刚刚爆发。那时的搜索引擎(AltaVista、Yahoo等)用的是最笨的方法:谁的关键词出现次数多,谁就排在前面。
这个方法的问题很快暴露出来——网站主可以在页面里疯狂堆砌关键词来刷排名,搜索结果质量极差。「搜索结果的第一名」意味着「最会作弊的网站」,而不是「最有价值的网站」。
这一年,有两个团队几乎同时提出了解决方案,并且用的是高度相似的核心思路:
- 李彦宏,在美国硅谷 Infoseek 工作,申请了一项专利
- 拉里·佩奇(Larry Page)和谢尔盖·布林(Sergey Brin),在斯坦福大学的博士生,发表了一篇论文
他们的共同答案是:不要数关键词出现了多少次,要数有多少网站在引用这个页面。
📖 一、李彦宏的「超链分析」专利
专利信息
- 专利号:US 6,285,999
- 标题:Method for node ranking in a linked database(基于链接数据库的节点排名方法)
- 申请时间:1998年
- 发明人:Robin Li(李彦宏)
- 所属公司:Infoseek Corporation
核心思想:链接就是投票
李彦宏的洞见非常直观:
如果一个网页被很多其他网页链接,说明这个网页很重要;如果链接它的那些网页本身也很重要,那它就更加重要。
换一个生活中的比喻:
你想知道谁是这个领域最权威的专家。你不去数这个人说了多少话,而是去数有多少其他专家在引用他的观点。被引用越多的人,越可信;被顶级学者引用的人,比被普通人引用的人更可信。
这就是「超链分析」(Hyperlink Analysis)的本质——把互联网上的链接,当成网站之间的相互推荐和背书。
这个想法从哪里来?
李彦宏的灵感来自学术论文引用体系。在学术界,判断一篇论文是否重要,看的是被引用次数(Citation Index)。一篇被引用1000次的论文,显然比只被引用3次的论文更有影响力。
互联网上的链接,本质上和学术引用是一回事——一个网站链接另一个网站,就是在说「我认为这个网站有价值」。
历史意义
李彦宏的专利比谷歌公司的成立(1998年9月)稍早。他后来回国创建百度时,将这套思想用在了中文搜索中,这也是百度早期质量远超其他中文搜索引擎的核心原因。
📖 二、谷歌的 PageRank 算法
论文信息
- 论文标题:The Anatomy of a Large-Scale Hypertextual Web Search Engine(大规模超文本网络搜索引擎的剖析)
- 作者:Sergey Brin, Lawrence Page
- 发表时间:1998年,第七届国际万维网大会(WWW7)
- 机构:斯坦福大学计算机系
这篇论文是谷歌的「出生证明」,也是互联网历史上被引用最多的计算机科学论文之一。
PageRank 的核心逻辑
PageRank(网页排名)这个词,字面上是「网页排名」,但 Page 其实也是 Larry Page 的名字——这个算法用创始人的名字命名。
基本规则:
一个网页的 PageRank 值,由所有链接指向它的网页的 PageRank 值共同决定。
用一个公式来理解(不需要真的懂数学):
你的重要性 = (推荐你的人A的重要性 ÷ A推荐的总数量)
+ (推荐你的人B的重要性 ÷ B推荐的总数量)
+ ……以此类推
每个推荐你的人,先把自己的重要性均分给他推荐的所有人,你只拿到属于你的那一份,然后把所有人给你的那份加在一起,就是你的 PageRank。
举个具体的例子:
- A 的重要性是 2,A 总共推荐了 5 个网站(包括你)
- B 的重要性是 3,B 总共推荐了 6 个网站(包括你)
你的分数 = (2 ÷ 5) + (3 ÷ 6)
= 0.4 + 0.5
= 0.9
注意:分母不是 5+6=11,而是 A 和 B 各自独立去除,再把结果相加。A 把自己的 2 分成 5 份,你得 1 份(0.4);B 把自己的 3 分成 6 份,你得 1 份(0.5)。两份合起来才是你的总分。
关键点:
-
被重要网页推荐,比被普通网页推荐值钱得多
- 《纽约时报》链接你 ≠ 一个无人访问的小博客链接你
- 前者对你的 PageRank 贡献远大于后者
-
一个网页推荐的东西越多,每一条推荐越不值钱
- 如果一个页面链接了1000个网站,它投给你的票只有 1/1000
- 如果一个页面只链接了3个网站,它投给你的票有 1/3
-
PageRank 是迭代计算的
- 先给所有网页一个初始值(假设所有网页同等重要)
- 然后反复计算:根据谁链接谁来重新分配重要性
- 经过多轮迭代,最终稳定下来的值就是 PageRank
随机冲浪者模型:最直观的理解方式
PageRank 的论文提供了一个绝妙的比喻——「随机冲浪者」(Random Surfer):
想象一个极度无聊的网民,他随机打开一个网页,然后随机点击页面上的一个链接,进入下一个网页,再随机点击一个链接……如此循环。
如果让这个人冲浪无限长的时间,他停留在某个页面的概率,就是那个页面的 PageRank 值。
这个比喻揭示了一个道理:一个页面越重要,随机冲浪者越容易「自然地」来到这里——因为有更多重要的页面在链接它。
一个小细节:「阻尼系数」
随机冲浪者不会永远点链接,偶尔他会厌倦,直接在浏览器输入一个新的网址。PageRank 引入了一个「阻尼系数」(Damping Factor),通常设为 0.85,意思是:
有85%的概率,冲浪者点击当前页面上的链接;有15%的概率,他会直接跳到一个随机网页。
这个设定防止了一些「陷阱网站」——如果所有链接都指向彼此形成闭环,PageRank 会被这个闭环独吞。阻尼系数让重要性得以流通到整个互联网。
⚖️ 三、两者的对比与关系
| 李彦宏超链分析 | 谷歌 PageRank | |
|---|---|---|
| 时间 | 1998年专利申请 | 1998年论文发表 |
| 核心思想 | 链接数量反映网页重要性 | 链接质量+数量共同决定重要性 |
| 数学工具 | 相对简单 | 矩阵特征向量、迭代计算 |
| 实际影响 | 百度早期核心技术 | 谷歌搜索的基础 |
| 关系 | 独立发明,思路高度相似 | 独立发明,思路高度相似 |
值得注意的是:两者是独立发明的,思路却高度相似,这说明 1998 年前后,「用链接结构来评价网页质量」是整个搜索领域在同时逼近的方向——就像牛顿和莱布尼茨同时发明了微积分一样。
💡 四、这对普通用户意味着什么?
理解了 PageRank 和超链分析,你就能理解几个日常现象:
为什么维基百科总是排第一? 因为全世界几乎所有网页都会在提到某个知识点时链接到维基百科。被链接次数多,且链接来源质量高,PageRank 自然极高。
为什么内容农场/垃圾网站能刷上来? 因为他们会组建「链接农场」——一堆互相链接的网站,人为制造高 PageRank。这是 SEO 黑产的核心手法之一,谷歌和百度一直在与之博弈。
为什么「被权威媒体报道」对一个网站很重要? 因为《人民日报》《纽约时报》这类网站本身 PageRank 极高,它们链接你,相当于高质量的「一票」,对你的排名提升非常显著。
为什么老网站往往比新网站排名高? 积累的外部链接需要时间。一个运营了10年的网站,往往有大量网页引用它;一个新网站,还没来得及被别人引用。
🔄 五、搜索引擎之后发生了什么
PageRank 和超链分析是搜索引擎 1.0 时代的基础,但搜索引擎没有停在这里。
搜索引擎 2.0(2005-2015):
- 引入用户行为信号:点击率、停留时间、跳出率
- 引入语义理解:同义词、上下文
- 引入个性化:根据你的历史搜索调整结果
- PageRank 的权重逐渐下降,变成 200+ 个排名因素之一
搜索引擎 3.0(2015至今):
- 深度学习和神经网络介入
- Google 的 BERT(2019)、MUM 模型:真正理解句子含义,而不是匹配关键词
- 语义搜索:搜「哪种水果维生素C最高」,能理解你在比较水果,而不只是找包含这些词的网页
AI 搜索(2023至今):
- Perplexity、ChatGPT Search、Google AI Overview
- 不返回链接列表,而是直接综合回答
- PageRank 的意义进一步弱化,但链接结构仍是判断信息质量的依据之一
✨ 结语
李彦宏的专利和谷歌的 PageRank,解决了一个根本问题:在信息爆炸的互联网上,如何区分「有价值的信息」和「垃圾信息」。
他们的答案是:让互联网自己投票。这个思想如此优雅,以至于在 AI 时代到来之前的20多年里,它一直是搜索引擎的核心基础。
理解这个逻辑,不只是满足好奇心——当你知道搜索引擎在衡量什么,你就更能理解:
- 为什么某些结果排在前面
- 为什么权威来源比小网站更可信
- 为什么验证信息要看「有多少独立来源引用」而不只是「有没有人说过」
这个道理,从搜索引擎的算法,一直延伸到我们在现实中判断信息可信度的方法。
🔗 延伸阅读
- 李彦宏专利原文:US Patent 6,285,999(可在 Google Patents 搜索
6285999) - PageRank 论文原文:Brin, S. & Page, L. (1998). The Anatomy of a Large-Scale Hypertextual Web Search Engine(可在 Google Scholar 搜索标题全文)
- 《超链分析技术》:李彦宏于 1997-1998 年在 Infoseek 的研究工作,《硅谷之谜》等书中有记述
🚀 下一步
学完本节,继续阅读 信息在哪找:各平台搜索调性指南——知道了搜索引擎怎么工作,接下来学习不同平台各自擅长找什么。