搜索引擎的工作原理：爬取、索引、排名 | kaiaseo.com

系列一 · SEO入门 / 第 02 篇

搜索引擎的工作原理：
爬取、索引、排名

入门系列技术基础零基础适读阅读约 15 分钟 2026 年 6 月

「只要我把文章发布上去，谷歌就会自动找到它。」

这是很多人的直觉。但现实远比这复杂。

谷歌在结果页展示给你的，不是整个互联网——而是它爬取过、读懂过、判断有价值、决定收录的那一部分。从你的网页发布，到它出现在搜索结果里，中间经历了三个完全独立的阶段：爬取（Crawl）、索引（Index）、排名（Rank）。

理解这三个阶段，是做好 SEO 的地基。很多「我的文章发布了但搜不到」「排名一直上不去」的问题，根源都在这里。

①

核心概念

三个阶段：爬取、索引、排名

先用一个比喻建立整体感

把谷歌想象成一个图书馆：

🔍

爬取 Crawl

采购员找书

在全世界到处发现新书（网页），决定要不要带回来

📚

索引 Index

编目上架

把书分类整理、编好目录放上书架，让人能找到

🎯

排名 Rank

推荐最合适的

当你来查询，馆员根据你的需求挑出最合适那本推给你

三个环节缺一不可：没有采购，书架是空的；没有编目，找不到书；没有好的推荐判断，你拿到的不是你要的。

第一阶段：爬取（Crawl）

谷歌的爬虫程序叫 Googlebot，本质是一个自动化的网页浏览器。它的工作循环：

从种子URL出发

从一批已知的高权威网站首页开始，这是爬虫的起点

访问页面、读取内容

下载 HTML、执行 JavaScript、解析所有文字和链接

提取链接加入队列

把页面上发现的所有链接加入「待访问队列」，按优先级排序

按优先级循环继续

不断重复这个过程，覆盖越来越多的网页

移动优先索引：手机版才是谷歌真正看的

Googlebot 有两个版本：Googlebot Smartphone（手机版）和 Googlebot Desktop（桌面版）。自 2023 年 10 月起，谷歌全面采用移动优先索引——主要用手机爬虫来抓取和索引页面。

关键含义：如果你的页面在手机上显示不全、加载缓慢，谷歌「看到」的就是不完整的内容——即使桌面版完全正常。桌面独有的内容，对 SEO 等于不存在。

爬虫如何发现你的页面

三条主要发现路径

内链（最重要）：已知页面上的链接是爬虫最主要的导航方式。一个「孤儿页面」——没有任何页面链向它——可能永远不会被发现
XML Sitemap：你主动提交的页面地图，相当于给爬虫一份完整导览手册
GSC 手动提交：发布新内容后，可在 Search Console 里直接请求谷歌爬取特定 URL

爬取预算（Crawl Budget）

谷歌不会无限制地爬取任何网站。它会给每个网站分配一个「爬取预算」——每天爬多少页面，由两个因素决定：

爬取速率限制：谷歌不想拖慢你的服务器，根据服务器响应时间自动调整频率
爬取需求：页面越受欢迎（外链多、流量高）、更新越频繁，谷歌越愿意来爬

小网站（几百页以内）基本不需要担心爬取预算。但大型电商、新闻网站、有数万 URL 的平台，这是重要的技术议题——如果预算被低价值页面消耗，真正重要的页面就可能很久才被更新。

第二阶段：索引（Index）

爬取完成后，Googlebot 将页面内容发送给谷歌的处理系统。这一步包含两个关键环节：

渲染（Rendering）：谷歌用 Chromium 内核执行 JavaScript，生成最终的页面 DOM，「看到」用户实际看到的页面。这对 React、Vue 等 SPA 框架尤为重要——内容如果依赖 JS 生成，谷歌需要等待渲染完成才能理解。

决定是否收录：渲染完成后，谷歌判断这个页面是否值得加入索引。影响这个决定的因素：

是否有 noindex 指令
内容质量（是否有实质性内容、是否是重复内容）
是否有 canonical 标签指向其他页面
页面整体的 E-E-A-T 信号

最重要的认知：被爬取 ≠ 被收录。谷歌官方文档明确说明：一个页面可以被 Googlebot 访问，但仍然不被加入索引。在 Search Console 看到「Discovered – currently not indexed」（已发现但未收录）状态，通常是内容质量问题的信号，不是技术问题。

第三阶段：排名（Rank）

当用户输入一个查询词，谷歌在毫秒内完成：理解查询意图 → 从索引中检索候选页面 → 用数百个信号评分排序 → 呈现结果（含 AI Overview、精选摘要、图片、视频等富结果）。

排名最核心的三个维度：

维度	核心问题	主要信号
相关性	内容是否真正回答了用户的查询？意图是否匹配？	关键词、语义、内容深度、搜索意图对齐
权威性	谁在推荐这个页面？外部对它的评价如何？	外链数量与质量、品牌提及、E-E-A-T
体验	用户访问这个页面的实际体验如何？	Core Web Vitals、移动端适配、HTTPS、速度

E-E-A-T 代表 Experience（经验）、Expertise（专业知识）、Authoritativeness（权威性）、Trustworthiness（可信度）。这是谷歌质量评估员指南的核心框架——谷歌的算法被设计为模拟质量评估员的判断，内容越符合 E-E-A-T，越容易获得好排名。

②

数据支撑

关键数据：理解三个阶段的规模

爬取阶段

4.5%

Googlebot 占全部 HTML 请求的比例

来源：PPC Land 分析 Cloudflare 数据，2025年。同期 AI 爬虫也占 4.2%，两者规模相近。

2023.10

谷歌全面转向移动优先索引的时间

来源：Google Search Central 官方公告。手机版内容是索引的主要依据。

索引阶段的规模

谷歌的索引规模数据：

谷歌「知道」的 URL 数量：数百万亿（含大量重复、低质量、未收录页面）
谷歌实际收录的页面数量：约 400 亿（2020年，来源：美国诉谷歌反垄断案，Pandu Nayak 法庭证词）
谷歌索引的数据量规模：超过 100PB（1亿 GB）
互联网实际存在网页数量：估计超过 5 万亿（worldwidewebsize.com，2025年）
每天 15% 的谷歌搜索是全新查询（Google 官方数据）

换句话说：互联网上只有极少数页面真正进入谷歌索引，而进入索引的也只有小部分会出现在搜索结果前几名。

排名阶段

200+

谷歌排名算法使用的信号数量

谷歌官方确认，具体权重从未公开。2024年 API 泄露揭示了 14,000+ 个属性，但多数为内部标识符，不等于可操作的排名因素。

仅 7 个

谷歌官方明确公开确认的排名因素数量

来源：Ahrefs 整理。含：内容质量、内链、外链、HTTPS、Core Web Vitals、移动端适配、页面速度。

23%

内容质量在排名算法中的权重估算

来源：First Page Sage，2025年，覆盖 3,500+ 篇文章排名追踪。内容质量已连续 7 年是最重要排名因素。

3.8×

第一名外链数量是第 2–10 名的平均倍数

来源：Backlinko，11.8 百万条结果分析。但外链权重在下降：从 2023 年的 15% 降至 2025 年的 13%。

③

操作步骤

基于三个阶段的 SEO 检查清单

爬取阶段：确保谷歌能找到你的页面

检查 robots.txt：访问 yourdomain.com/robots.txt，确认没有意外禁止爬虫访问重要页面
提交 XML Sitemap：在 GSC → 「站点地图」→ 提交你的 sitemap.xml 链接
消灭孤儿页面：确认每个重要页面都能从导航或其他页面通过链接到达
优化服务器响应速度：在 PageSpeed Insights 检测首字节时间（TTFB），目标 < 200ms

索引阶段：确保谷歌读懂并收录你的页面

检查索引状态：GSC → 「URL 检查」工具，输入页面 URL，查看「Google 索引」状态
处理「已发现但未编入索引」：检查内容是否太薄、是否重复、结构是否有问题
确认没有误用 noindex：查看页面源代码，搜索 <meta name="robots">，确认值不是 noindex
新内容发布后手动请求编入索引：GSC → URL 检查 → 「请求编入索引」
检查移动端渲染：GSC → 「移动设备适用性」，确认手机版内容完整

排名阶段：提升内容的竞争力

对齐搜索意图：先搜索目标关键词，看谷歌展示什么类型的内容，做对应类型
分析竞品内容：你的内容比排名第 1–3 的文章更完整、更有数据支撑吗？
优化 Title 和 H1：包含核心关键词，清楚说明页面内容，Title ≤ 60 字符
建立内部链接体系：新发布的文章，从相关旧文章链接过来，帮谷歌判断重要性
追踪 Core Web Vitals：GSC → 「Core Web Vitals」查看 LCP、INP、CLS 评分

全流程对照表

阶段	发生了什么	你可以做什么
爬取	Googlebot 发现 → 访问页面 → 提取链接	内链 + Sitemap + GSC 手动提交
索引	渲染页面 → 判断是否收录 → 加入数据库	内容质量 + 无 noindex + 移动端适配
排名	理解意图 → 候选页面评分 → 呈现结果	搜索意图对齐 + 内容深度 + E-E-A-T + 外链

④

常见误区

关于搜索引擎工作原理的 5 个常见误区

误区 1「提交 Sitemap 就等于被谷歌收录了」

✓ 正确认知Sitemap 只是告诉谷歌「这些页面存在」，不保证被爬取，更不保证被收录。谷歌会根据内容质量自主决定是否收录。提交 Sitemap 是必要的第一步，但远不是全部。

误区 2「被爬取了就会出现在搜索结果里」

✓ 正确认知三个阶段完全独立。爬取 → 索引 → 排名，每一步都可能失败。被爬取但不被收录（noindex 或内容质量差）、被收录但没有排名（相关性不足），都是很常见的情况。

误区 3「robots.txt 能阻止谷歌索引页面」

✓ 正确认知robots.txt 只阻止爬取，不能阻止索引。如果其他网站链接到你被屏蔽的页面，谷歌可能仍会将该 URL 加入索引（显示为「没有可用描述」）。要真正阻止索引，需要使用 noindex 标签。

误区 4「谷歌实时索引，新内容立即可搜到」

✓ 正确认知普通页面从发布到被谷歌收录，平均需要几天到几周。发布后立即在搜索结果里出现是例外，不是常态。GSC 手动请求索引可以加速，但不是秒级的。

误区 5「网站桌面版完美，SEO 就没问题」

✓ 正确认知自 2023 年谷歌全面转向移动优先索引，判断你网站内容的是 Googlebot Smartphone。如果桌面和手机显示的内容不同，谷歌索引的是手机版——桌面独有的内容对 SEO 不存在。

⑤

工具推荐

三个阶段各自的核心工具

爬取阶段工具

免费

Google Search Console — 爬取统计

search.google.com/search-console → 设置 → 爬取统计信息

查看 Googlebot 每天爬取你站点多少次、遇到哪些错误、服务器响应时间如何。

免费/付费

Screaming Frog SEO Spider

screamingfrog.co.uk

模拟搜索引擎爬取你的网站，发现孤儿页面、断链、重定向链、重复内容等技术问题。免费版限 500 个 URL。

付费

Sitebulb

sitebulb.com

比 Screaming Frog 界面更友好，爬取报告可视化更丰富，适合定期做技术审计的团队。

索引阶段工具

免费

Google Search Console — Coverage 报告

search.google.com/search-console → 索引 → 网页

查看已索引页面数、排除原因、「已发现但未编入索引」等状态。诊断收录问题的首要工具。

免费

GSC — URL 检查工具

search.google.com/search-console → URL 检查

输入任意 URL，查看谷歌最后一次爬取时间、渲染截图、索引状态，并可手动请求编入索引。

付费

IndexCheckr

indexcheckr.com

批量检查大量 URL 的索引状态，适合有大量页面的网站做索引率分析。

排名阶段工具

免费

Google Search Console — 效果报告

search.google.com/search-console → 效果

查看哪些关键词带来了展示量和点击，你的平均排名位置，哪些页面表现最好。

付费

Ahrefs / Semrush

ahrefs.com / semrush.com

追踪关键词排名变化、竞品排名分析、外链分析。Ahrefs 的 Rank Tracker 功能最受专业 SEO 认可。

免费

PageSpeed Insights

pagespeed.web.dev

检测 Core Web Vitals（LCP、INP、CLS），提供具体优化建议。这三个指标直接影响谷歌排名。

⑥

延伸阅读与资源

本系列下一篇 →

Google排名靠什么决定——信号背后的底层逻辑

200+ 排名因素里，真正重要的是哪几个
E-E-A-T 怎么理解，怎么系统建设
2024年 API 泄露告诉了我们什么
PageRank 现在还重要吗

权威参考资料

Google 官方「搜索原理」— google.com/search/howsearchworks
Google Search Central「爬取和索引」指南 — developers.google.com/search/docs/crawling-indexing
Google 官方「大型网站爬取预算管理」— 大型网站爬取预算管理指南
Zyppy — 谷歌索引有多大？深度分析 — zyppy.com/seo/google-index-size
Ahrefs — Google 唯一公开确认的 7 个排名因素 — ahrefs.com/blog/google-ranking-factors

给自己留的思考问题

读完之后，问自己这几个问题

你的网站，「爬取 → 索引 → 排名」哪个阶段是现在的瓶颈？打开 GSC 看看实际数据
有没有重要页面处于「已发现但未编入索引」状态？原因是内容质量还是技术问题？
你的内容在相关性、权威性、体验三个维度里，哪个最薄弱？

数据来源索引

PPC Land — Googlebot 爬取分析，Cloudflare 数据，2025年（Googlebot 占 HTML 请求 4.5%）
Google Search Central — 移动优先索引官方公告（2023年10月全面转向）
Zyppy — How Big is Google’s Index?（400亿文档，法庭证词来源分析）
Ahrefs — Google 唯一确认的 7 个排名因素
First Page Sage — Google 排名因素权重研究，2025年（内容质量权重 23%）
Backlinko — Google 排名因素研究，11.8M 结果分析（第一名外链 3.8× 倍数）

kaiaseo.com · SEO系列教程 · 第02篇如有问题，欢迎留言讨论

打破

搜索引擎的工作原理：爬取、索引、排名

搜索引擎的工作原理：
爬取、索引、排名

三个阶段：爬取、索引、排名

先用一个比喻建立整体感

第一阶段：爬取（Crawl）

移动优先索引：手机版才是谷歌真正看的

爬虫如何发现你的页面

爬取预算（Crawl Budget）

第二阶段：索引（Index）

第三阶段：排名（Rank）

关键数据：理解三个阶段的规模

爬取阶段

索引阶段的规模

排名阶段

基于三个阶段的 SEO 检查清单

爬取阶段：确保谷歌能找到你的页面

索引阶段：确保谷歌读懂并收录你的页面

排名阶段：提升内容的竞争力

全流程对照表

关于搜索引擎工作原理的 5 个常见误区

三个阶段各自的核心工具

爬取阶段工具

索引阶段工具

排名阶段工具

延伸阅读与资源

权威参考资料

给自己留的思考问题

数据来源索引

由 Kaia

发表回复取消回复

您错过了

SEO vs 付费广告：不是选择题，是时间线问题

Google排名靠什么决定？信号背后的底层逻辑

搜索引擎的工作原理：爬取、索引、排名

SEO是什么？一个真正有用的定义

Archives

Categories

搜索引擎的工作原理：爬取、索引、排名

搜索引擎的工作原理：爬取、索引、排名

三个阶段：爬取、索引、排名

先用一个比喻建立整体感

第一阶段：爬取（Crawl）

移动优先索引：手机版才是谷歌真正看的

爬虫如何发现你的页面

爬取预算（Crawl Budget）

第二阶段：索引（Index）

第三阶段：排名（Rank）

关键数据：理解三个阶段的规模

爬取阶段

索引阶段的规模

排名阶段

基于三个阶段的 SEO 检查清单

爬取阶段：确保谷歌能找到你的页面

索引阶段：确保谷歌读懂并收录你的页面

排名阶段：提升内容的竞争力

全流程对照表

关于搜索引擎工作原理的 5 个常见误区

三个阶段各自的核心工具

爬取阶段工具

索引阶段工具

排名阶段工具

延伸阅读与资源

权威参考资料

给自己留的思考问题

数据来源索引

由 Kaia

相关文章

SEO vs 付费广告：不是选择题，是时间线问题

Google排名靠什么决定？信号背后的底层逻辑

SEO是什么？一个真正有用的定义

发表回复 取消回复

您错过了

SEO vs 付费广告：不是选择题，是时间线问题

Google排名靠什么决定？信号背后的底层逻辑

搜索引擎的工作原理：爬取、索引、排名

SEO是什么？一个真正有用的定义

搜索引擎的工作原理：
爬取、索引、排名

发表回复取消回复