Google可以持续抓取页面吗？

kexej28769@nongnue · Post by **kexej28769@nongnue** » Mon Feb 17, 2025 6:07 am

要查看 Google 所看到的内容，我们需要获取日志文件。此时，我们可以检查它是如何访问该页面的。

顺便说一句：使用日志本身就是一整篇文章。我编写了一份使用 BigQuery 进行日志分析的指南。

当我们考虑爬行时，我们可以做三项有用的检查：

状态代码：随时间绘制状态代码。当您检查 URL 时，Google 是否看到与您不同的状态代码？
资源：Google 是否下载了页面上的所有资源？
是否下载构建页面所需的特定于您网站的 JavaScript 和 CSS 文件？
页面尺寸跟踪：获取所有页面和资源的最大和最法国 WhatsApp 数据小尺寸并进行比较。如果您发现差异，Google 可能无法完全下载所有资源或页面。（帽子提示@ohgm，我第一次听到这个巧妙的提示）。
我们还发现任何问题吗？
如果 Google 在我们的日志文件中没有持续获得 200 秒，但我们尝试时可以正常访问该页面，那么 Googlebot 和我们之间显然存在一些差异。这些差异可能是什么？

它会悄悄降临到我们身上。
这显然是一个机器人，而不是一个假装成机器人的人。
它会在一天中的不同时间爬行。
这意味着：

如果我们的网站阻止智能机器人，它可能能够区分我们和 Googlebot。
由于 Googlebot 会对我们的网络服务器施加更大的压力，因此它的行为可能会有所不同。当网站同时被太多机器人或访问者访问时，他们可能会采取某些措施来帮助保持网站在线。他们可能会打开更多的计算机来为网站提供动力（这称为扩展），他们也可能会尝试限制用户请求太多页面的速率，或提供减少版本的页面。
服务器定期运行任务。例如，列表网站可能会在每天 01:00 运行一项任务来清除所有旧列表，这可能会影响服务器性能。
如果要弄清楚这些间歇性影响到底是怎么回事，那就太无情了。您可能需要与后端开发人员交谈。

根据您的技能水平，您可能不知道从哪里进行讨论。一个有用的讨论结构通常是讨论应用程序如何在技术堆栈中移动，然后查看我们上面讨论的边缘情况。