要查看 Google 所看到的内容,我们需要获取日志文件。此时,我们可以检查它是如何访问该页面的。
顺便说一句:使用日志本身就是一整篇文章。我编写了一份使用 BigQuery 进行日志分析的指南。
当我们考虑爬行时,我们可以做三项有用的检查:
状态代码:随时间绘制状态代码。当您检查 URL 时,Google 是否看到与您不同的状态代码?
资源:Google 是否下载了页面上的所有资源?
是否下载构建页面所需的特定于您网站的 JavaScript 和 CSS 文件?
页面尺寸跟踪:获取所有页面和资源的最大和最 法国 WhatsApp 数据 小尺寸并进行比较。如果您发现差异,Google 可能无法完全下载所有资源或页面。 (帽子提示@ohgm,我第一次听到这个巧妙的提示)。
我们还发现任何问题吗?
如果 Google 在我们的日志文件中没有持续获得 200 秒,但我们尝试时可以正常访问该页面,那么 Googlebot 和我们之间显然存在一些差异。这些差异可能是什么?
它会悄悄降临到我们身上。
这显然是一个机器人,而不是一个假装成机器人的人。
它会在一天中的不同时间爬行。
这意味着:
如果我们的网站阻止智能机器人,它可能能够区分我们和 Googlebot。
由于 Googlebot 会对我们的网络服务器施加更大的压力,因此它的行为可能会有所不同。当网站同时被太多机器人或访问者访问时,他们可能会采取某些措施来帮助保持网站在线。他们可能会打开更多的计算机来为网站提供动力(这称为扩展),他们也可能会尝试限制用户请求太多页面的速率,或提供减少版本的页面。
服务器定期运行任务。例如,列表网站可能会在每天 01:00 运行一项任务来清除所有旧列表,这可能会影响服务器性能。
如果要弄清楚这些间歇性影响到底是怎么回事,那就太无情了。您可能需要与后端开发人员交谈。
根据您的技能水平,您可能不知道从哪里进行讨论。一个有用的讨论结构通常是讨论应用程序如何在技术堆栈中移动,然后查看我们上面讨论的边缘情况。
Google可以持续抓取页面吗?
-
- Posts: 283
- Joined: Tue Jan 07, 2025 4:44 am