首頁 » 博客 » 正开始增加您的抓取预算呢

正开始增加您的抓取预算呢

我试图拉它。看起来是这样。但您要做的就是输入“主机”,然后输入该 IP 地址。您可以在终端上使用该 IP 地址执行此操作,然后您会看到它解析为 Google.com。这证实了它确实是 Googlebot,而不是其他欺骗 Google 的爬虫。这些工具可以自动处理这个问题,但是也有手动完成的方法,值得注意。

优化页面和抓取预算

好的,那么您如何优化这些数据并真?当我说“抓取预算”时,它基本上只是意味着 Googlebot 访问您的网站的频率以及他们通常抓取的页面数量。那么这是怎么回事呢?抓取预算是什么样的?如何才能使其更有效?

服务器错误意识:服务器错误意识确实非常重要。最好密切 电报数据 关注某些页面上 500 错误的增加情况。
404:正确吗?引荐来源?:另外要查看的是 Googlebot 正在搜索的所有 400。查看这一点非常重要:好的,这是一个 400 请求吗?它是一个有效的 400 请求吗?该页面不存在吗?或者这个页面应该存在但不再存在,但您可以修复?如果出现错误或者不应该出现错误,那么引用者是什么? Googlebot 是如何找到它的?您又如何开始清理其中的一些内容呢?

隔离经常修复链:

301,因此这些日志文件中有很多关于301的问题。我发现的最佳技巧(我知道其他人也发现过)是隔离和修复最常受到攻击的 301 链。因此您可以在数据透视表中执行此操作。当您将 准备好将您的电子商务业务拓展到国际吗? 其与抓取数据配对时,这实际上要容易得多,因为现在您对链有了更多的了解。您可以做的是查看最常受到攻击的 301 并查看:是否有任何简单、快速的修复方法?您是否可以删除某些内容并立即决定是只跳一跳还是两跳?

移动优先:您可以跟踪移动优先

如果您的网站之前已经实现移动化,您可以深入研究日志以了解它是什么样子的。有趣的是,Google Bot 仍然会像这个兼容的 Google Bot 2.0 一样。然而,它前面的括号里包含了移动的所有含义。所以我相信这些工具可以自动学习。但如果你手动执行某些操作,最好知道它是什么样子。
缺失内容:因此真正重要的是看一看:Google 机器人正在搜索和抓取什么,以及它们到底缺少什么?因此,最简单的方法是将其与您的站点地图进行比较。这是一种非常好的方法 汤加营销  可以查看可能缺少什么以及为什么缺少,以及如何重新排列站点地图中数据的优先级或将其集成到导航中(如果可能)。

将点击频率与流量进行比较:

这是我在 Twitter 上发现的一个很棒的提示,我不记得是谁说的。他说要将 Google 机器人的点击频率与流量进行比较。我认为这很棒,因为首先,你不仅可以看到潜在的相关性,还可以看到你想要增加抓取流量或抓取到特定的高流量页面的地方。看一下真的很有趣。
URL 参数:查看 Googlebot 是否访问任何带有参数字符串的 URL。你不想要那个。这通常只是重复的内容或可以使用参数部分在 Google Search Console 中分配的内容。因此,对于任何电子商务,一定要进行检查,并理顺一切。
估计天数、周数、月数:您可以估计受到影响的天数、周数和月数。那么每周三都会出现高峰吗?每个月都会出现高峰吗?了解这一点很有趣,但并不完全是关键。

评估速度和外部资源:

您可以评估请求的速度,以及是否有任何外部资源可以潜在地清理并加快爬行过程。
改进导航和内部链接:您还想改进此导航,正如我之前所说,并使用没有索引的元数据。
Meta noindex 和 robots.txt 不允许:因此,如果您不想在索引中出现某些内容,并且如果您不想使用 robots.txt 抓取某些内容,则可以添加所有这些东西,甚至开始帮助其中的一些。
再檢查一下。
最后,将抓取数据与其中一些数据结合起来确实很有帮助。因此,如果您使用 Screaming Frog 或 DeepCrawl 之类的程序,它们允许与不同的服务器日志文件集成,从而为您提供更多见解。从那里,你只需要再次审查。所以你想一遍又一遍地重复这个循环。

您想看看发生了什么

您的一些努力是否有效,是否已被清除,然后从那里开始。所以我希望这会有所帮助。我知道内容很多,但我希望这是一个日志文件分析的概述。我期待您在下面提出的所有问题和评论。我很快会在又一个白板星期五再次见到你。谢谢。

通过 进行视频转录
我每天都使用网络爬虫。虽然它们非常有用,但它们仅模仿搜索引擎爬虫的行为,这意味着您无法始终获得完整的信息。

唯一可以让您真正了解搜索引擎如何抓取您的网站的工具是日志文件。尽管如此,许多人仍然痴迷于抓取预算——Googlebot 能够并且想要抓取的 URL 数量。

日志文件分析可能会发现你网站上一些你根本不知道存在但搜索引擎却在抓取的 URL——这对 Google 的服务器资源造成了极大的浪费(Google 网站站长博客):

 

返回頂端