与 Xenu 一样,我经常会留意程序抓取时出现的 URL,看看是否有我不想抓取的 URL。Screaming Frog 允许您阻止抓取您可能不想包含在抓取中的页面,例如“发送电子邮件给朋友”页面、“撰写评论”页面或“比较产品”页面。您还可以忽略抓取中的某些参数,例如会话 ID 或跟踪代码。 有时你会看到网站的所有页面都可以作为 HTTPS 页面进行抓取,以及带有和不带有“www”的页面版本。
当网站具有分面导航并
使用不同类型的参数对内容(通常是产 电话号码数据库 品)进行排序和筛选时,该程序也非常有用。如果您在抓取过程中开始看到这些类型的参数,那么访问这些页面并查看出现的参数类型通常是一个好主意。 我曾经工作过的某个电子商务网站的所有页面都是可抓取的 HTTPS 版本,它有可被索引的“www”和“非 www”页面,它有多个可被搜索引擎索引的排序方面,
在我充分了解了网站
的组织方式和内容后,我就可以停止 如果没有我们现在拥有的工具和平台 抓取、做笔记并排除我不想编入索引的 URL。该网站实际上包含大约 6,800 个我希望编入索引的产品和类别页面,但其中更多的页面(数万个)已被搜索引擎编入索引。 通过 Screaming Frog 发现,我能够决定如何处理我不想包含在搜索结果中的额外页面,使用元机器人 noindex 页面、robots.txt 禁止语句、参数处理和其他方法。
以及哪些链接会导致重
定向和损坏的页面。它让我开始了一个内容清单,其中包括页面标题、元描述和标题以及这些功能的长度,并且可以轻松地按大小排序。从更 回声资料库 完整的内容清单开始,您可以更轻松地识别您在网站的不同页面上定位的关键字以及您可能遗漏的关键字。 Screaming Frog 在我工作的大多数网站上都运行良好,但有一个限制。
如果网站太大,我的
台式电脑可用的内存就不足以让我抓取该网站。一个拥有 800,000 个 URL 的网站无法通过 Screaming Frog 抓取。我去寻找解决方案,找到了一个没有这个限制的基于云的解决方案。 基于云的爬取 当您面临数十万甚至数百万个 URL 的抓取时,台式计算机很可能无法处理这种抓取。