我至今仍在为此 | 欧洲数据

Rate this post

使用 Screaming Frog 抓取并创建内容清单快进到几年前。我开始创建客户网站的内容清单，其中包括 URL、页面标题、元描述、主标题等内容。我发现这非常有助于了解哪些页面涵盖了哪些关键字和概念，以及各个页面如何作为一个整体协同工作。不过，这种关注大局的能力是有代价的。

手动复制和保存此类信息

可能需要花费大量时间。这个障碍手机号数据库列表的好处是，它需要大量关注网站本身的页面，但可能有点过于专注了。一定有更好的方法。然后我在网上看到一个叫做Screaming Frog 的程序，它可以创建一个可以导出到 Excel 的抓取文件，从而提供大部分上述内容以及更多内容。我尽可能快地浏览他们的网站，并阅读有关该程序的信息。

我下载了它，并进行了

免费试用，对结果非常满意。从那时急于寻找新主机可能会导致错误起，它就变得不可或缺，我通常通过使用 Screaming Frog 对其进行抓取来开始探索网站。抓取后，我通常会保存一个逗号分隔值 (CSV) 文件，然后将其导入 Excel，在那里我会根据找到的内容重新组织抓取数据。通常，我会先按“内容”排序，然后为图像、CSS、java 脚本和其他类型的内容创建单独的工作表。

然后，我按状态代码排序

并为返回 301、302、404 和 500 状态代码的 URL 创建工作表。按“元数据”排序使我能够找到所有带有“noindex”robots 元数据标签的页面，然后回声资料库我会将它们放在另一个工作表中。主要想法是创建一个页面，其中我想要索引的所有内容都在一个工作表上。如果这些可索引 URL 有规范链接元素，我将创建另一个工作表，其中包含两列 – 一列用于我想要索引的页面的地址，另一列用于规范链接（有时会有多个，如果它们不匹配，则很棘手）。

我将确保选中这两列

并使用 Excel 中的“条件格式”突出显示内容匹配的列中的单元格。然后，我按单元格背景颜色排序，将不匹配的单元格移到顶部，以便我可以进行比较并尝试了解它们不匹配的原因。在这里，我经常发现系列页面（分页页面），例如 WordPress

手动复制和保存此类信息

我下载了它，并进行了

然后，我按状态代码排序

我将确保选中这两列

相關文章