使用 Screaming Frog 抓取并创建内容清单 快进到几年前。我开始创建客户网站的内容清单,其中包括 URL、页面标题、元描述、主标题等内容。我发现这非常有助于了解哪些页面涵盖了哪些关键字和概念,以及各个页面如何作为一个整体协同工作。不过,这种关注大局的能力是有代价的。
手动复制和保存此类信息
可能需要花费大量时间。这个障碍 手机号数据库列表 的好处是,它需要大量关注网站本身的页面,但可能有点过于专注了。一定有更好的方法。 然后我在网上看到一个叫做Screaming Frog 的程序,它可以创建一个可以导出到 Excel 的抓取文件,从而提供大部分上述内容以及更多内容。我尽可能快地浏览他们的网站,并阅读有关该程序的信息。
我下载了它,并进行了
免费试用,对结果非常满意。从那时 急于寻找新主机可能会导致错误 起,它就变得不可或缺,我通常通过使用 Screaming Frog 对其进行抓取来开始探索网站。抓取后,我通常会保存一个逗号分隔值 (CSV) 文件,然后将其导入 Excel,在那里我会根据找到的内容重新组织抓取数据。 通常,我会先按“内容”排序,然后为图像、CSS、java 脚本和其他类型的内容创建单独的工作表。
然后,我按状态代码排序
并为返回 301、302、404 和 500 状态代码的 URL 创建工作表。按“元数据”排序使我能够找到所有带有“noindex”robots 元数据标签的页面,然后 回声资料库 我会将它们放在另一个工作表中。主要想法是创建一个页面,其中我想要索引的所有内容都在一个工作表上。 如果这些可索引 URL 有规范链接元素,我将创建另一个工作表,其中包含两列 – 一列用于我想要索引的页面的地址,另一列用于规范链接(有时会有多个,如果它们不匹配,则很棘手)。
我将确保选中这两列
并使用 Excel 中的“条件格式”突出显示内容匹配的列中的单元格。然后,我按单元格背景颜色排序,将不匹配的单元格移到顶部,以便我可以进行比较并尝试了解它们不匹配的原因。在这里,我经常发现系列页面(分页页面),例如 WordPress