找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 1034|回复: 0

爬虫陷阱 如何识别和避免它们

[复制链接]

1

主题

0

回帖

5

积分

新手上路

积分
5
发表于 2022-11-19 14:34:42 | 显示全部楼层 |阅读模式
爬虫 陷阱 如何识别和避免它们 最后更新 年 月 日 术语“爬虫陷阱”是指网站中的结构性问题 它会导致爬虫发现几乎无限数量的不相关 URL。 为避免生成爬虫陷阱,您应该确保您网站的技术基础符合标准,并且您正在使用可以快速检测它们的适当工具。 目录 爬虫陷阱会损害爬虫浏览您网站的能力,从而损害爬网和索引编制过程,并最终损害您的排名。 什么是爬虫陷阱? 在 SEO 中,“爬虫陷阱”是网站中的一个结构性问题,它会导致爬虫找到几乎无限数量的不相关 URL。从理论上讲,爬虫可能会卡在网站的某一部分,永远无法完成对这些不相关 URL 的爬取。这就是为什么我们称之为“爬行”陷阱。 爬虫陷阱有时也称为“蜘蛛陷阱”。

为什么要担心爬虫陷阱 爬虫陷阱会损害爬网预算并导致重复内容。 爬虫陷阱导致爬虫预算问题 抓取预算是搜索引擎在抓取您的网站时愿意访问的页面数量。这基本上是搜索引擎会给您的网站的关注。记住这一点,现在想想爬虫陷阱以及它们如何只引导到与 SEO 无关的页面。那是浪费的爬网预算。当爬虫忙于爬取这些不相 阿曼电话号码 关的页面时,他们不会将注意力花在您的重要页面上。 “但是搜索引擎不够聪明,无法检测到爬虫陷阱吗?” 你问。 搜索引擎可以检测到爬虫陷阱,但绝对不能保证它们会检测到。而且,为了让他们意识到自己身处爬虫陷阱,他们需要先进入那个爬虫陷阱,到那时已经太晚了。结果?浪费了抓取预算。 如果搜索引擎能够检测到爬虫陷阱,随着时间的推移,它们将越来越少地爬行它们 我们建议您直面爬虫陷阱。



在谈论爬虫陷阱时 我们经常谈论爬网资源以及它们对爬网资源造成的问题和危害 但它们也可以在内部 分布中充当汇节点。当我们将网站视为树形图或节点和边缘图时,汇节点是一个节点(或页面),很少或没有外向链接,它们可能会泄漏 PageRank。显然,我们不会像 10 年前那样在网站上塑造 PageRank,但解决这个问题并确保我们不会错过保持 PageRank 并更好地在内部连接到我们的“money pages”的机会仍然很重要. LinkedIn(在新标签中打开)Dan Taylor,SALT.agency(在新标签中打开) 爬虫陷阱导致重复内容问题 值得注意的是,爬虫陷阱不仅对您的爬虫预算构成威胁;它们也是网站遭受重复内容问题的常见原因。为什么?因为一些抓取陷阱导致搜索引擎可以访问和索引大量低质量的页面。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|DiscuzX ( 黔ICP备2021006774号-1 )

GMT+8, 2025-11-10 11:19 , Processed in 0.054156 second(s), 27 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表