如何应对网络爬虫带来的安全风险
发布时间:2019-09-10

  可选中1个或多个下面的关键词,搜索相关资料。也可直接点“搜索资料”搜索整个问题。

  展开全部我们的网站上或多或少存在一些页面涉及到网站的敏感信息不希望在搜索引擎上公开;还有一些页面是根本没必要被搜索引擎收录的:比如网站的管理后台入口。六合现场开奖结果,对于SEOER而言有一些页面如果被收录后反而会影响关键词着陆页的排名,或者降低了着陆页的转化率,比如电子商务网站的商品评论页。那么我们通过什么样的方法可以限制搜索引擎收录此类页面呢?

  1994年6月30日,在经过搜索引擎人员以及被搜索引擎抓取的网站站长共同讨论后,正式发布了一份行业规范,即robots.txt协议。这个协议既非法律,也非命令,而是一个自律性的契约,需要各种搜索引擎自觉去遵守这个协议。这个协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

  当一个网络爬虫访问一个站点时它会首先检查该站点根目录下是否存在robots.txt;如果没有对网站的robots协议进行设置,则爬虫会尽可能的收录所有能够访问到的页面,而如果存在该robots协议文件,爬虫则会遵守该协议,忽略那些不希望被抓取的页面链接,下面我们以为例:

  除了上述robots.txt文件之外,我们还可以针对每一个页面,在网页的原信息中设置该页面是否允许被收录:

  all: 搜索引擎将索引此网页与继续通过此网页的链接索引,等价于index,follow。

  还有一种方法,就是在超级链接的rel属性中填写“nofollow”,形如 〈a rel=”nofollow” href=”*”〉 超级链接 〈/a〉 ,表示搜索引擎不要跟踪链接。


友情链接:
Copyright 2018-2021 水果奶奶主论坛 版权所有,未经授权,禁止转载。