在SEO中蜘蛛实质抓取网页的过程中,由于网页内容的复杂性(文本、Flash、 视频等)和技术达成的多样性(纯静态、动态加载等),为了更高效地借助蛛蛛资源,搜索引擎公司会置顶不一样的抓取方案,作为网站优化职员,可以参考搜素引擎公司对抓取方案的描述,使用最大化的网站优化办法。
作为国内最大的搜索引擎公司,百度在它的官方文档中是如下如此描述抓取方案的。
网络资源具备庞大的数目级,这就需要抓取系统尽量高效地借助带宽,在有限的硬件和带宽资源下尽量多地抓取到有价值的资源。这就导致了另一个问题,耗费被抓取网站的带宽导致访问重压,假如程度过大,将直接影响被抓取网站的正常用户访问行为。因此,在抓取过程中要进行肯定的抓取重压控制,达成既不影响网站的正常用户访问,又能尽可能多地抓取到有价值资源的目的。
一般情况下,使用的最基本的办法是基于IP的重压控制。这是由于假如基于城名,可能存在一个域名对多个IP (不少大网站)或多个城名对应同一个IP (小网站共享IP )的问题。实质工作中,总是依据IP及域名的多种条件进行重压控制。同时,站长平台也推出了重压反馈工具,站长可以人工调配对自己网站的抓取重压,这个时候Baiduspider将优先根据站长的需要进行抓取重压控制。
对同一个站点的抓取速度控制一般分为两类:其一 ,一段时间内的抓取频率;其二,一段时间内的抓取流量。同一站点不一样的时间抓取速度也会不同,比如,夜深人静的时候抓取的可能就会快一些。 也视具体站点种类而定,主要思想是错开正常用户访问高峰,不断地调整。对于不同站点,也需要不一样的抓取速度。
上面的描述非常简洁,但从这个描述里面,大家可以得到启发,蜘蛛抓取页面是有重压控制的,对于特别大型的网站来讲,不可能指望蜘蛛爬行到一个网站后,会一次性抓取到所有些网站,因此,作为网站优化职员来讲,尽可能降低蜘蛛的重压,对网站的网页网站收录是有好处的。通常来讲,减轻蜘蛛重压有以下两种办法。
办法1、使用Nofollow (反垃圾链接的标签)的方案,将蜘蛛引导到最有价值的页面。Nofollow标签用来告诉蜘蛛,假如遇见携带此标签的页面或者链接,就不要继续追踪了,如此蜘蛛就能爬行到其他愈加有用的页面。
办法2、在Sitetap中概念不同页面的网站权重和更新频率,就是在网站的Sitemap文件中,概念好每一个链接的网站权重和更新的频率,如此,蜘蛛在爬行到这类链接和页面的时候,会辨别什么页面比较要紧, 可以重点抓取,什么页面更新比较频繁,需要蜘蛛分配更多的注意力。
以上就是《SEO中应付蜘蛛抓取基本方案》的全部内容,仅供站长朋友们互动交流学习,网站排名优化是一个需要坚持的过程,期望大伙一块一同进步。