【SEO优化】搜索引擎的抓取建库及展现的原理

随着科技以及互联网的发展和进步,各大搜索引擎都在进行着巨大的改变,并且他们的变化都是飞快的。倾尘SEO希望通过对内容的不断更新,来对各大搜索引擎保持同步,给各位站长带来最新的相关消息。

Qcqx_20160522094320

一:抓取

数据抓取系统作为搜索引擎的上游,主要用于互联网中数据的收集,保存以及更新,它们就像在网络中爬来爬去的蜘蛛一样。因此也没叫做“Spider”,而最常见的几种搜索引擎“Spider”分别为:Googlebot,Baiduspdier,Sogou web spider,360Spider等等。

以百度Baiduspdier为例

抓取友好性

在庞大的互联网数据中吗,这需要抓取系统高效的利用带宽,以有限的硬件和带宽去抓取尽可能多大有价值的资源,如果搜索引擎在抓取的过程中耗费过多的资源,就会影响抓取网站的正常访问,所以在抓取过程中就用进行一定的抓取压力控制,以此来达到既不影响网站正常用户的访问,又能尽可能多大赚取到有价值的资源。

对于网站抓取压力站长们可以通过百度站长工具来进行调整。

抓取优先级

对于互联网数据的迅速变化,如果搜索引擎想要与其保持完全一致基本是不可能的事情,因此就要通过抓取系统设计一套有效的优先级调配策略。从而达到最佳的效果。其中主要包含:深度优先遍历策略、宽度优先遍历策略、pr优先策略、反链策略、社会化分享指导策略等等。

返回错误码

在蜘蛛抓取的过程中,最常见的几种返回码有:

(1)错误404 “NOT FOUND”,表示网页不存在,同时短时间内如果搜索引擎spider再次发现这条URL也是不会进行抓取的。

(2)返回403“Forbidden”,则是表示此网页禁止访问,如果这个页面URL是新的,那么搜索引擎蜘蛛暂时是不会抓取的,如果此页面URL已被抓取,搜索引擎也不会直接删除,而是在短期内反复访问几次,如果页面可以访问则正常抓取,如果还是禁止访问,那么这条URL就会被认为是已经失效的链接,被从搜索引擎的数据库中删除。

(3)返回301“Moved Permanently”,则是因为此页面的URL已经被重定向到新的URL中。

(4)返回503“Service Unavailable”,表示此页面URL暂时不可访问,这类情况一般网站关闭或者宽带限制容易产生。出现这种情况搜索引擎也不会直接删除,而是在短期内反复访问几次,如果页面可以访问则正常抓取,如果还是返回503,那么这条URL就会被认为是已经失效的链接,被从搜索引擎的数据库中删除。

URL重定向识别

在互联网中总会有一部分网页因为各种各样的原因而存在URL重定向状态,为了对这类资源进行抓取,就需要搜索引擎蜘蛛对页面URL重定向进行识别和判断。当然同时也防止作弊行为。页面的重定向分为三类:页面301重定向,Mate Refresh重定向以及Js重定向等。

过滤重复URL

在搜索引擎蜘蛛爬行抓取的过程中同样会判断这一个页面是否以前已被抓取过,如果网页未被抓取,那抓取页面将被放到以抓取网址合集中。在搜索引擎判断一个页面是否重复抓取中涉及到了最核心的快速查找并对比,同时也涉及到URL的归一化是吧。

反作弊抓取

搜索引擎蜘蛛在抓取网站页面的过程中往往会面临大量地址了页面的困扰以及一些所谓的抓取黑洞。对于此类清理搜索引擎同样设计了一套完善的反作弊抓取系统。比如通过页面URL的特征,分析页面大小,页面内容,以及对站点规模对于抓取等等。

二:展现

在网站的页面通过了搜索引擎的抓取建库,排序计算,最终将展现在搜索引擎的用户面前。如下

Qcqx_20160522114235

喜欢就支持以下吧
倾尘SEO
  • 本文由 倾尘SEO 发表于 2016年5月22日
  • 转载请务必保留本文链接:https://www.qcwlseo.com/search-engines-grab-show-principle.html
 评论   0   访客   0