搜索引擎对网页的抓取事实上就是在网络上进行数据采集,这是搜索引擎最基础的工作。搜索引擎的数据采集能力直接决定了搜索引擎可提供的信息量及对网络覆盖的范围,从而影响搜索引擎查看结果的水平。因此,搜索引擎一直挖空心思地提升它的数据采集能力。索引擎借助数据采集程序在网络上抓取数据,大家称这个数据采集程序为蜘蛛程序或者机器人程序。
本文第一会介绍搜索引擎抓取页面的步骤及方法,再介绍搜索引擎对已抓取页面的存储及维护方法。
1. 页面抓取步骤
在网络中,URL是每一个页面的入口地址,搜索引擎蜘蛛程序就是通过URL抓取到页面的。搜索引擎蜘蛛程序从原始URL列表出发,通过URL抓取并存储原始页面;同时,提取原始页面中的URL资源并加入到URL列表中。这样不断地循环,就能从网络中获得到足够多的页面,如图所示。
URL是页面的入口,而域名则是一个网站的入口。搜索引擎蜘蛛程序通过域名进入网站,从而展开对网站页面的抓取。换言之,搜索引擎要在网络上抓取到页面的最重要任务就是打造一个足够大的原始域名列表,再通过域名进入相应的网站,从而抓取这个网站中的页面。
而对于网站来讲,假如想要被搜索引擎网站收录,最重要的条件就是加入搜索引擎的域名列表。下面由吕梁网站建设公司博久网络网站优化专员向大伙介绍两种常见的加入搜索引擎域名列表的办法。
第一,借助搜索引擎提供的网站登录入口,向搜索引擎提交网站的域名。比如,谷歌的网站登录2。对于提交的域名列表,搜索引擎只能按期进行更新。因此,这种做法比较被动,从域名提交到网站被网站收录花费的时间也比较长。以下是主流中文搜索引擎的网站提交入口。
在实质中,大家仅需提交网站的首页地址或者网站的域名,搜索引擎就会跟踪首页中的链接去抓取其他页面。
从而达成对网站的网站收录。这种做法主动权学会在大家我们的手里(只须大家拥有足够多优质的链接即可),而且网站收录速度也比向搜索引擎主动提交要快得多。视乎外链的数目、水平及有关性,通常情况下,2~7天左右就会被搜索引擎网站收录。
2. 页面抓取
通过上面的介绍,相信读者已经学会了加快网站被搜索引擎网站收录的办法。然而,如何才能提升网站中页面被网站收录的数目呢?这就要从知道搜索引擎网站收录页面的工作原理开始。
假如把网站页面组成的集合看作是一个有向图,从指定的页面出发,沿着页面中的链接,根据某种特定的方案对网站中的页面进行遍历。不停地从URL列表中移出已经访问过的URL,并存储原始页面,同时提取原始页面中的URL信息;再将URL分为域名及内部URL两大类,同时判断URL是不是被访问过,将未被访问过的URL加入URL列表中。递归地扫描URL列表,直至耗尽所有URL资源为止。经过这类工作,搜索引擎就能打造庞大的域名列表、页面URL列表及存储足够多的原始页面。
3. 页面抓取方法
通过以上内容,大伙已经知道了搜索引擎抓取页面的步骤及原理。然而,在网络数以亿计的页面中,搜索引擎如何才能从中抓取到更多相对要紧的页面呢?这就涉及搜索引擎的页面抓取方法问题。
页面抓取方法是指搜索引擎抓取页面时所用的方案,目的是为了能在网络中筛选出更多相对要紧的信息。页面抓取方法的拟定取决于搜索引擎对网站架构的理解。假如用相同的抓取方案,搜索引擎在同样的时间内可以在某一网站中抓取到更多的页面资源,则会在该网站上停留更长的时间,抓取的页面数自然也就更多。因此,加深对搜索引擎页面抓取方法的认识,有益于为网站打造友好的结构,增加页面被抓取的数目。
容易见到的搜索引擎抓取页面的方法主要有广度优先、深度优先、大站优先、高网站权重优先、暗网抓取及用户提交等,下面将详细介绍这几种页面抓取方法及其优势和弊端。
广度优先
假如把整个网站看作是一棵树,首页就是根,每一个页面就是叶子。广度优先是一种横向的页面抓取方法,先从树的较浅层开始抓取页面,直至抓取完同一层次上的所有页面后才进入下一层。因此,在对网站进行优化的时候,大家应该把网站中相对要紧的信息展示在层次较浅的页面上(比如,在首页上推荐一些热点商品或者内容)。因此,通过广度优先的抓取方法,搜索引擎就能优先抓取到网站中相对要紧的页面。
大家来看一下广度优先的抓取步骤。第一,搜索引擎从网站的首页出发,抓取首页上所有链接指向的页面,形成页面集合(A),并分析出集合(A)中所有页面的链接;再跟踪这类链接抓拿下一层的页面,形成页面集合(B)。就如此递归地从浅层页面中分析出链接,从而抓取深层页面,直至满足了某个设定的条件后才停止抓取进程,如图所示。
深度优先
与广度优先的抓取方法恰恰相反,深度优先是一种纵向的页面抓取方法,第一跟踪的是浅层页面中的某一个链接,从而逐步抓取深层次页面,直至抓取完最深层次的页面后才返回浅层页面继续向深层页面抓取。用深度优先的抓取方法,搜索引擎可以抓取到网站中比较隐蔽、冷门的页面,如此才能满足更多用户的需要。
大家来看一下深度优先的抓取步骤。第一,搜索引擎会抓取网站的首页,并提取首页中的链接;再沿着其中的一个链接抓取到页面,同时提取其中的链接;接着,沿着页面1-1中的一个链接A-1抓取到页面2-1,同时提取其中的链接;再沿着页面2-1中的一个链接B-1继续抓取更深一层的页面。如此递归地实行,直至抓取到网站最深层的页面或者满足了某个设定的条件才转回到首页继续抓取,如图所示。
大站优先
因为大型网站比小型网站更大概提供更多更有价值的内容,因此,假如搜索引擎优先抓取大型网站中的网页,那样就能在更短的时间内为用户提供更有价值的信息。大站优先,顾名思义就是对网络中大型网站的页面进行优先抓取,是搜索引擎中的一种信息抓取方案。
如何辨别所谓的大型网站呢?一是前期人工整理大站种子资源,通过大站发现其他的大站;二是对已经索引的网站进行系统的剖析,从而辨别那些内容丰富、规模较大、信息更新频繁的网站。
在完成大站辨别后,搜索引擎就会对URL资源列表中大站的页面进行优先抓取。这也是为何大型网站总是会比小站内容抓取更准时是什么原因之一。 高
网站权重优先
网站权重,简单地说就是搜索引擎对网页重要程度的一种评定。所谓的重要程度归根到底就是网站或者网页的信息价值。
高网站权重优先是对URL资源列表中的高网站权重网页进行优先抓取的网页抓取方案。网页网站权重(如谷歌 PageRank值)高低总是是由很多原因决定的,比如,网页的外链数目及水平。假如下载一个URL就重新计算所有已下载URL资源的网站权重值,如此的效率是极其低下的,显然是不现实的。所以,搜索引擎会倾向于每下载若干URL资源后就对已下载的URL进行网站权重计算(即不完全的网站权重计算),以此来确定这类URL资源所对应页面的网站权重值,从而对较高网站权重值的网页进行优先抓取。
因为网站权重计算是基于部分数据而得出的结果,或许会与真实网站权重有较大出入(即失真)。因此,这种高网站权重优先的抓取方案也或许会对次要页面进行优先抓取。
暗网抓取暗网(又称作深网、不可见网、隐藏网)是指那些存储在互联网数据库里、不可以通过超链接访问而需要通过动态网页技术或者人工发起查看访问的资源集合,不是那些可以被标准搜索引擎索引的信息。
本文标题图文结合介绍搜索引擎抓取方案