搜索引擎蜘蛛分类大全

刚刚查询了一下目前已经有了的关于搜索引擎的蜘蛛的文章,无非是说了抓取的协议相关的东西,没其它的了。感觉不够啊,心爱来点新的东西:搜索引擎蜘蛛分类的问题。 之前有人说过,蜘蛛有公的,也有母的。这个很形象,不过无法解释技术层面上的东西。根据不同的分法,可爱的小蜘蛛可以分为很多种类。之前的那篇看那可爱的小蜘蛛是写的蜘蛛原理,没看过的可以先看看。

从网站质量来分:

A,全世界公认的好网站,用专门的OK牌蜘蛛来爬。该蜘蛛所在服务器超强,带宽超大,抓取速度最快,蜘蛛识路能力强不会迷路进入死循环。并且,由该蜘蛛所抓回去的东西,是放入特定的数据库里的,不跟其它网站同一个数据库。最具有代表性的就是gov和edu的域名

B,一定数据反应出来的垃圾站,用专门的废弃牌蜘蛛来爬。该蜘蛛所在服务器cpu为赛扬级别,带宽为1M共享,抓取速度慢,跟网站反应速度一样慢,蜘蛛容易迷路,不过还是知道回家的路。该蜘蛛所抓回去的东西,是放入专用的垃圾表里。这个表里每年估计只有1%的数据有希望被搜索引擎在某一天建立一次索引。而其它数据一律是无期徒刑待遇。最具有代表性的就是几百年不更新一次并且外部链接数量在100以下的域名。企业网站如是也。

C,普通类型的网站,用专门的实力牌蜘蛛来爬。该蜘蛛服务器一般,带宽100M,抓取速度正常,蜘蛛不会迷路。由该蜘蛛返回的数据,放入占用空间最多的数据库里。该类蜘蛛占蜘蛛总数的80%。这类网站代表人物太多,不一一列举。

从网站类型来分:

A,资讯站,也称为文字站,就是以文字为主的站。这类站点抓取很简单,高效的返回页面的html代码即可,不需要更多的分析。

B,网站内容类型丰富的站,就是图片,文字,视频,flash都有的站。这类站点对蜘蛛要求很高。或者有人会纳闷了,难道不一样是只抓html代码回去么?是的,是只抓前台的html代码,不过返回给服务器的时候区别就出来了。如果只有文字,那就好办,全返回即可,不做任何处理。如果有图片有视频有flash,就要先把这些非文字信息的超链接地址专门用一个变量或者以数组的形式返回,然后由页面分析技术(也就是小蜘蛛的妈妈)来决定是否再次派小蜘蛛顺着这些超链接地址把图片视频flash给抓回来。

C,更多的都是非文字类的网址,比如专业的图片站,视频站,flash站。这类站点就要派特制蜘蛛上门了。这些蜘蛛对html可能不熟悉,不过能很快的识别出所有图片视频的超链接地址并且分类归纳好之后返回给服务器。当然了,如果再强大一点,蜘蛛可以当场决定是否抓回这些图片和视频,而不用回家请示它的妈妈。如果当场决定,那么整个抓取过程的效率就要快的多了。不过,因为蜘蛛还小,不成熟,所以有时候当场的决定在他妈妈看来是错误的。不过蜘蛛妈妈从来不打小蜘蛛

丛网页地址类型分:

A,首页。首页权重最高,谁都无法反对。首页是所有页面里最能直接让蜘蛛的妈妈派蜘蛛出去抓的地址类型。

B,二级域名。权重独立,不依赖首页。该类型地址有一半的概率是直接从家里派蜘蛛出去,另外一半由已经抓到的超链接过去。

C,内页。依赖首页权重。该类型地址只有很小一部分是直接从家里派蜘蛛出去(第二次索引这个页面除外)。

从蜘蛛性格分:

A,优柔寡断型。该类蜘蛛抓取速度并不慢,效率也不低。只是由于性格原因导致在考虑是否抓取一个页面的时候优柔了一点。查看下服务器日志就能看出来,两个页面被抓的时差比较大。

B,大男人型。该类蜘蛛一是一二是二,雷厉风行。只要是有作弊嫌疑或者非法行为,或者文字优美页面质量高等明显的特征,一旦被大男人发现一律第一时间返回给服务器告诉蜘蛛他妈。所以,作弊的请注意了,提防着;页面质量高文章全原创的可以去烧下香,希望明天能碰到他。

C,好吃型。该类蜘蛛别的特征没有,就是喜欢吃东西。凡是发现原创的文章或者非常OK的页面的时候,一律吃完。所以有时候发现网站收录页面猛然增多,不要惊奇,就是这类蜘蛛做的好事。 好了,不再分下去了。再分,蜘蛛都五马分尸了。下次再来类似的长篇大论吧,写着感觉爽。

2009-9-12 13:23:56