搜索引擎编码问题

不同的搜索引擎数据库里存放的网页的编码是不同的,它们有它们自己独立的存储格式和方法。而不同的编码会影响到很多其它因素,例如所占空间大小,存储兼容性等。

拿百度和谷歌来说,百度不管所抓取的网页是gb2312还是utf-8,抓回来之后一律转为gb2312这个编码然后再存储。心爱用php写的蜘蛛把页面抓回来之后是用的php内置编码转换函数转编码的,和百度一样,一律转为gb2312。而谷歌刚好相反,抓回来的网页统一转为utf-8再存储。

为什么谷歌和百度刚好相反,它俩不是都很拽么?为什么如此的高度却不统一?

A,百度为了节省硬盘空间,所以用gb2312编码。该编码所占字节比utf-8要少。
B,百度或许做过调查和统计,中文站使用gb2312编码的占大多数,默认为gb2312可以节省抓回网页后转换编码这一步。
C,谷歌硬盘多的是,服务器多的是,为了更兼容非汉字的语言,所以用utf-8。也是为了跟美国谷歌统一编码。
D,谷歌为了大气,不跟百度比,用了所谓更高级的编码形式。

既然百度和谷歌都有自己所规定的编码,那么是否使用gb2312编码就更容易被百度所喜欢呢?是否使用utf-8编码就更容易被谷歌所看重呢?心爱认为,还真能多少加点分吧。就算搜索引擎的服务器和语言执行得再快,把一个普通大小的页面代码转换一次编码也是需要时间的吧。搜索引擎处理数据是以亿为单位,高效必然会引起工程师的关注。假如中文站越来越多的采用utf-8编码,百度肯定会把默认的gb2312编码改掉吧。就算它再生气。

看完此文,影响网站排名的因素又多了一个,编码

至于其它的必应和雅虎所采用的是什么编码,就请诸位自己去看页面的html代码了。心爱和本文不关心必应和雅虎。

2009-9-2 8:37:55