搜索引擎网站类型识别技术

话说搜索引擎识别一个网站的类型,我就想到了在谷歌的博客搜索里搜索出来一个论坛这么一个现象。这个现象让我很直接的怀疑到谷歌的垂直搜索的技术水平。说得再直接点,就是谷歌还无法识别一个网站的类型。人工识别此文不探讨,本文只探讨博客和论坛两种类型。

识别一个网站的类型和排名一样,都是靠诸多因素一个一个来的。决定网站类型的因素最主要有以下三个:网站内容里本身出现的关键词语,比如论坛博客等;网站外部链接里出现的关键词;网站框架结构形象。其实第一个和第二个都可以归纳为网站文字内容因素。

目前而言,不管是百度还是谷歌都已经有了垂直搜索,比如博客搜索。而目前所使用的判断标准却只采纳了前两个因素。即分析网站内部的文字和外部链接的文字来判定。这是一个很死板的方法,效率且不说,准确度非常低。难道我的博客里出现了五个论坛这样的字眼我就是个论坛了?荒谬。

关键还得靠第三种因素,框架结构。根据首页,目录页,内页分别来看,博客或者论坛都有明显的框架区别。这里不细说区别,只说说技术上怎么实现。说到底还是一个页面分析技术(给搜索引擎页面分析技术的一点建议)的问题。抓取回来的html代码要用类似于肉眼的方法识别出它的框架形式和结构,只要能正确识别,再加上前两个因素的得分,应该能有很高的正确率。识别框架主要是分析td,tr,table,iframe,width,height等参数。而高度和宽度则最终决定框架的外貌。

具体实现方法此文就不详说了,提供这个思路而已。2009-8-30 8:43:3