关于SEO一些残酷的想法

我不是在传播真理,每个行业都会存在不同的观点,鼓励分享并不代表在网上对骂,不幸的是一些从事SEO的人不再把精力放在搜索引擎上,而且还越来越猖獗。看着产品经理们的活动线上线下那么和谐,数据分析师们团结的那么有力量,而SEO从业者总是以专家自居,总是想揭穿别人的谎言,有比揭穿魔术师更牛逼的快感,至于吗?为什么不干脆说出残酷事实的真相?

1. SEO有没有真正的秘密
百度也好,谷歌也罢,他们不可能公开自己的排名算法,那样在中国可能很快就不止一家百度了。还有,SEO的秘诀是非常罕见的,大多数的SEO知识是现成的。谷歌的那份资料以及那些工具(你知道的),你只需要多花一点心思研究,就可以了解到先进的搜索引擎技术,即使是黑帽SEO,在部分论坛博客也会有所谓的绝招。

2. 优秀的SEO是肉眼看不见的
你知道为什么那么多站长一边在别人的地盘撒尿,一边又非常讨厌自己地盘的垃圾评论?优秀的SEO是无形的,土鳖的SEO才是关键字填充。优秀的SEO只是让人们自然的通过搜索引擎进入到网站,用户是快乐的,甚至不知道有搜索引擎优化的工作。

3. 生也百度 死也百度
百度可以在一夜之间扫荡你的所有努力,这种风险是难以想象的高,只有经历过的人才知道其中的痛苦,可悲的是,没人敢说这个风险是完全可控的。

4. SEO不是免费的
很多人一直在强调SEO和PPC的区别之一是SEO免费,仔细想想很有趣。先不说时间和人力成本,真正主宰这个规则的是搜索引擎,他们不是公益的。今天你尝到一点免费的甜头,有一天,你可能就会说SEO是很昂贵的,那时最好你还有其他更好的选择。所以,提醒你一句,SEO是需要时间和金钱的,你说或者也行。

5. 常更新主页不一定对排名有帮助
这在很多人眼里是真理,甚至不惜代价的更新,但是这是和meta,链接等等那些一样是缪误的传播。大量的陈旧网页排名很好,谢谢。(这点残酷的地方在于网上很多错误的东西被传播成了真理)

6. SEO是一个黑色的艺术
黑色,不是灰色。SEO的完成,通常在一个黑暗的房间,一些无赖的SEO顾问(专家),则无需和客户做太多沟通。如果搜索引擎是这样,我们的工作就会像读间谍小说。

7. SEO没有终点
SEO不是一个一次性的工作,偶尔听到有朋友说,我们的站已经优化完了,怎么排名还没上去?你说我该怎么回答?SEO是一个进行时,就像一个网站总是在改版升级,软件总是beta版本一样,没有终点。这就意味着,在一条没有尽头的路上和一群人赛跑,你能保证你会一直跑在前面吗?保持清醒吧。

8. 内容为王是句谎言
说流量为王你肯定会抽我,如果告诉我内容为王,别逗了。好的内容就一定有好的排名,就像伟大的政策就等于成功的政治家一样,是吗?

9. PR值
如果PR值高排名就好,那SEO工作是多么的容易?别天真的以为谷歌工具栏的pagerank服务器报告是一个谷歌内部使用的多么神奇的排名算法了,这只是一个有价值的指标,PR值高的会优先抓取和索引,也就是抓取更频繁和索引的速度更快,谷歌只是需要一段时间来更新而已,别拿那公式来吓唬我。

10. SEO不能被产品和开发掉队
这个话题我博客写过很多次了,这里再打一个不贴切的比方—-你的新家装修,SEO不是家具,买回来摆在家里就OK,也不是打扫就能干净,它更像新家的电线,你需要很好的布局,嵌入到墙内,如果你的墙壁已经粉刷好,那就要被破坏。因此,SEO之前,应该和产品,开发团队多沟通,但这是个很有挑战的工作,除非这些工作都是你一个人在做。

11. SEO属于什么部门
SEO属于营销部门?还是技术部?……+

12. SEO不是全部
不是每个行业都需要SEO,也不是每个网站都需要SEO,营销的方向也不只有SEO。

你可以说我胡说,残酷的是,这都是事实。

还是我博客里的那句话,我不是要和谁做斗争,没这个勇气也没这个准备。我怀着一颗如同期待西班牙夺冠一样的心情,期待各位的砖头。

写篇文章不容易,不信你试试,因此转载请注明出处Sem  watch!

http://semwatch.org/2010/07/cruel-seo-html/

SEO的数据分析概述与案例

经常有人让我帮忙简单说说SEO相关的数据分析怎么做,甚至期望能几小时速成。但这方面涵盖的太多,不可能三言两语就说尽,也不知可从哪里简单概括。

SEO是一个非常不成熟的行业,能参考的资料极有限,大多数东西都要通过数据来摸索,而摸索的过程中,往往能揭露凭过往的直觉没有意识到的真相。所以数据化有时对于SEO是非常残酷的,往往一份简单的数据就可以否定掉一群人数年的努力工作。

就拿最常见的例子来说,SEO流量是怎么组成的?大多数人觉得那是靠热门关键词撑起来的,或者认为是大量的热门关键词撑起来的,于是认为热门词的排名上去流量肯定会涨,却不然。对于大多数稍大的网站,绝大多数SEO流量都是由百度指数都没法看到的极其长尾的词带来的。因此哪怕用再大的力气去做热门词的排名,它们贡献的流量依旧很有限。

或许有人会认为这不可思议,因为从来没看到过这样的数据。但这数据是只有通过分析网站的原始日志才能得出的结论,而Google Analytics此类采样率极低的统计系统无法看到这样的数据。更不提哪怕会熟练用GA的SEO也甚少,因此SEO流量的真相几乎是从不被人看到的。

所以,有时听人说“SEO已死”,而我经常说“SEO还没活过”,一点也不夸大。

如何开始学习数据分析

SEO的最终目的是给网站产生收益,因此核心指标有两个:转化、流量。

比如流量再可以细分:流量 = 收录 * 排名 * 点击率 * 搜索量

收录可以再细分:收录 = 抓取量 * 页面质量

而比如抓取量,它的瓶颈依情况,可能是抓取时间封顶、可能是抓取总量封顶、可能是页面总量封顶。各种情况都有不同的处理方式,需加入不同的数据指标。

通过类似这样的分法,从最终数据指标(转化、流量)可以逐步细分出几十几百个数据指标,这些数据指标都是有用的,因为它们的数值变动以后,最终也会影响到转化或流量。

(有本热门的SEO书籍,花了很大的篇幅去写了对一个网站分析并操作的实例,但最后那个网站的SEO流量却很低,没见多大效果。因为尽管其中有大量的“分析”,却多是在看没意义的数据。)

当一个主要数据指标产生波动的时候(最常见的是总流量变动),就需要通过细分数据来分析具体的原因,后面有两个举例提及大致思路与步骤。

之间涉及到的面则非常广——

首先要了解搜索引擎的基础原理,这才能知道在什么情况下什么数据指标是有关的;

之后需要对多种技术的入门级知识,因为各类数据的获取方式都不同,有些需要采集、有些需从日志提取、有些从数据仓库导出、有些从API获取等等,需要学习的方向不尽相同;

单单的数据只是数字,还需要分析数据才能让它产生价值。临时性的分析一般用到Excel,监控类的分析则需要自己做个能输出图表的报表系统。

这些至少要花个半年功夫才能学会,但并不算难,没有什么可畏惧的。就如学习1+1时都会觉得9*9是难的,但学会后再往回看,那就没什么了。

一个基础的假想案例分析

假设个较接近于实际应用的例子:

一个游戏类论坛,A板块为网盘游戏下载,很多页面上有到X网盘的导出链接;B板块为BT下载,页面上有一个站内的种子下载链接,无站外导出链接。

开始分析:

统计页面的抓取数量与即时收录数量,并计算之后,发现A板块的页面质量明显低于B。(页面质量 = 收录数量 / 抓取数量)

那么此时猜测,是否是A板块帖子页面上,X网盘的导出链接导致了它的页面质量低?

为了验证猜测,再将A板块的帖子页面分为两组,其中aa组有X网盘的导出链接、bb组没有X网盘的导出链接。分别计算其页面质量。如果aa组帖子的页面质量明显低于bb组,那么可以得出初步结论:

X网盘的导出链接,使得自身帖子页面质量降低,影响到收录量,并最终导致SEO流量受损。所以需将该类导出链接做特殊处理,比如由自己站内URL,301跳转到X网盘等。

当然这个结论未必是正确的。比如,aa组帖子具备的特征,除了具有X网盘的导出链接外,也可能具备的特征如转载帖子比较多(游戏资源贴许多会是转载),可能是后者真正导致了其页面质量的低下。

尽管更严谨的数据分析(比如再将转载帖子与非转载帖子分组)更可能得出准确的结论,但这般严谨下去就没个头了,SEO毕竟不是火箭科学,在某步的数据获取很有难度时,借助经验来猜测下可能更划得来。

所以可以先实施项目,然后再监控整个A板块相对B板块的页面质量是否有拉近,从而以最终效果来证实之前的猜测正确与否。

尽管这个例子完全为假设,我并不确定实际情况中,帖子到网盘的导出链接是否会影响到页面质量。但类似的例子平日能遇到很多,且此类分析的时候所需的数据收集起来方便,因此这是日常SEO数据分析最容易碰到的一类情况。

一个进阶的实际案例分析

(数字与实际数值不等,但大致比例相同)

内页的流量在某一时间段大幅度下降,需分析其下降原因。

一个常用且管用的思路是,取25%的热词,看它们带来的流量、与另外75%词分别的变化。如果得出的数据是热词的流量下降多,即多半为热词的排名有下降;如果下降程度相当,则为整体的影响。

首先,计算得出25%的热门关键词,它们的流量下滑幅度为35%;而75%的非热词,它们的流量下滑幅度为30%。

但虽然数据差了5%,但差距还不是特别明显,需要进一步分析才能确定。

因为关键词往往是可以被进一步分词的,如“SEO文章”可进一步分为两个检索词——“SEO”、“文章”,而且检索词才是搜索引擎真正在处理的。所以进一步的分析就去分析25%的热门检索词流量的变化。

最终得出的数据是,包含25%热门检索词的关键词流量下降了40%,不包含热门检索词的词流量仅下降10%。

那么结论就很清晰了,热门检索词相关的流量产生了变化。之后对比网站近期的项目上线列表,没有涉及到这部分的修改,所以这是百度的算法调整所导致的。

知道了流量的变动原因后,自然也就可以有一些相应的改进方案了。尽管方案能执行与否尚取决于网站对SEO的重视程度,但至少不用借口于:“百度总是喜欢K我们的站”之类。

http://semwatch.org/2012/12/seo-data/

一个局外SEO人看360搜索

最近国内搜索行业最大的事莫过于360搜索的推出,不少人在微博和博客留言里问我对360搜索有什么评论。作为一个以网络为生却无法感性体验国内互联网氛围的SEO,我其实对几个搜索引擎的厮杀、又有谁加入战局、各自使用了什么招数之类的事情不太关心,谁赢都没关系,谁赢了、谁占了一定市场份额,再去琢磨一下怎么在这个搜索引擎排名就行了,如此而已。

不过还是谈几点对360搜索的印象。

首先,目前360搜索的结果质量相当高,越是常用词,搜索质量越高,长尾词则质量下降。如果确如360自己所言,360搜索是他们自己的技术,那相当不容易。要知道,搜索引擎是个需要积累的、高技术含量的东西。这里说的积累,不仅是人才(这个倒可以短时间解决),还有算法的修改评测和数据的累积。尤其是数据的累积,这个几乎无法短时间弥补。如果360搜索在没有历史数据累积的情况下达到目前水平,那是相当惊人地牛X的。看看百度、Google之外的其它搜索引擎的质量就知道这有多难了,包括Bing,以微软在人才、资金上的投入,又做了那么多年的搜索,到现在也没怎么样。

不过呢,360搜索是否真的是他们自己的技术,我有高度疑问。除了上面说的难度问题,还有一些对排名结果的观察。根据我关注的一部分关键词的排名对比和历史记录数据,360搜索的结果很像百度结果最后排名调整前的数据,而且是一段时间以前的。

这里可能需要说明一下“最后排名调整”指的是什么。搜索引擎收到查询词,在数据库中按正常算法找到应该排前1000名(Google)或前760名(百度)的URL后,并不是马上直接显示出来,而是要在这1000个或760个结果中再最后调整一下排名,包括某些过滤算法的加入、这些URL之间链接关系的再计算等等。所以,我们有时候会在百度第76页看到一些很熟悉的、曾经风光过、现在被某种形式惩罚的网站。也不一定总是第76页,经常也出现在最后几页,比如seowhy.com的首页现在就在第75页。这些网站既然被降权或惩罚了,干脆找不到不是更合适嘛?为什么放到第76页去?原因很可能就是这是返回结果之后再最后调整的结果。

这种水平的高度相似,如果解释为巧合,或排名算法的相似,我比较难以相信。在数据量很大的情况下,算法的任何微小差异都将导致结果的明显差别。

而且,在360正式推出之前,好像没人听说过有什么360蜘蛛。这个姑且不说了,可以解释为匿名蜘蛛,虽然匿名爬行网站是相当不尊重站长的行为。

我当然不能肯定360结果就是,或者很大程度上是,百度最后调整前的数据。外人无法肯定。我只能说很像。

网上有人觉得360搜索是整合了百度和Google结果后再调整排名,我倒不觉得。整合其它搜索引擎数据的所谓“元搜索引擎”一直存在,如现在居然还活着的dogpile。不过360搜索能实时这么做的可能性很低,百度、Google怎么可能允许呢,360真这么做的话早就被屏蔽了(换IP也一样能屏蔽)。

那么360怎么会有百度的数据呢?真的建个关键词库然后去抓取百度搜索结果?怎么想怎么不可能啊,那太雷人了。百思不得其解,哪位知道指点我一下。又或者是我的幻觉?360真的完全是自己的技术?

至于360以后会占多少市场份额,这个和搜索技术、搜索质量似乎关系不大,要看360搜索商业模式的发展、哪个巨头更黑、更狠。

最后补一句,在任何市场里,有竞争都是好事。

http://www.seozac.com/seo-news/360-search/

Google搜索质量评分指南正式发布

刚刚Google正式发布了一个Google搜索质量评分指南。其实早在2008年我就提到过,这份文件那时候就流传出来了,不过当时只是私下流传,虽然网上四处能找到,我也没好意思提供下载链接,现在可以随便下载随便看了,因为是Google自己主动发布的。

文件上写着是2012年11月2号修订的,但标明的版本是1.0,而以前流传出来的版本已经到3.27了,我还没对比两个版本,估计是在老版本的基础上删减的。公开发布的这个版本比流出来的少了很多页,但也算很有帮助了。

这份文件是Google的人工质量评估员受训时的教材性质的东西,里面很详细地定义了搜索结果质量评分的几个级别,查询词与质量评分的关系,垃圾内容的种类及判断标准等。

建议所有做SEO的都仔细研读一下,这是搜索引擎定义页面质量的标准。想想看受Google的Panda更新影响的网站范围之广,影响程度之大,受影响的网站鲜有恢复的,而Panda更新主要就是针对低质量页面,这份文件是SEO必看的。

另外,这种文件最好看英文原文,最准确。翻译版本或多或少会有损失。就连Google中文官方网站上的一些帮助文件在从英文翻译过来时也不是非常准确。

以后有时间的话我来翻译一下(只能翻译这个公开的版本),虽然已经有人翻译了,不过我相信,谦虚地说,我翻译的英文SEO和网络营销相关内容是最准确的.

http://www.seozac.com/google/google-quality-rating-guidelines/

百度分享是否会影响百度排名?

两个星期前百度分享数据开始显示在搜索结果中,现在百度分享按钮已经迅速流行开了,很多搜索结果可以看到多少多少人喜欢和那只小手。我11号的帖子据说帮助了百度分享推广,因为帖子里暗示我认为百度分享数据会影响百度排名。有的SEO可能觉得又有空子可以钻了,甚至看到有人开始刷百度分享了。

其实我没有明确说百度分享会影响百度排名,原话是:

百度分享按钮会不会影响百度排名,自己琢磨吧。反正我是信了,也加上百度分享代码了。

未免更多误会,写篇简单帖子再解释下我的目前看法。准确点说,我觉得百度在排名计算中或者现在就已经使用百度分享数据,或者在不远的将来会使用。但需要注意的是,怎样影响排名还不知道,不一定是我们最容易想到的直接影响(分享得多了排名就相应提升)。百度分享数据很可能是别的用法。比如,将分享数据作为网站/页面受欢迎程度的印证方法之一,或者检测作弊的印证方法之一,而不是直接影响排名。

所谓印证指的是,比如百度算法根据外部链接计算觉得某个页面应该是受欢迎的,因为外链比较多,但在垃圾链接泛滥的今天,这些链接会不会本身就是假的呢?可以从其它渠道间接印证一下,如果外链多,分享数据也不少,互为印证,外链判断为有效,判断错误的概率将降低。如果外链多,却完全没有分享,这可能使百度觉得可疑,因而判断外链为无效。(只是举例,实际过程不可能这么简单。)

在这种情况下,说百度分享数据影响排名也是对的,但我们将不会看到分享得多就能提高排名,没有这种数量关系。

另外,不要觉得又有空子可以钻了。百度既然把数据这么明白地显示出来了,就肯定做好了被刷的准备。内部的证据咱们拿不到,就看看表面的吧。下图是SEO每天一贴首页在百度搜索结果中的显示分享数,123个,1月26号晚上抓图:

搜索结果中SEO每天一贴首页显示的百度分享数
26号晚上页面分享链接被点击的真实数是129:

SEO每天一贴百度分享按钮被点击的次数
前一篇帖子就提到过,显示的分享数有滞后,大概一天更新一次。两者基本吻合。

再来看看同一时间《百度结果中快照后面的多少人喜欢是什么东东》这篇帖子在搜索结果中显示的百度分享数,192个:

百度搜索结果中内页显示的分享数
和首页情况比较的话,基本靠谱。但这篇帖子已经被人刷百度分享数了(我出2000万打赌,不是我刷的,不知道是哪位有钻研精神的SEO干的):

百度分享数被刷
页面百度分享数已经被刷到1500多次,百度很显然找到了方法剔除无效数据。怎样剔除待研究,可能是查看那些发布分享的网站,看看是否真的被分享了,也可能是别的什么方法。

数字差别不是滞后或还没更新的原因,因为页面被刷已经是10天前的事了,其它页面数据没有滞后这么久的。

最后,为什么我知道是被刷,不是真的被分享这么多次呢?第一,数字从几十爬到1400多是几个小时内发生的。第二,网站流量统计显示,最近流量没有异动,10天前没有特别高的流量。

http://www.seozac.com/baidu/baidu-share-ranking/

百度绿萝算法明天上线

在Robin微博上看到消息,百度明天(2月20号)推出名为绿萝的反作弊算法。百度站长平台公告指明这个算法目的是打击链接买卖,受影响的网站类型将会是:超链中介,出卖链接的网站,购买链接的网站。

这是去年10月百度反超链作弊算法之后又一次更明确对付买卖链接的动作。明天看看会有什么变化吧。

百度对站长和SEO的态度在过去一两年确实变化非常大,可以感受到,他们在尽量和SEO们沟通,在不影响算法保密的前提下尽量透明。前几个月推出的站长工具对SEO们很有帮助,尤其是外链查询工具,填补了Yahoo!外链工具取消后的空白,是目前唯一能查询搜索引擎外链数据的工具。

绿萝这个名字起的挺好。大家都知道Google以前的算法更新名称是来自于台风的名字,由webmasterworld.com命名的,最近两年更新名称是Google自己给出的,熊猫和企鹅,是动物系列。百度这回是植物系列的开头,而且是个很好的开头,要是叫牡丹什么的就弱爆了。绿萝算法这名字够独特,够有意味。好的名字就是要让人一听到就会在心里问一下:这是什么玩意?

估计明天搜索绿萝的次数会暴涨。

http://www.seozac.com/baidu/aureum-algorithm/