SEOMOZ 2011排名因素的数据收集与统计分析

六月 17, 2011

SEOmoz在此次的2011版搜索引擎优化排名因素的调查中,使用了让人耳目一新的统计学方法。其中主要采用到的是Pearson积距相关系数。而具体使用的方法,在http://www.seomoz.org/article/search-ranking-factors#methodology此文中有一些概述性的阐述。

 

由于原文涉及较多统计学的专业术语,限于译者能力有限,略去了其中不少的东西。所以通过这篇译文也主要是希望让更多人意识到数据分析在SEO中的一种运用方式,但如果想要按照这样的方法实际运用的话,还是必须参考原文。

——————————————————————————————————————————

对于SEOer而言,“在搜索引擎中什么影响排名最大?”此类的问题是我们最为关注的话题之一,所以使用了以下数据来分析其与排名之间的关系:

Linkscape工具中的链接与锚文本等数据

(译者注:Linkscape是SEOmoz开发的软件,使用自己的爬虫来获取海量的数据,主要记录把互联网上面的链接信息记录下来,其应用Open Site Explorer是一个被运用比较广泛的工具,模拟计算PageRank与TrustRank等数值,可作为SEO的参考)

Facebook和Twitter等社会化媒体

页面上的,URL及域名上面的关键词使用情况

以下的章节包括了一些关于数据来源的细节,从关键词列表,到数据来源,还有样本的抽取。最后描述了所使用的统计分析方法。

继续下面的内容之前,有几个需要先提下的事情。SEOmoz只在Google U.S.里面收集数据,而且所有数据都是在2011/3收集的(这时Google的熊猫算法已经更新完毕了)。

数据收集

关键词列表

建立数据集的第一步是选择一个查询词列表。因为这个查询词列表的质量决定了数据的质量,所以有必要保证它包含了各种各样的主题和查询种类(译者注:主题如文学、计算机之分;查询种类如导航型、问答型、产品型之分)。为了这个目的,SEOmoz使用了Google Adwords tool里面15个栏目大类中推荐的查询词(表格1给出了关键词列表所在的栏目)。

一些细节这里就省略不翻译了,总之SEOmoz从那些列表每个获取800个词,并筛选掉了重复的以后,总共还剩下10000多的词。其中包含了搜索量高低不一的各种词,如表格2所示。

SERPs

SEOmoz在Google U.S.上面的10980个查询词中,每个都提取了前30个搜索结果,同时用了些方法,从而忽视了排名的区域性和个性化影响。我们从结果中移除了所有非常规网页搜索结果(图片、视频、新闻等)。最终,为了保证每个SERP都有足够的资料用来分析,排除了所有返回结果少于15个的查询。这样下来,最终剩下223737个独立的URL。

数据收集

此处的具体数据收集,SEOmoz使用了Linkscape的API收集链接类因素,各个社会化媒体自身的API去收集它们上面的因素,也采集了那些词排名好的那些网页本身。

Spearman秩相关系数(重点!)

这是SEOmoz倾向的度量方式,也是唯一在这个报道中一直在阐述的东西。因为拥有大量各种各样的因素和因素种类(它们很多并不是正态分布的),Spearman秩相关系数比更常见的Pearson积距相关系数更好(因为Pearson积距相关系数假设变量是正态分布的)。在分析中,认为每个查询词都是独立的,并为了每个查询词都分别计算了Spearman秩相关系数,然后平均了所有的查询词并报告了最终结果。

——————————————————————————————————————————

后面部分涉及的是大量统计领域的术语,限于译者能力全部略去,但这里已经介绍了之所以用Spearman秩相关系数的原因了,那么接下来只要稍微接触些统计学方面的知识,也可以逐渐自己上手。

首先可以寻找一些相关系数的入门的资料,比如:http://wenku.baidu.com/view/9e5ad1956bec0975f465e21c.html

务必需要先了解的是对于相关系数而言,因果关系与间接关联的关系之间的区别。

实际计算中,常用的Pearson积距相关系数可以用Excel直接来计算(函数名为correl),但Excel没有方法可以方便的计算Spearman秩相关系数,此处需要使用到的是SPSS等更专业的统计分析软件。

另外如SEOmoz所说,这样的数据还是很基础的,单单的相关系数并不能区分两个事物间的因素究竟是因果抑或间接关联,它也有其他很多局限性在。就比如大方向上的,就算完美掌握所有排名因素也不代表网站一定会获取流量,因为关键词排名(指的是某几个热门关键词的排名)并不意味着整站的流量。

所以如何将统计方法更深入、更广泛的运用,就是重点所在了,待大家挖掘。同时希望国内的SEO能先模仿、后超越,最终也能赶上甚至超过国外的水准。

Via:  SEMWatch.org

无觅相关文章插件

发表评论

本站采用创作共用版权协议, 要求署名、非商业用途和保持一致. 转载本站内容必须也遵循“署名-非商业用途-保持一致”的创作共用协议