ALEXA网站排名真相调查
2005-01-11 19:18:52
来源:星星生活

在Google上搜索“Alexa”,简体中文的结果有7万多条。现在,“Alexa排名”已经是中国网站的站长们嘴边最常挂的单词。那么,这个Alexa是干嘛的?它凭什么令国内网站侧目?Alexa有哪些鲜为人知的秘密?

计算机世界报道,1996年4月,Alexa在美国创立,那时它只是一个小网站,主要做分类导航。在那时候,很多网站都是雅虎的Fans,Alexa只是众多跟风者中的一员罢了。但Alexa自己也有一些技术,就是对访问某个Web站点的流量进行统计和分析。后来,Alexa还向网民提供自己开发的搜索引擎服务。

1997年7月,Alexa发布了一款软件,就是现在著名的Alexa Toolbar(Alexa工具条),这是一个嵌入到微软IE浏览器中的工具,它在用户访问每个Web页面时都向Alexa发回一串代码,将该次浏览的相关信息告诉Alexa。而用户会在该工具条上看到其浏览的网站在全球所有网站中的排名信息,当然,这只是Alexa给出的网站排名。

1999年,Alexa被美国电子商务旗舰企业“亚马逊”收购,成为后者的全资子公司。2002年春,Alexa放弃了自己的搜索引擎,转而与Google合作。Google遍及全球的Web爬行程序构造了一个巨大的页面信息数据库,这极大地丰富了Alexa自身的URL网址数据库。同时,Alexa也偷偷地放出了自己的爬行程序,在互联网上搜寻未知的网址。

经过多年积累,Alexa的URL网址库已存储了400亿网址信息,超过了Google等搜索引擎,成为互联网上最全的网址信息数据库。Alexa数据库的每日平均增量高达1TB,每两个月就能对数据库进行一次全面更新。

现在,Alexa工具条在全球的“装机量”早已上千万,而Alexa主要的工作就是基于遍及全球电脑用户桌面的工具条返回的信息,对全球网民的浏览习惯进行监测,并开发和销售各种相关产品。其中,有最长达10万个网址的全球网站排行榜,有针对某些特定行业网站的排行分析,有针对个别网站定制的网站流量监测报告。Alexa还提供了很多免费的基本信息,比如“全球网站500强”,还有“简体中文网站100强”,网民们可以在Alexa上单独查看关于某个网站的排名历史变化图,甚至还能同时对最多5个网站的流量及排名等数据进行直观的横向对比。

尽管Alexa在其网站上提供了非常多有价值的信息,但其真正赖以成名的还是那个被四处引用并被媒体多次炒作过且引发了巨大争议的全球网站排名。按照Alexa网站上的“官方声明”,Alexa公开的那份全球网站总排名是通过收集所有Alexa工具条返回的信息,经过计算得出的综合排名。从这份“官方声明”中,我们不难看出,影响Alexa排名的因素是两个,一是Alexa采集的信息,二是Alexa对这些信息进行深加工的计算方法。

仅有访问人数,还不足以反映一个网站被网民浏览的情况,Alexa还提供了另一个数据来反映到访的网民对特定网站的使用率,这就是PageViews per user(每用户浏览页面数,简称PV)。某网站的PV值是每天所有访问该网站的Alexa工具条用户在该网站上浏览的总页面数的平均值,而同一人对相同页面的重复浏览在每天只计作一次。还以2004年11月3日google.com的访问数据为例,这一天,google.com的PV值是4.0,也就是说,来访的网民们平均在google.com网站上浏览了4个页面。

有了Reach和PV这两个数据,Alexa就可以给全球网站按综合流量进行排名了,它把网站的这个排名称作Traffic Rank(流量排名,简称Rank),据Alexa在其网站上的解释,决定这个Rank的就是Reach和PV的几何平均数,也就是两者乘积的平方根。显然,一个网站的Reach和PV值越高,其Rank也越高。

仍以google.com为例,其4.0的PV值在一般的网站来说并不算高,但是,由于Google搜索引擎的用户非常多,其Reach值远高于一般的网站,就使得google.com的Rank达到3,也就是说,google.com当天的全球排名是第三位。而全球排名最高的网站是yahoo.com,其Reach和PV值在全球网站中都是相对很高的。

每时每刻,全球每个安装了Alexa工具条的计算机终端都会向Alexa汇报该终端在互联网上的访问情况。根据这些信息,Alexa每天都会对全球网站的排名做重新计算,也就是说,Alexa排名是每日更新的。因为几乎全球所有的网站都在Alexa的监测范围内,而这个每日更新的排行榜又显得过于直观,加之又是公开的随时可查的数据,就使得Alexa排名在很多场合都显得很敏感。

自2003年以来,中国互联网行业开始全面升温,曾经被资本们无情甩掉的网站CEO们又找回了昔日的感觉,但风险投资家们确实比上一次.COM泡沫时期精明了许多,网站要吸引投资,必须首先打消资本的顾虑,就算是已经上了市的网站,也需要给股东们一些明确的数据来表明自身的价值。就在这时,Alexa排名被介绍到了国内,虽然这个网站以前从未引起大家的注意,但是它提供的这个排行榜却很快显示出巨大的商业价值。

一些网站在向投资人递交商业计划书的同时,开始有意无意地提一下自己的Alexa排名,按照某种大家默认的逻辑,排在全球300名的网站总是比排在全球1000名以外的网站更有价值。终于,在“圈内人”的口口相传中,Alexa排名在中国互联网上名声大噪,而此时,远在大洋彼岸的Alexa却对它的中国Fans们一无所知。

当Alexa排名开始得到业界的普遍认可时,终于有人开始利用Alexa排名来创造“价值”了。大批个人网站的站长们开始研究Alexa的排名规则,网上开始流传各种针对Alexa的作弊工具,很多网站上开始刊登介绍Alexa作弊方法的文章,各种论坛里开始出现对Alexa排名的讨论。一时间,中国互联网业界刮起了“Alexa旋风”。

无论如何,从追捧到棒杀,业界对Alexa的关注一点儿都没减。进入2004年以来,照样有很多网站的站长们在绞尽脑汁地想把自己网站的Alexa排名“做上去”,而以前揭露过Alexa的炮手们也同样继续怀揣各种目的炮轰着Alexa。

今年十一长假过后,中国国内网站在Alexa上的排名突然经历了一次大规模集体滑坡,各种谣言开始在网民中流传,一种比较流行的说法是,Alexa终于开始调整算法来反击越来越多的中国作弊网站,人们把这看做是Alexa的“正当防卫”,毕竟,一个以排行榜为最大卖点的网站赖以生存的就是它的排名的公正性。

各种传言都无法解决看客们对Alexa可信度的疑惑,要想彻底搞清楚Alexa排名是否可信,必须从技术上对Alexa的全球网站流量监测进行全面的解剖。著名的Web技术专家小林,用了近一个晚上的时间,对Alexa工具条及其向Alexa返回的数据进行了细致的分析,得出了很多宝贵的第一手资料。多年前对Alexa就做过研究的小林认为,最近的这次分析揭示了一些Alexa更隐秘的技术细节。

小林告诉记者,现在最新版本的Alexa工具条的运作机理与以往没有太大的改变,每当用户以装有Alexa工具条的IE浏览器打开新页面时,Alexa的一台服务器(data.alexa.com)都会收到加密的数据包,这个数据包中的核心信息就是十几个参数,这些参数包括当前网页地址、页面打开时间、用户端显示分辨率、Alexa工具条版本号、该用户是否为“亚马逊”的用户等,其中有一个重要的隐含参数,经小林分析,认为是Alexa为每个已安装的工具条自动生成的ID号码,这个号码应该是全球惟一的。

小林告诉记者,从目前研究的结果来看,任何一个汇编高手都可以很容易地掌握Alexa工具条返回的数据包中的秘密,如果这个人同时也是一个网络编程高手,那么要针对Alexa作弊就比较容易了。

从记者后来对一位上海的Alexa作弊高手的采访来看,小林的分析完全正确。该作弊者正是一位资深的Web开发工程师,其采用的手段与小林的分析也基本吻合──编写一个Alexa工具条返回码生成器,批量产生Alexa能够辨识的代码串,然后用虚拟多用户的方式发回data.alexa.com,这样就可以欺骗Alexa的服务器,让它误以为这些数据是不同用户发来的。

从以上的技术分析来看,Alexa的服务器每天所做的工作就是不断接收全球用户传回的数据包,提取其中的那十几个参数并写入专门的数据库,然后在某个特定时间对当天收集到的这些数据进行分析计算,并以新的计算结果去更新当日的网站排名。

在破解了工具条的DNA之后,记者还与一些朋友探讨了Alexa工具条在全球的分布情况。按照Alexa的说法,工具条是它惟一的信息获取来源,那么工具条在全球用户中的分布也就成了另一个可以影响Alexa排名的重要因素。如果工具条真的是Alexa数据的惟一来源,可以想象,当中国网民都没有安装Alexa工具条的时候,新浪搜狐这样的门户网站恐怕在Alexa排名中都见不到影子。

可是今年下半年以来,新浪和搜狐就已经紧随Google排在全球第四和第五的位置了,这似乎说明了Alexa工具条已经在中国具备了较高的普及率,否则,新浪、搜狐以及紧随其后的占领了Alexa全球500强中近1/3份额的中国网站就都有作弊的嫌疑。(王翌)

收藏

发表评论