>>首页
Google与Baidu的比较
2005-11-21 10:00:00

Google与Baidu的比较1] URL 的友好化  
http://link.lilujun.com ;
要强http://link.lilujun.com

就是简明,尽量采用二级域名  

2] 静态网页好于动态网页  
html > php > cgi > asp/jsp  
尽量制作固定的 html 页面  

3] title 和 meta 要完整。  
meta keywords 很关键。  
title 和 meta 是google要作为权重的考虑方面。  
Baidu只考虑 title,不将 meta 计算在内  

4] 网页设计不要太多的 frame  

5] 其它参考前面我的一些观点。

3】更新率

通常比较好的网站的网络蜘蛛能够在合适的时间进行爬网,因为很容易可以从IP上判断一个主机的实际地址,一般的网络蜘蛛都安排在当地时间的凌晨2-5点爬主要的网页。
对于一个经常更新的网站,设计良好的网络蜘蛛会定期来爬,时间间隔不会超过两天。在这里面有一个定义:[更新率],是[月更新的网页/全部的网页],如果这个数字比较大,则表明这个网站维护和更新比较快,会受到网络蜘蛛很好的重视。
在搜索引擎的竞争中,网络蜘蛛占很大的比重。因为网络蜘蛛是搜索引擎最直接的信息来源。但是过度的网络蜘蛛则会影响到主机的性能,也会造成网路阻塞。Googlebot宣称不会在15秒钟送出两只以上的网络蜘蛛,而Baidu则丝毫没有顾及这个,Baidu的网络蜘蛛常常是一分钟内往一个网站送交几百,甚至上千只,对于多域名Hosting的主机,常造成主机瘫痪。因此有网站在/robot.txt 里限制了网络蜘蛛的范围。
比较好的一个例子是一个中等网站的网络蜘蛛与访问量的关系是1/50的关系。
那么什么会影响到网络蜘蛛访问的次数呢?除了上面谈到的[更新率]和以后要谈到的Pageranking外,还有一个不为大家重视的就是主机的反应速度网站的稳定性。
主机的反应速度直接影响到网络蜘蛛的效率,如果反应过慢,网络蜘蛛没有拿到数据,网络蜘蛛会认为这个网页的参考价值不高,并短时间内不会更新。
稳定性更可怕,如果一个网站down一天,这一天里网络蜘蛛都没有access host,那么接下来的几天里网络蜘蛛数目会骤减,因为任何一个搜索引擎不希望将用户导向到一个联接不上的网站。网络蜘蛛未来也会送一两只过来探测网站是否正常,如果一切恢复了,仍然需要一段时间才能和网络蜘蛛建立友好关系,大约要1,2周的时间才能完全在搜索引擎上恢复到原来的位置。

4】网页信噪比(Significant)

一个网页针对不懂的搜索词有一个信噪比的概念,信噪比Significant的定义如下:  
Sig=(Sqrt(Ns)/(Sqrt(Nb)))*Log(Nb)
Ns为被搜索词出现的次数,Nb是背景项,是指总共这个网页里包含的词汇量。
这是针对单个搜索词语而言的, 如果针对多个词语,通常是采用
Sig=Sigma(Sig_i),这个Sig_i是第i个词汇的信噪比。
下面举一个例子,例如在Baidu里搜索“小李”这个词,“小李书屋”列在最前面,除了Pageranking的影响外,最主要的就是这个网页的信噪比比较高。

以Google和百度代表的搜索引擎都严重依*网络蜘蛛,因此我还要花大量的篇幅来讨论网络蜘蛛(机器人)的一些特点。在下一代的搜索引擎设计里,将尽量避免出现网络蜘蛛,这样将会避免现在Google类搜索引擎设计上的严重缺陷。

5】网络蜘蛛喜欢什么?
1]从数量上看,一个网页的大小如果超过150K,基本上超出部分将不会被网络蜘蛛吃到。
2]从文件类型上看,Html>cgi>php>asp/jsp。网络蜘蛛对不同的flavour有不同的偏好,如果一个网页嵌入过多的jsp/asp,网络蜘蛛将不会进行触发。正如cgi相对容易触发一样,越静态的界面,网络蜘蛛越喜欢。
3]从叶面联接上看,如果一个叶面上有超过100个以上的连接出去,这个叶面重要度也会被大大的降低。
4]url 深度越深,网络蜘蛛越不易爬到。

因此,对于老式的搜索引擎(上一代搜索引擎)而言,采用[1]静态html叶面,[2]叶面尽量控制在50K以内(文字),[3]单个叶面内联接不要超过50个,[4]Url要短小,尽量采用2级域名而不是延伸Url。

[ 打印本页 ] [ 关闭窗口 ] [ 返回顶部]