注册 | 登陆 人的头脑太复杂,时间过得久,有时候连自己也被自己骗了,记下来才是最真实的......

对Google更新过程最终解释


原著:Serge Thibodeau 编译:Sunny
[出自北京奕天]  

Google是如何更新全部索引的?这是一个范围相当宽的问题,大家都知道,Google为确保向用户提供最具相关性和质量最高的搜索结果而对其数据库按月进行更新。为了回答上述问题,在本文中我将向大家详细说明Google更新过程的每个步骤。
  
有相当多的用户和公司都已经发现,为了在早期的[url=http://www.seoclub.cn/seo/index.htm]搜索引擎优化[/url]中,能在Google里有个很好的排名,在认真做计划之前就要采取一切必要的措施。就免费提交的搜索引擎来说,Google是为数极少之中的一个,也是最早将网站收录到数据库的搜索引擎之一。到2003年7月10日为止,Google已经成为收录34亿个网页之多的最广泛的数据库。其中只有一小部分不能够被Google访问,因为这些站点是不能够被搜索引擎爬虫或蜘蛛所访问的。
  
就象在现实生活中一样,无论是对网站所有者、网站管理员还是搜索引擎优化专家来说,当开始一个新产品的市场时,有很大的风险和潜在的复杂性。然而大多数专家都一致同意在使用Google搜索时,要正确输入关键字,这样才可以有效地搜索到你所要查找的信息。因为Google每个月都会更新它的数据库。在这篇文章中,我们要解释关于“Google Dance”的信息,还有如何在恰当的时间理解“Googlebot”。另外,我们也会告诉你如何进行搜索引擎的优化

著名的“Google Dance”
  
如果你想写封信去参加在Google总部的年度更新过程,那么你可能希望继续读到GooglePlex这篇文章,从中了解Google数据库和搜索引擎机器人是何如工作的。关于Google每月周期性的更新过程有很多的文档记录。而在过去整整一年,Google的这种每个月的周期性更新(如今人们亲切称之为“Google Dance”)对那些焦虑等待的网站所有者和网站管理员来说,都变得愈加复杂和不可琢磨。
 
每次的更新都是从Google的一个主要的深层次的爬虫开始的。我们先把它叫做爬虫A。它是如何索引到整个网站中至少三四十亿的网页的呢?Google使用了15,000多台位于不同数据中心的计算机,来索引全世界范围内的站点。当Googlebot来搜索数据库中现有站点时,同时也会搜索到最新的网站。一旦Google完成了爬虫A这个过程,就会为下一步的更新有效地搜索到所有的网页,然后便是两个星期后的第二次更新过程。
  
最后,Google会更新整个数据库,在www2.google.com和www3.google.com这两个站点上可以看到最新的更新结果。在更新的同时,其结果会很快的连接在主要数据库和第二、第三个数据库之间。由于Google使用的服务器有15,000台之多,因此在整个更新结束之前,不同地方的人们所得到的搜索结果是不同的。“Google Dance”会持续好几天,但是不会超过一个星期。除非Google要改变一些主要的规则,比如2003年4月份的更新。
  
无论是在Google的每个数据库更新的时候还是在更新之后, 只要其中一个数据库进行更新,Google又会开始新一轮的“全面”检索。我们把它称做爬虫B。这次检索仍然包括数据库中所有已被收录站点和一些新发布的网站。GoogleBot的这次检索完成之后,就是Google下一轮更新的起点,意味着下个月的更新又全面开始了。
在完美时间“捕捉”Googlebot
  
为了得到包括Google数据库在内的任何网站,或是数据库中有效反映更新的网站,一个有经验的网站管理员需要事先作认真的计划,并准备好一切。这样他才能在能每月特定的更新过程中“抓住”Googlebot,以取得一个好的排名。多数好的搜索引擎优化专家都知道Googlebot一开始的索引都是在月初进行的,而深层次的索引是在更新之后开始的。

还要面对大部分的实际的访问者。
Google新算法背后的原因:
在1998年google刚刚开始的时候,PR在决定适当程度与重要性方面起到了一个非常完美的作用。尽管如此,PR算法在设计上还是存在了一些脆弱性与限制性。google在很早以前也就知道了。

PR值对于搜索述语或者指定的关键字起的作用不大,因此,高PR值只是给搜索述语或者指定的关键字提供参考。这就是google在Hilltop算法中尽量排除的东西。Google总是尽其所能去列出与搜索者相关的结果。

回到Bharat,他在Hilltop 算法的专利,成为了google的代理。在与PR算法相比之下,Google意识到这个算法的进步会为他们的搜索排名带来非常重要的功能。
Google的Hilltop算法现在已经能更好的与旧的算法(PR算法)联合起来工作。根据我的观察Hilltop算法比起它在2000年刚设计的时候已经有了很大的进步。显然这也是2003年11月16日“佛罗里达”更新中影响的一个最主要的算法。

Hilltop 与google 33亿页面的庞大目录

在最初的时候,google的运作基本上是靠10000台奔腾级别的服务器(有些人称他们为廉价的个人电脑),它的数据库平均地分布在多台的个人电脑上,这就是google在成长时期要建立的硬件技术。

回到Hilltop算法,如果我们对10000台低廉服务器是怎样拥有动态智能的处理能力进行观测,(能迅速地在数以万计的不同类型的网页中确定本地的一个行家文档)。很明显的就会发现,google 的Hilltop算法在起着巨大的作用。

在搜索引擎方面,从我所看到的和知道的。自从11月16日,google现在的运行方式是一种批处理方式。成批地处理关键字、关键字短语与搜索语句。Google会在庞大的数据库里储存这些结果,以备搜索者在短期内继续用同样的关键字短语等进行搜索。
Google 是这样进行处理的:在数据库里会储存一些搜索频率比较高的关键字、关键字短语等。这些信息是通过“广告”程度进行收集的。(Adwords ppc)

在我的观测中,google明显地为一个关键字的实际 给予一个随机的数值.回头看一下以前每个月的“google dance”,将会得出以下的结论:Hilltop算法会在那些被除数搜索频率较高的关键字中更新一次。因此,产生“google dance”影响。

另外,在“佛罗里达”更新之前我已经注意到的了。那些突增的搜索关键字会得到较快的更新频率。如一则新闻,“禽流感”。每天的搜索次数,数以万计;Google就会对与这个关键有关的网站进行更新。
总结:在结束这篇文章时,正如我以前的一些文章,如果你想你的网站排名较好的话,网站管理员和站主要跳出以前旧的思维。现在,链接流行度(ink popularity)变得比以前更加重要。

另外,尽你一切的努力把你的网站提交到更多的开放目录下。首先以DMOZ开始,避免那些免费的如自助链接之类。这些有可能使到你的网站得到惩罚。经济允许的话,还可以向一些收费目录提高,如google的ppc广告程序或者overturn 等。你可能会在这里得到真正的收益。注意:自1月15后(正如所料),yahoo已经把google排名完全放弃。



对百度排名的几个疑问


1.    关于竟价排名某种现象的疑问:某网站,热门关键词“商标”想在百度非推广类网站中排前几名,此网站为了更好的推广,就做了竞价排名,不过做的不是“商标”这个词,而是与商标相关的众多词,比如商标设计,商标注册等。 此网站一做百度竞价排名后,就出现一个奇怪的现象:在百度里输入“商标”一词,自己网站在原来在非推广类中的排名的忽然没有了。(也就是按照百度程序的自动排名)。

于是,此网站利马停掉了在百度的竞价排名,但是很长时间内“商标”一词都没有恢复排名。而在停掉竞价排名整整一个月的时候。忽然又恢复了。

此种现象不仅仅是就这一个网站,而是许多百度竟价排名的客户都发现此规律。

疑问:为什么会出现这种现象呢?为什么会在用户停掉竞价排名一个月后,才恢复用户网站的非竞价排名呢?是不是为了让用户长期做竞价排名故意如此设置的呢?


2.    怎么才算在百度中作弊:笔者网站有一个非常简单的页面 http://www.web136.net/google/

很长一段时间,在各个搜索引擎中输入“Google排名”中都排第一名。后来忽然在百度里面找不到这个页面了,但是我不知道原因。诳了一下某个专业SEO论坛,才知道是被人举报作弊。当时偶就纳闷了,这么简单的一个网页怎么被百度当作作弊了?


因为长期研究搜索引擎缘故,应一些网友的要求,本人所属的公司开始提供SEO(网站优化)服务。偶做此服务从来不靠什么作弊手段,追求的是简单的策略:优化网站,综合推广,提高网站的综合质量合流量,达到排名效果(相关文章写过不少,甚至比较详细介绍了这些系统推广,达到排名好的方法)。

如果一个网站质量高了,流量大了,排到百度签名不应该是作弊吧。 难道百度喜欢质量差的网站么?

疑问:上面提到的那个页面有半年年了,一直不知道它作弊到那里了??? 求求你们告诉俺,不过别在说是程序出错什么的。另外,百度认为作弊的方式有那些???

3.    百度程序误差的挺怪。

笔者有两个小网站:

1电子商务指南 http://www.web136.net 

2.网络营销资源 http://www.cn006.com 

从开站三个月后,有了一定的人气,在百度里面输入“电子商务“搜索, 电子商务指南一直排在前三名。输入”网络营销“搜索,网络营销资源也一直排在前三名。持续有半年。上个月,排名忽然同时消失(不过没有彻底没有,输入别的词还可以找到),让俺很不明白,打电话到百度那里问,给偶的解释非常的奇怪:百度搜索引擎程序误差造成的。


百度自称是中文搜索引擎的老大(不是公认,自称,不过既然自称,应该对自己的技术特别自信了),还会出现如此误差,而且误差又如此的巧,都碰到我头上了。搞不懂到底为什么这样子?????(背景音乐周杰仑半岛铁盒) 呵呵!


4.    百度排名疑问四:


这几年断断续续写过不少关于百度搜索引擎和GOOGLE搜索引擎的文章,但总一个现象:不管是夸百度的还是骂百度的,只有文中提到的网站在百度排名什么的。这些网站的命运只有一条:在百度中失去好的排名!

疑问:如此做法是不是怕别人对你们做评论啊? 说真的,太没有风度了。 偶前些日子有感而发写了篇《百度的莫名其妙》。百度见后就动用那么多人来让俺把俺的文章扯掉。让本来就对百度感到莫名其妙的俺更加的莫名其妙。其实啊,对于一个人也好,一个公司也好,难免会遇到别人评论你。要知道,评论的人都是对你有一定好处的人,因为说明这些人在关心着你。而且这些人的观点也许都是一些很不错的好建议 但是你却如此的气量,太……..



Records:2015412345678910»