对Google更新过程最终解释
Submitted by admin on 2008, July 3, 8:33 AM
原著:Serge Thibodeau 编译:Sunny
[出自北京奕天]
Google是如何更新全部索引的?这是一个范围相当宽的问题,大家都知道,Google为确保向用户提供最具相关性和质量最高的搜索结果而对其数据库按月进行更新。为了回答上述问题,在本文中我将向大家详细说明Google更新过程的每个步骤。
有相当多的用户和公司都已经发现,为了在早期的[url=http://www.seoclub.cn/seo/index.htm]搜索引擎优化[/url]中,能在Google里有个很好的排名,在认真做计划之前就要采取一切必要的措施。就免费提交的搜索引擎来说,Google是为数极少之中的一个,也是最早将网站收录到数据库的搜索引擎之一。到2003年7月10日为止,Google已经成为收录34亿个网页之多的最广泛的数据库。其中只有一小部分不能够被Google访问,因为这些站点是不能够被搜索引擎爬虫或蜘蛛所访问的。
就象在现实生活中一样,无论是对网站所有者、网站管理员还是搜索引擎优化专家来说,当开始一个新产品的市场时,有很大的风险和潜在的复杂性。然而大多数专家都一致同意在使用Google搜索时,要正确输入关键字,这样才可以有效地搜索到你所要查找的信息。因为Google每个月都会更新它的数据库。在这篇文章中,我们要解释关于“Google Dance”的信息,还有如何在恰当的时间理解“Googlebot”。另外,我们也会告诉你如何进行搜索引擎的优化
著名的“Google Dance”
如果你想写封信去参加在Google总部的年度更新过程,那么你可能希望继续读到GooglePlex这篇文章,从中了解Google数据库和搜索引擎机器人是何如工作的。关于Google每月周期性的更新过程有很多的文档记录。而在过去整整一年,Google的这种每个月的周期性更新(如今人们亲切称之为“Google Dance”)对那些焦虑等待的网站所有者和网站管理员来说,都变得愈加复杂和不可琢磨。
每次的更新都是从Google的一个主要的深层次的爬虫开始的。我们先把它叫做爬虫A。它是如何索引到整个网站中至少三四十亿的网页的呢?Google使用了15,000多台位于不同数据中心的计算机,来索引全世界范围内的站点。当Googlebot来搜索数据库中现有站点时,同时也会搜索到最新的网站。一旦Google完成了爬虫A这个过程,就会为下一步的更新有效地搜索到所有的网页,然后便是两个星期后的第二次更新过程。
最后,Google会更新整个数据库,在www2.google.com和www3.google.com这两个站点上可以看到最新的更新结果。在更新的同时,其结果会很快的连接在主要数据库和第二、第三个数据库之间。由于Google使用的服务器有15,000台之多,因此在整个更新结束之前,不同地方的人们所得到的搜索结果是不同的。“Google Dance”会持续好几天,但是不会超过一个星期。除非Google要改变一些主要的规则,比如2003年4月份的更新。
无论是在Google的每个数据库更新的时候还是在更新之后, 只要其中一个数据库进行更新,Google又会开始新一轮的“全面”检索。我们把它称做爬虫B。这次检索仍然包括数据库中所有已被收录站点和一些新发布的网站。GoogleBot的这次检索完成之后,就是Google下一轮更新的起点,意味着下个月的更新又全面开始了。
在完美时间“捕捉”Googlebot
为了得到包括Google数据库在内的任何网站,或是数据库中有效反映更新的网站,一个有经验的网站管理员需要事先作认真的计划,并准备好一切。这样他才能在能每月特定的更新过程中“抓住”Googlebot,以取得一个好的排名。多数好的搜索引擎优化专家都知道Googlebot一开始的索引都是在月初进行的,而深层次的索引是在更新之后开始的。
还要面对大部分的实际的访问者。
Google新算法背后的原因:
在1998年google刚刚开始的时候,PR在决定适当程度与重要性方面起到了一个非常完美的作用。尽管如此,PR算法在设计上还是存在了一些脆弱性与限制性。google在很早以前也就知道了。
PR值对于搜索述语或者指定的关键字起的作用不大,因此,高PR值只是给搜索述语或者指定的关键字提供参考。这就是google在Hilltop算法中尽量排除的东西。Google总是尽其所能去列出与搜索者相关的结果。
回到Bharat,他在Hilltop 算法的专利,成为了google的代理。在与PR算法相比之下,Google意识到这个算法的进步会为他们的搜索排名带来非常重要的功能。
Google的Hilltop算法现在已经能更好的与旧的算法(PR算法)联合起来工作。根据我的观察Hilltop算法比起它在2000年刚设计的时候已经有了很大的进步。显然这也是2003年11月16日“佛罗里达”更新中影响的一个最主要的算法。
Hilltop 与google 33亿页面的庞大目录
在最初的时候,google的运作基本上是靠10000台奔腾级别的服务器(有些人称他们为廉价的个人电脑),它的数据库平均地分布在多台的个人电脑上,这就是google在成长时期要建立的硬件技术。
回到Hilltop算法,如果我们对10000台低廉服务器是怎样拥有动态智能的处理能力进行观测,(能迅速地在数以万计的不同类型的网页中确定本地的一个行家文档)。很明显的就会发现,google 的Hilltop算法在起着巨大的作用。
在搜索引擎方面,从我所看到的和知道的。自从11月16日,google现在的运行方式是一种批处理方式。成批地处理关键字、关键字短语与搜索语句。Google会在庞大的数据库里储存这些结果,以备搜索者在短期内继续用同样的关键字短语等进行搜索。
Google 是这样进行处理的:在数据库里会储存一些搜索频率比较高的关键字、关键字短语等。这些信息是通过“广告”程度进行收集的。(Adwords ppc)
在我的观测中,google明显地为一个关键字的实际 给予一个随机的数值.回头看一下以前每个月的“google dance”,将会得出以下的结论:Hilltop算法会在那些被除数搜索频率较高的关键字中更新一次。因此,产生“google dance”影响。
另外,在“佛罗里达”更新之前我已经注意到的了。那些突增的搜索关键字会得到较快的更新频率。如一则新闻,“禽流感”。每天的搜索次数,数以万计;Google就会对与这个关键有关的网站进行更新。
总结:在结束这篇文章时,正如我以前的一些文章,如果你想你的网站排名较好的话,网站管理员和站主要跳出以前旧的思维。现在,链接流行度(ink popularity)变得比以前更加重要。
另外,尽你一切的努力把你的网站提交到更多的开放目录下。首先以DMOZ开始,避免那些免费的如自助链接之类。这些有可能使到你的网站得到惩罚。经济允许的话,还可以向一些收费目录提高,如google的ppc广告程序或者overturn 等。你可能会在这里得到真正的收益。注意:自1月15后(正如所料),yahoo已经把google排名完全放弃。
