Google搜索引擎原理

[复制链接]
查看: 3592|回复: 30

1584

主题

1万

帖子

5万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
58699
发表于 2016-2-23 12:55:17 | 显示全部楼层 |阅读模式
1.2 Google:


                                                               

这篇文┞仿中,我们介绍了google,它是一个大年夜型的引擎(of a large-scale search engine)的原型,引擎在超文本中应用广泛。Google的设计可以或许高效地抓网页并建立索引,它的萌芽结不雅比其它现有体系都高超。这个原型的全文和超连接的数据库至少包含24′000′000个网页。我们可以大年夜http://google.stanford.edu/ 下载。


设计引擎是一项富有挑衅性的工作。引擎为上亿个网页建立索引,个中包含大年夜量迥然不合的词汇。并且天天要答复成千上万个萌芽。在收集中,尽管大年夜型引擎异常重要,然则学术界却很少研究它。此外因为技巧的快速成长和网页的大年夜量增长,如今建立一个引擎和三年前完全不合。


1.3.1进步质量我们的重要目标是进步Web引擎的质量。
本文具体介绍了我们的大年夜型引擎,据我们所知,在公开揭橥的论文中,这是第一篇描述地如斯具体。除了把传统数据技巧应用到如斯大年夜量级网页中所碰到的问题,还有很多新的技巧挑衅,包含应用超文本中的附加信息改进结不雅。


本文将解决这个问题,描述若何应用超文本中的附加信息,建立一个大年夜型实用体系。任何人都可以在网上随便宣布信息,若何有效地处理这些无组织的超文本集合,也是本文要存眷的问题。


关键词 World Wide Web,引擎,信息检索,PageRank, Google


1 绪论


Web给信息检索带来了新的挑衅。Web上的信息量快速增长,同时赓续有毫无经验的新用户来体验Web这门艺术。人们爱好用超等链接来网上冲浪,平日都以象Yahoo如许重要的网页或引擎开端。大年夜家认为List(目次)有效地包含了大年夜家感兴趣的主题,然则它具有主不雅性,建立和保护的价值高,进级慢,不克不及包含所有深奥的主题。基于关键词典主动引擎平日返回太多的低质量的匹配。使问题更遭的是,一些告白为了博得人们的存眷想方设法误导主动引擎。我们建立了一个大年夜型引擎解决了现有体系中的很多问题。应用超文本构造,大年夜大年夜进步了萌芽质量。我们的体系定名为google,取名自googol的通俗拼法,即10的100次方,这和我们的目标建立一个大年夜型引擎不约而同。


1.1收集引擎—进级换代(scaling up):


1994年,第一个Web引擎,World Wide Web Worm(WWWW)可以检索到110,000个网页和Web的文件。
1994-2000 引擎技巧不得不快速进级(scale dramatically)跟上成倍增长的web数量。
到1994年11月,顶级的引擎声称可以检索到2‘000′000(WebCrawler)至100‘000′000个收集文件(来自 Search Engine Watch)。
可以预感到2000年,可检索到的网页将跨越1‘000′000‘000。同时,引擎的拜访量也会以惊人的速度增长。
在1997年的三四月份,World Wide Web Worm 平均天天收到1500个萌芽。
在1997年11月,Altavista 声称它天天要处理大年夜约20′000′000个萌芽。跟着收集用户的增长.
到2000年,主动引擎天天将处理上亿个萌芽。我们体系的设计目标要解决很多问题,包含质量和可进级性,惹人进级引擎技巧(scaling search engine technology),把它进级到如斯大年夜量的数据上。


跟上Web的办法(Scaling with the Web)建立一个可以或许和当今web范围相适应的引擎会见临很多挑衅。抓网页技巧必须足够快,才能跟上彀页变更的速度(keep them up to date)。存储索引和文档的空间必须足够大年夜。索引体系必须可以或许有效地处理上千亿的数据。处理萌芽必须快,达到每秒能处理成百上千个萌芽(hundreds to thousands per second.)。跟着Web的赓续增长,这些义务变得越来越艰苦。然而硬件的履行效力和成本也在快速增长,可以部分抵消这些艰苦。还有几个值得留意的身分,如磁盘的寻道时光(disk seek time),操作体系的效力(operating system robustness)。在设计Google的过程中,我们既推敲了Web的增长速度,又推敲了技巧的更新。Google的设计可以或许很好的进级处理海量数据集。它可以或许有效地应用存储空间来存储索引。优化的数据构造可以或许快速有效地存取(参考4.2节)。进一步,我们欲望,相对于所抓取的文本文件和HTML网页的数量而言,存储和建立索引的价值尽可能的小(参考附录B)。对于象Google如许的集中式体系,采取这些办法获得了令人知足的体系可进级性(scaling properties)。


1. 3设计目标


1994年,有人认为建立全索引(a complete search index)可以使查找任何数据都变得轻易。根据Best of the Web 1994 — Navigators ,“最好的导航办事可以使在Web上任何信息都很轻易(当时所有的数据都可以被登录)”。然而1997年的Web就迥然不合。比来引擎的用户已经证实索引的完全性不是评价质量的独一标准。用户感兴趣的结不雅往往湮没在“垃圾结不雅Junk result”中。实际上,到1997年11月为止,四大年夜贸易引擎中只有一个可以或许找到它本身(本身名字时返回的前十个结不雅中有它本身)。导致这一问题的重要原因是文档的索引数量增长了好几个数量级,然则用户可以或许看的文档数却没有增长。用户仍然只欲望看前面几十个结不雅。是以,当集合增大年夜时,我们就须要对象使结不雅精确(在返回的前几十个结不雅中,有关文档的数量)。因为是大年夜成千上万个有点相干的文档中选出几十个,实际上,相干的概念就是指最好的文档。高精确异常重要,甚至以响应(体系可以或许返回的有关文档的总数)为价值。令人高兴的是应用超文本链接供给的信罕见助于改进和其它应用。尤颇昵啻接构造和链接文本,为相干性的断定和高质量的过滤供给了大年夜量的信息。Google既应用了链接构造又用到了anchor文本(见2.1和2.2 节)。


1.3.2引擎的学术研究跟着时光的流逝,除了成长敏捷,Web越来越贸易化。


1993年,只有1.5%的Web办事是来自.com域名。到1997年,跨越了60%。同时,引擎大年夜学术范畴走进贸易。到如今大年夜多半引擎被公司所有,很少技公开术细节。这就导致引擎技巧很大年夜程度上仍然是暗箱操作,并偏向做告白(见附录A)。Google的重要目标是推动学术范畴在此方面的成长,和对它的懂得。另一个设计目标是给大年夜家一个实用的体系。应用对我们来说异常重要,因为现代收集体系中存在大年夜量的有效数据(us because we think some of the most interesting research will involve leveraging the vast amount of usage data that is available from modern web systems)。例如,天天有几切切个研究。然而,获得这些数据却异常艰苦,重要因为它们没有贸易价值。我们最后的设计目标是建立一个别系构造可以或许支撑新的关于海量Web数据的研究。为了支撑新研究,Google以紧缩的情势保存了实际所抓到的文档。设计google的目标之一就是要建立一个情况使其他研究者可以或许很快进入这个范畴,处理海量Web数据,获得知足的结不雅,而经由过程其它办法却很难获得结不雅。体系在短时光内被建立起来,已经有几篇论文用到了 Google建的数据库,更多的在起步中。我们的另一个目标是建立一个宇宙空间实验室似的情况,在这里研究者甚至学生都可以对我们的海量Web数据设计或做一些实验。
回复

使用道具 举报

1943

主题

1万

帖子

5万

积分

网站编辑

Rank: 8Rank: 8

积分
58422
发表于 2016-6-17 01:39:14 | 显示全部楼层
真心顶
回复 支持 反对

使用道具 举报

1933

主题

1万

帖子

5万

积分

网站编辑

Rank: 8Rank: 8

积分
58764
发表于 2016-6-17 01:49:05 | 显示全部楼层
难得一见的好帖
回复 支持 反对

使用道具 举报

1968

主题

1万

帖子

5万

积分

网站编辑

Rank: 8Rank: 8

积分
59454
发表于 2016-6-17 01:59:24 | 显示全部楼层
说的非常好
回复 支持 反对

使用道具 举报

ivibimexe 该用户已被删除
发表于 2016-6-17 01:41:42 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

1933

主题

1万

帖子

5万

积分

网站编辑

Rank: 8Rank: 8

积分
58764
发表于 2016-6-17 01:37:08 | 显示全部楼层
LZ真是人才
回复 支持 反对

使用道具 举报

0

主题

7633

帖子

2万

积分

论坛元老

Rank: 8Rank: 8

积分
22902
发表于 2016-9-3 20:52:07 | 显示全部楼层
现在在帝国网络做整合营销,员工服务态度很好,一有问题马上解决,技术也很牛,排名不错,效果我还是非常认同的!
回复 支持 反对

使用道具 举报

0

主题

7633

帖子

2万

积分

论坛元老

Rank: 8Rank: 8

积分
22902
发表于 2016-9-3 21:06:21 | 显示全部楼层
做了一个珠宝网站,是给我们公司制作的。他们美工比较不错!不过他们的服务客服总是咨询我们有没有什么问题之类的,态度挺好
回复 支持 反对

使用道具 举报

0

主题

7715

帖子

2万

积分

论坛元老

Rank: 8Rank: 8

积分
23146
发表于 2016-9-3 20:58:32 | 显示全部楼层
之前找帝国网络做了个企业网站,效果做得很好,而且服务也不错,办事的效率挺高的,处理问题方面也很迅速,值得一试!真心的!
回复 支持 反对

使用道具 举报

1584

主题

1万

帖子

5万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
58699
 楼主| 发表于 2016-9-3 20:53:16 | 显示全部楼层
与深圳帝国网络合作了快一年的时间,将我公司网络推广的业务交给了他们,我们是做快速消费品食品行业的,开发意向度高的新客户是我们的生命线之一,他们给我做的关键词“深圳糖果批发”、“果冻采购哪家好”像这样的都排在了百度首页,3个月时间,果然和合同上的时间一致。每天都能保证有意向的询盘,去年12月份一个意向客户订单12万。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

精彩推荐

网站优化如何利用META标签提升网站关键词排

2017-07-04 陕西

为什么为了更好的SEO优化而在网站上拼命写

2018-02-27 泰安

如何做好网站的站内优化以及网站建设的SEO

2018-02-27 淄博

网站如何用三个方法做到让用户和搜索引擎都

2018-02-27 青岛

为何现在较少的网站优化站外这一个非常重要

2018-02-27 菏泽

网站优化做不好怎么办?SEO服务分析网站优化

2017-06-23 海南

归纳总结网站推广中seo优化为何离不开多元

2018-02-27 日照

美丽说的SEOseo多牛

2016-06-07 四平

让SEO服务更专业

  • 帝国网络服务有限公司
  • 客服电话:400-050-4004
  • 深圳市南山区西丽硅谷
    大学城创业园C区117

精彩SEO教程,快速SEO查询

关注我们

Copyright 中山SEO优化  Powered by©帝国网络优化公司  技术支持:中山SEO优化服务公司