`
javahigh1
  • 浏览: 1224665 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

Google的数据量

 
阅读更多

今天看到一篇关于google架构的文章,对其中披露的部分数据给震撼了。我们来看看,下面都是一些统计数据:

  • 2006年估计有450,000台廉价的商品服务器
  • 2005年索引了80亿网页。
  • 目前google有超过200个GFS(google文件系统)集群在运行。而每个集群大约有1000到5000台机器。 GFS存储着高达5PB的数据,成千上万的机器需要的数据都从GFS集群中检索,这些集群中数据读写的吞吐量可高达40GB每秒
  • 目前google有6000个MapReduce应用程序在运行,并且以每月编写数百个新应用程序的速度在增长。
  • BigTable存储着数十亿的URL,数百TB的卫星图像数据和数亿用户的资料
  • 每天大约要处理超过20PB的数据量;
  • 对4,000台机器上约为1PB的数据排序花费约6小时20分左右的时间,并且排序的结果要在48,000块硬盘上来回复制3次

而保证这一切的得归功于google的三个分布式基础设施:

  1. GFS(google 文件系统)
  2. MapReduce(一种编程模型,用于大规模数据集的并行运算)
  3. BigTable(结构化数据的分布存储系统)
后记:
真正处理大数据量的时候还是得自己定制啊

分享到:
评论

相关推荐

    Google数据仓库Mesa论文

    Mesa的设计目的是满足一系列复杂而有挑战性的用户与系统需求,包括近实时的数据获取和查询、高可用性、可靠性、容错和(大规模数据与查询量的)可扩展性。Mesa可以应对P级数据,每秒处理数百万行更新,每天抓取数万...

    谷歌地球(Google Earth) 6.2.0 简体中文版

    谷歌地球最新版(Google Earth)是一款Google(谷歌)公司开发的虚拟地球仪软件,谷歌地球最新版整合...该数据库在上星期进行了更新,它含有美国宇航局提供的大量地形数据,未来还将覆盖更多的地形,涉及田园,荒地等。

    大数据量_海量数据_处理方法总结

    大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一些涉及到海量数据的公司经常会问到。 下面的方法是对海量数据的处理方法进行了一个一般性的总结,当然这些方法可能并不能完全覆盖...

    google地图偏移量数据表

    google地图偏移量数据表 格式: 纬度 经度 纬度偏移量 经度偏移量

    Bigtable探秘 Google分布式数据存储系统.pdf

    这些应用对Bigtable提出的要求差异非常大,无论是在数据量上(从URL到网页到卫星图像)还是在响应速度上(从后端的批量处理到 实时数据服务)。尽管应用需求差异很大,但是,针对Google的这些产品,Bigtable还是成功...

    谷歌ads数据分析思维.pdf

    竞争对手的广告数据分 析----搜索/展示 比重: similarweb.com=>输入前 五或前十站点域名找共性 (零售类可以比对价格数 据) semrush的Paid Search Traffic分析:竞价词、数 量、流量价值 semrush的Display Ad分析 ...

    Google earth V6.0.2.2074绿色永久免费版

    谷歌地球最新版(Google Earth)是一款Google(谷歌)公司开发的...谷歌地球中文版官方下载版的数据库在上星期进行了更新,谷歌地球含有美国宇航局提供的大量地形数据,谷歌地球未来还将覆盖更多的地形,涉及田园,荒地等。

    常用大数据量、海量数据处理方法__算法总结

    大数据量的问题是很多面试笔试中经常出现的问题,比如百度,谷歌,腾讯这样的一些涉及到海量数据的公司经常会问到。 本文的一些问题基本直接来源于公司的面试笔试题目。包括Bloom filter,Hashing,bit-map,双层桶...

    大数据量,海量数据_处理方法总结

    大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一些涉及到海量数据的公司经常会问到

    谷歌地球Google Earth v7.1.2.2041 官方简体中文版.zip

    Google Earth(谷歌地球下载)整合Google的本地搜索以及驾车指南两项服务,能够鸟瞰世界,将取代目前的...该数据库在上星期进行了更新,它含有美国宇航局提供的大量地形数据,未来还将覆盖更多的地形,涉及田园,荒地等。

    印尼雅加达咖啡店Googlemap数据集202403

    - 数据量: 14811 条 - 更新日期:2024 年 3 月 - 数据来源:Google 地图 - 覆盖范围:印尼雅加达市及周边地区的咖啡店信息 字段说明: 1. 店铺名: 咖啡店在 Google 地图上注册的名称,用于唯一标识每个咖啡店。 2...

    Java 调用Google Map Api解析地址,解析经纬度实例

    一般而言数据量不大的情况使用是不限制的。按照Google官方说法是连续90天请求地理编码服务次数超过2000次就会受到限制,因此可以将这些解析好的地址放在Database中,这样可以避免重复请求同一个地址。

    Google文件系统GFS

    GFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,但可以提供容错功能。它可以给大量的用户提供总体性能较高的服务。 1、设计概览

    Google Earth(谷歌地球) 5.2.1.1547 多语言版

    该数据库在上星期进行了更新,它含有美国宇航局提供的大量地形数据,未来还将覆盖更多的地形,涉及田园,荒地等。 ____如果觉得好用 也请多关照本店(淘宝店铺:http://shop68388423.taobao.com/)软件陆续更新中____

    谷歌浏览器插件-json格式解析

    谷歌浏览器插件-解码、压缩、格式化、排序都支持,需要的小伙伴可以自行下载安装,轻量级,速度快、效率高

    谷歌分布式领域三大论文合集(GFS、MapReduce、BigTable)

    1. 2003年,Google发布Google File System论文,这是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,提供容错功能。从根本上说:文件被分割成很多块,...

    Google Earth Pro) 6.2.1.6014.7z

    谷歌地球最新版软件简介 谷歌地球最新版(Google Earth)是一款Google(谷歌)公司开发的虚拟地球仪...该数据库在上星期进行了更新,它含有美国宇航局提供的大量地形数据,未来还将覆盖更多的地形,涉及田园,荒地等。

    MapReduce海量数据处理

    在 Google 每天都有海量的数据需要处理,而且随着时间的积累数据量也在不断增大。其程序员需要编写大量的具有专门目的的计算程序,以用于处理海量的原始数据。如爬虫文档、Web 请求日志、查询请求等等。同时要的计算...

    c# winform工具 用Google在线大量翻译SQL数据库中的数据,多字段一起翻译

    这个工具用到Google的web翻译原理,用到SQL SERVER 2005等以上版本,.net 3.5,windows server 2003/7/8/xp系统

Global site tag (gtag.js) - Google Analytics