`
javahigh1
  • 浏览: 1220707 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

各大型网站架构分析收集

 
阅读更多
1. PlentyOfFish 网站架构学习
http://www.dbanotes.net/arch/plentyoffish_arch.html

采取 Windows 技术路线的 Web 2.0 站点并不多,除了 MySpace ,另外就是这个 PlentyOfFish。这个站点提供 “Online Dating” 服务。一个令人津津乐道的、惊人的数据是这个只有一个人(创建人Markus Frind)的站点价值 10 亿,估计要让很多人眼热,更何况 Markus Frind 每天只用两个小时打理网站–可操作性很强嘛。

2. 从LiveJournal后台发展看 大型网站系统架构以及性能优化方法
http://www.example.net.cn/archives/2006/03/olivejournaloio.html

LiveJournal是99年始于校园中的项目,几个人出于爱好做了这样一个应用,以实现以下功能:
* 博客,论坛
* 社会性网络,找到朋友
* 聚合,把朋友的文章聚合在一起

LiveJournal采用了大量的开源软件,甚至它本身也是一个开源软件。

在上线后,LiveJournal实现了非常快速的增长:
* 2004年4月份:280万注册用户。
* 2005年4月份:680万注册用户。
* 2005年8月份:790万注册用户。
* 达到了每秒钟上千次的页面请求及处理。
* 使用了大量MySQL服务器。
* 使用了大量通用组件。

3. YouTube 的架构扩展
http://www.dbanotes.net/opensource/youtube_web_arch.html

在西雅图扩展性的技术研讨会上,YouTube 的 Cuong Do 做了关于 YouTube Scalability 的报告。视频内容在 Google Video 上有(地址),可惜国内用户看不到。
Kyle Cordes 对这个视频中的内容做了介绍。里面有不少技术性的内容。值得分享一下。(Kyle Cordes 的介绍是本文的主要来源)

4. WikiPedia 技术架构学习分享
http://www.dbanotes.net/opensource/wikipedia_arch.html

维基百科(WikiPedia.org)位列世界十大网站,目前排名第八位。这是开放的力量。

来点直接的数据:

* 峰值每秒钟3万个 HTTP 请求
* 每秒钟 3Gbit 流量, 近乎375MB
* 350 台 PC 服务器

5. Tailrank 网站架构
http://www.dbanotes.net/review/tailrank_arch.html

每天数以千万计的 Blog 内容中,实时的热点是什么? Tailrank 这个 Web 2.0 Startup 致力于回答这个问题。

专门爆料网站架构的 Todd Hoff 对 Kevin Burton 进行了采访。于是我们能了解一下 Tailrank 架构的一些信息。每小时索引 2400 万的 Blog 与 Feed,内容处理能力为 160-200Mbps,IO 写入大约在10-15MBps。每个月要处理 52T 之多的原始数据。Tailrank 所用的爬虫现在已经成为一个独立产品:spinn3r。

6. LinkedIn 架构笔记
http://www.dbanotes.net/arch/linkedin.html

LinkedIn 雇员有 180 个,在 Web 2.0 公司中算是比较多的,不过人家自从 2006 年就盈利了,这在 Web 2.0 站点中可算少的。用户超过 1600 万,现在每月新增 100 万,50% 会员来自海外(中国用户不少,也包括我).

7. Yahoo!社区架构
http://www.dbanotes.net/arch/yahoo_arch.html

旧金山举行的 QCon 会议带给我们很多新鲜的信息。虽然没机会参加,但是看看各个网站”晒架构”也是个比较过瘾的事情。请参观并收藏这个页面:Architectures you’ve always wondered about。

8. Craigslist 的数据库架构
http://www.dbanotes.net/database/craigslist_database_arch.html

Craigslist 绝对是互联网的一个传奇公司。根据以前的一则报道:

每月超过 1000 万人使用该站服务,月浏览量超过 30 亿次,(Craigslist每月新增的帖子近 10 亿条??)网站的网页数量在以每年近百倍的速度增长。Craigslist 至今却只有 18 名员工(现在可能会多一些了)。

9. Fotolog.com 的技术信息拾零
http://www.dbanotes.net/review/fotolog_arch.html

尽管是世界上最大的图片服务网站, Fotolog.com 在国内的名气并不是很响亮, 每当提到图片服务, 很多人第一个会想起 Flickr. 但实际上 Fotolog 也的确是很猛的, Alexa 上的排名一直在 Flickr 前面, 目前注册用户超过 1100 万. 而前不久也卖了一个好价钱, 9000 万美金. 算下来的话, 1 个注册用户大约 9 美金. Yupoo 的刘平阳可以偷着算算自己的网站如果卖给老外是怎样一个价格了.

10. Digg 网站架构
http://www.dbanotes.net/arch/digg_arch_cache_and_shard.html

Digg 工程师采用 LAMP (Linux, Apache, MySQL and PHP) 模式。这个 Alexa 排名在 100 左右的、自我估价 1.5 亿美金的站点目前有超过 100 台的 PC 服务器(足够少了),可以粗略分成三个部分:数据库服务器,Web 服务器,搜索服务器。

11. Amazon 的 Dynamo 架构
http://www.dbanotes.net/techmemo/amazon_dynamo.html

我在 DBAnotes.net 上记录过不少比较大的网站架构分析(eg: eBay [1], eBay [2]) ,Amazon 一直找不到太多的资料。国庆期间读到了一篇关于 Amazon Dynamo 的论文,非常精彩。Amazon Dynamo 这个高可用、可扩展存储体系支撑了Amazon 不少核心服务.

12. 财帮子(caibangzi.com)网站架构
http://www.dbanotes.net/arch/caibangzi_web_arch.html

财帮子(caibangzi.com) 定位在”基金理财社区”。是国内访问量最大的基于 Ruby on rails 的 startup 项目。“理财”这个词据说是光大银行发明的,且不去管,不可否认的是,目前国内”理财”是个很有潜力的切入点。财帮子网站潜在用户群还是很大的。

13. 了解一下 Technorati 的后台数据库架构
http://www.dbanotes.net/web/technorati_db_arch.html

目前处理着大约 10Tb 核心数据, 分布在大约 20 台机器上.通过复制, 多增加了 100Tb 数据, 分布在 200 台机器上. 每天增长的数据 1TB. 通过 SOA 的运用, 物理与逻辑的访问相隔离, 似乎消除了数据库的瓶颈. 值得一提的是, 该扩展过程始终是利用普通的硬件与开源软件来完成的. 毕竟 , Web 2.0 站点都不是烧钱的主. 从数据量来看,这绝对是一个相对比较大的 Web 2.0 应用.

14. 说说大型高并发高负载网站的系统架构
http://www.toplee.com/blog/?p=71

我在CERNET做过拨号接入平台的搭建,而后在Yahoo&3721从事过搜索引擎前端开发,又在MOP处理过大型社区猫扑大杂烩的架构升级等 工作,同时自己接触和开发过不少大中型网站的模块,因此在大型网站应对高负载和并发的解决方案上有一些积累和经验,可以和大家一起探讨一下。

15. 大型高负载网站架构 的感想
http://atman.memoab.com/articles/194
分享到:
评论

相关推荐

    大型网站技术架构_核心原理与案例分析_李智慧.pdf

    大型网站技术架构_核心原理与案例分析_李智慧.pdf 个人收集电子书,仅用学习使用,不可用于商业用途,如有版权问题,请联系删除!

    最新大型网站技术架构探讨

    此PPT作者是用了心思,写的图文并茂,深入生动,对研究大型网站架构有很大我帮助,是本人收集的最有价值的资料。此文主要包括: 1. 大型网站架构的目标与挑战(现状需求分析) 2. 网站架构演变及其技术脉络(技术...

    网站架构及高性能并发服务器设计

      中国顶级门户网站架构分析 2 118  服务器的大用户量的承载方案 120  YouTube Scalability Talk 121  资料收集:高并发 高性能 高扩展性 Web 2.0 站点架构设计及优化策略 243  CommunityServer性能问题...

    大型分布式网站架构与实践

     分布式系统中日志收集系统的架构。  如何通过Storm进行实时的流式数据分析。  如何通过Hadoop进行离线数据分析,通过Hive建立数据仓库。  如何将关系型数据库中存储的数据导入HDFS,以及从HDFS中将数据导入关系...

    高性能高并发服务器架构大全

     中国顶级门户网站架构分析 2 118  服务器的大用户量的承载方案 120  YouTube Scalability Talk 121  High Performance Web Sites by Nate Koechley 123 One dozen rules for faster pages 123 Why ...

    最新JAVA架构师技术内幕!从亿万级业务处理到大型互联网高并发设计课程(16.11G)

    Kafka、Zookeeper、手写Tomcat+心跳机制、手写RPC框架、Dubbo框架、Netty源码解析、Eureka、ChannelPipeline源码解析、ElasticSearch、RocketMQ、K8S全实战、大型互联网高可用设计、ELK日志监控收集及网站流量监控...

    大数据架构师的岗位职责.docx

    大数据架构师的岗位职责1 职责: 1、负责公司大数据产品的架构设计,包含数据收集、数据存储、数据应用,并完成相关架构设计文档的撰写; 2、参与规划从数据源到数据应用的整体流程,并参与相关产品的决策; 3、负责...

    大型应用系统架构设计 淘宝分布式调用跟踪系统介绍 共60页.pptx

    1.埋点和输出日志 > 中间件埋点,基于ThreadLoca > 异步写,采样 2.收集和存储日志 > 实时抓日志,按Traceld汇总,不同的存储方式 3.分析调用链 > 基于入口的链路分析 > 实时分析:入口和链路签名

    2021-2023 大型企业新兴技术路线图.pdf

    每项技术的风险因素均基于其潜在风险分析,包括市场/供应商成熟度、架构适应性/复杂性、安全风险、人才可用性、合规性挑战、实施成本以及对现有流程和服务的颠覆。 企业价值 每项技术的价值因素均基于其价值动因...

    SpringBoot项目大型商场应急预案管理系统.zip

    10. **事后分析与报告**:收集和分析每次应急响应的数据,生成改进报告以优化预案。 通过这些功能,基于Spring Boot的大型商场应急预案管理系统不仅提高了商场对突发事件的预防和响应能力,还增强了整个商场的安全...

    数据可视化分析.docx

    数据分析与数据挖掘密切相关,但数据挖掘往往倾向于关注较大型的数据集,较少侧重于推理,且常常采用的是最初为另外一种不同目的而采集的数据。在统计学领域,有些人将数据分析划分为描述性统计分析、探索性数据分析...

    malzoo:大量静态恶意软件分析工具

    收集大型开源恶意软件存储库的情报(该项目的初衷) 监视邮箱,分析电子邮件和附件 虚拟机和裸机的安装信息 有关安装和收集数据的更多信息,请查看此存储库的 。 无服务器云部署 要在无服务器架构的AWS云中进行...

    数据分析-大数据

    保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。[9] 其次,想要系统的认知大数据...

    大数据行业分析报告.doc

    虽然采集端本身会有很多数据库,但是如果要对这些海量数据进 行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库, 或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理...

    大数据行业分析报告DOC.doc

    虽然采集端本身会有很多数据库,但是如果要对这些海量数据进 行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库, 或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理...

    2019年全国职业院校技能大赛高职组“云计算技术与应用”赛项试题(样卷)

    为了公司生产系统安全高可用,同时能够统一存储、收集、管理、分析和挖掘这些海量数据,为实现系统弹性扩展、资源按需供给、促进信息技术和数据资源充分利用。该公司拟搭建安全的云计算平台,系统既要满足云网络、云...

    大型放射学数据库上进行交错文本图像深度挖掘实现自动图像解读内含数据集和详细教程.zip

    在大型放射学数据库上进行交错文本图像深度挖掘以实现自动图像解读,通常涉及以下步骤: 数据收集: 获取合法授权的放射学图像数据集。 搜集相关的文本描述数据,如诊断报告、病例记录等。 数据预处理: 图像处理:...

    使用SMACK堆栈进行快速数据分析

    除了能够以批处理模式分析大型数据集之外,现代数据驱动型组织还需要尽快从所收集的数据中生成洞察,并最终采取行动。在这方面,传统的Hadoop堆栈(HDFS作为存储层,MapReduce或Tez作为处理框架,YARN作为集群资源...

    数据中心需求分析报告---v1.0.docx

    数据中心需求分析报告---v1 项目概述 项目背景 "十二五"是我国经济结构战略性调整和转变经济发展方式的重要时期,产业结构、收入分配结构和消费结构面临重大调整,国民收入和消费水平逐步提高,我国将全面进入机动化...

Global site tag (gtag.js) - Google Analytics