作为电子商务领头羊的 ebay 公司,数据量究竟有多大? 很多朋友可能都会对这个很感兴趣。在这一篇 web 2.0: how high-volume ebay manages its storage(从 1 gb/1 min得到的线索) 报道中,ebay 的存储主管 paul strong 对数据量做了一些介绍,管中窥豹,这些数据也给我们一个参考。
站点处理能力
* 平均每天的 pv 超过 10 亿 ;
* 每秒钟交易大约 1700 美元的商品 ;
* 每分钟卖出一辆车a ;
* 每秒钟卖出一件汽车饰品或者配件 ;
* 每两分钟卖出一件钻石首饰 ;
* 6 亿商品,2 亿多注册用户; 超过 130 万人把在 ebay 上做生意看作是生活的一部分。
在这样高的压力下,可靠性达到了 99.94%,也就是说每年 5 个小时多一点的服务不可用。从业界消息来看,核心业务的可用性要比这个高。 数据存储工程组控制着 ebay 的 2pb (1petabyte=1000terabytes) 可用空间。这是一个什么概念,对比一下 google 的存储就知道了。每周就要分配 10t 数据出去,稍微算一下,一分钟大约使用 1g 的数据空间。
计算能力
ebay 使用一套传统的网格计算系统。该系统的一些特征数据:
* 170 台 win2000/win2003 服务器;
* 170 台 linux (rhes3) 服务器;
* 三个 solaris 服务器: 为 qa 构建与部署 ebay.com; 编译优化 java / c 以及其他 web 元素 ;
* build 整个站点的时间:过去是 10 个小时,现在是 30 分钟;
* 在过去的2年半, 有 200 万次 build,很可怕的数字。
存储硬件
每个供货商都必须通过严格的测试才有被选中的可能,这些厂家或产品如下:
* 交换机: brocade
* 网管软件:ibm tivoli
* nas: netapp (占总数据量的 5%,2p*0.05, 大约 100 t)
* 阵列存储:hds (95%,这一份投资可不小,hds 不便宜, emc 在 ebay 是出局者) 负载均衡与 failover: resonate ;
搜索功能: thunderstone indexing system ; 数据库软件:oracle 。大多数 db 都有 4 份拷贝。数据库使用的服务器 sun e10000。另外据我所知, ebay 购买了 quest shareplex 全球 licence 用于数据复制.
应用服务器
应用服务器有哪些特点呢?
* 使用单一的两层架构(这一点有点疑问,看来是自己写的应用服务器)
* 330 万行的 c isapi dll (二进制文件有 150m)
* 数百名工程师进行开发
* 每个类的方法已经接近编译器的限制
非常有意思,根据eweek 的该篇文档,昨天还有上面这段划掉的内容,今天上去发现已经修改了:
架构
* 高分布式
* 拍卖站点是基于 java 的,搜索的架构是用 c 写的
* 数百名工程师进行开发,所有的工作都在同样的代码环境下进行
可能是被采访者看到 eweek 这篇报道,联系了采访者进行了更正。我还有点奇怪原来"两层"架构的说法。
其他信息
* 集中化存储应用程序日志;
* 全局计费:实时的与第三方应用集成(就是ebay 自己的 paypal 吧?)
* 业务事件流:使用统一的高效可靠消息队列. 并且使用 cookie-cutter 模式用于优化用户体验(这似乎是大型电子商务站点普遍使用的用于提高用户体验的手法)。
from:
阅读(1199) | 评论(1) | 转发(0) |