存档

‘Data Warehouse’ 分类的存档

列数据库特点

2011年11月7日 没有评论

最早的商业列式数据库是在1995年发布的Sybase IQ , 但是一直到1999年左右才慢慢稳定到能够投入生产环境. 现在的大多数分析型数据库都是在2003-2005年从Postgresql 分支出来的. 其中尤其是Vertica 为代表的列数据库已经在大规模数据仓库环境中证明其特别为数据仓库环境设计的思路在一些领域具有竞争优势. 这篇文章解释介绍列式数据库的几大特点.

 

  • 高效的储存空间利用率 传统的行式数据库由于每个列的长度不一,为了预防更新的时候不至于出现一行数据跳到另一个block 上去, 所以往往会预留一些空间. 而面向列的数据库由于一开始就完全为分析而存在,不需要考虑少量的更新问题,所以数据完全是密集储存的.

行式数据库为了表明行的id 往往会有一个伪列rowid 的存在. 列式数据库一般不会保存rowid.

列式数据库由于其针对不同列的数据特征而发明的不同算法使其往往有比行式数据库高的多的压缩率,普通的行式数据库一般压缩率在3:1 到5:1 左右,而列式数据库的压缩率一般在8:1到30:1 左右. (InfoBright 在特别应用可以达到40:1 , Vertica 在特别应用可以达到60:1 , 一般是这么高的压缩率都是网络流量相关的)

列式数据库由于其特殊的IO 模型所以其数据执行引擎一般不需要索引来完成大量的数据过滤任务(Sybase IQ 除外) . 这又额外的减少了数据储存的空间消耗.

列式数据库不需要物化视图,行式数据库为了减少IO 一般会有两种物化视图,常用列的不聚合物化视图和聚合的物化视图. 列式数据库本身列是分散储存所以不需要第一种,而由于其他特性使其极为适合做普通聚合操作.(另外一种物化视图是不能实时刷新的,比如排名函数,不规则连接connect by 等等,这部分列数据库不包括.)

阅读全文…

Greenplum , Aster Data 和Myspace , Fox Interactive Media

2009年3月7日 没有评论

在 dbms2 看到两篇文章分别介绍Myspace 使用Aster Data 做分析型数据仓库和myspace 的父公司Fox Interactive Media 使用Greenplum 做分析数据仓库, Aster Data 和 Greenplum 作为两个都实现了数据库级别的MapReduce 的data warehosue数据库(先有这些大客户,后才有mapreduce 技术的),其案例还是非常值得关注的.

Fox 的greenplum 数据库有几百T ,它目前是在慢慢的使用greenplum 数据库慢慢的替换之前的Aster Data ,Fox/Greenplum 在自己的优势项方面非常满意,并且也比Myspace 的Aster Data 数据库要大,不过显然在使用次数跟并发上比myspace 少的多, 不过Aster Data 数据库似乎有数据输入也会删除一些数据, 不过Greenplum 数据库一直在不停的增加数据(这根myspace 应用有关,后面会提到). 另外一方面,Fox 使用了一种sandbox 的数据库架构,无论分析员怎么创建和删除表,底层的数据都不会受到影响,eBay 也在其Teredata 应用上使用了同样的方式.Dell 的DATALLegro 数据仓库也是一样的.

Myspace 使用Aster Data 构建了一个200+ 普通服务器的集群,管理200+T 的数据,每天以2-3 TB 增加. Aster 支持一个data warehouse 和若干个data marts , 并且myspace 使用其做myspace music 项目,这是一个面向最终用户的分析型数据库,(每个用户都可以在上面分析歌曲的各种数据,这种面向最终用户的分析型数据库不知道全世界还有没有第二个案例,技术太牛了) , 以myspace 的超海量用户,并发性和高可用性都是其特色之一,它可以无缝的支持失效转移,服务器一运行就是几个星期.

两个都有视频展示和案例介绍, 建议大家去看看

 

Fox 使用greenplum 那个没什么好看的,速度很慢,而且里面都是男的.

Myspace 使用Aster Data 那个真的建议大家去看看,里面有美女,真的!!! 绝对没拿恐龙骗你,

myspace 的data service vice president 是个短发,属于很精明能干类型的美女,很有个性的女生,事业型男士最爱.

Chief Data Architect 则是标准长发美女,黑色头发(外国美女中还是黑发比较接受,金发就……), 有一点邻家女孩的味道,很标致的美女,我觉得是里面最漂亮的一个.

Data Warehouse Architect 是…… , 嗯… , 属于熟女,30岁以上家庭型男士最爱(这样应该比较合适)

Data Warehouse Manager 好像有一点拉丁血统,嘴唇比较厚,不知道该跟舒淇比还是朱莉娅罗伯茨比, 头发是褐黄相间,有点混血的味道,标准的轻熟女.  三个女人一台戏,myspace 这四个女人那哪能让男性员工好好工作呀.

……嗯,我还准备说什么的呀,咦?我现在讲到哪了,我怎么会扯到这里来的,算了,突然发现自己有其他重要事情去做了, 就到这里吧.

 

 

参考资料:

http://www.asterdata.com/blog/index.php/2009/03/04/myspace-expands-usage-of-aster-data-systems-%E2%80%93-check-out-the-video/

myspace 的视频地址, 有美女哦

 

http://www.dbms2.com/2009/03/05/myspaces-multi-hundred-terabyte-database-running-on-aster-data/

dbms2 介绍myspace 的

 

http://www.dbms2.com/2009/03/05/fox-interactive-medias-multi-hundred-terabyte-database-running-on-greenplum/

dbms2 介绍fox 的.