论坛首页 综合技术版 企业应用

解决海量数据的新思路——分布式数据库

浏览 19362 次
该帖已经被评为良好帖
作者 正文
最后更新时间:2008-07-19
分布式系统设计只是把联系紧密、相似的数据尽可能的放在同一个处理机上,允许各个处理机有一定的冗余来提升处理的性能,对于不同的数据,根据数据的时空特性进行归类存放,对于不同的处理过程,根据处理速度和范围跨度进行划分。最终使得主要的数据处理过程效率最大化。

不要拘泥于特定的硬件和软件。所谓的分布式数据库,往往是各种数据库系统和数据访问技术的有效集合而已,是建立在现有的资源和硬件有效管理之上的。
   
1 请登录后投票
最后更新时间:2008-07-19
楼主思路正确
其实海量数据库没有想象那么难
大家也不要怕oracle,这些厂家,其实他们故意说的这么难的
让国内人买他们昂贵的设备,
我现在进行的一个项目,每天大概有2亿条记录
要做数据仓库分析,用oracle已经吃不消了
现在改方案用现在用类似楼主的方法,分布再合并,
4096个字段
遍历提取1000万的数据大概60秒
方案用tcp+bdb+算法,c++写的
没有用sql
用查询用setExpression(A>10).and(B<10).or(C<100)
如果有机会,我把开源掉

我们多鼓励楼主这样写系统软件
国内不要把精力集中在应用软件上讨论上
动不动就说什么oracle做的,什么sap做的
老是研究东西别人东西怎么使用
分布数据库和数据仓库目前是核心系统软件领域,
国外的小孩整天研究着如何再做个mysql,我们整天研究如何做mysql一个表的crud
各位在大学毕业学的操作系统,编译原理,数据结构都是白学的吗?
如果搞应用,不如去伟大的青鸟培训班学几年


分布数据库开发设计到
存储,事务,进程线程调度,通讯,检查点,语法分析
我没办法用bdb作为存储
因为我没时间也没能力做好
事务和存储,在上层架构二次解析和通讯我想计算机专业的人应该都能处理吧
支持楼主
   
0 请登录后投票
最后更新时间:2008-07-21
谢谢楼上的鼓励。

其实发这帖子的目的就是让大家讨论这条路能走多远,是不是值得投入精力去解决其中会出现的问题。从目前的情况来看,这样的思想的确在一些比较大型的项目里能发挥作用,得到这个结论已经很宝贵了。
   
0 请登录后投票
最后更新时间:2008-07-24
楼主思路不错,另外建议看看Teradata数据仓库,目前Walmart用的是这个,自己的硬件,自己的数据库软件,自己的通讯协议,BYNET,并行计算能力比较强的!
   
0 请登录后投票
最后更新时间:2008-07-29
楼主,有没有去了解基于hadoop的Hbase或HyperTable呀,
这些正是用你的说的MepReduce机制实现的~
   
0 请登录后投票
最后更新时间:2008-07-30
研一时上过一门课叫现代数据库,其中就讲了分布式数据库,而且是比较重点的内容。

我们的小组作业,就是在三个站点上做一个简单分布式数据库。还要在课堂上演示分布查询等。

分布式数据库还要考虑数据划分和数据备份的问题。

一些大型的数据库正在加入分布式特性。

你说的东西都已不是什么新鲜的了。建议你去图书馆查一下分布式数据库方面的书籍。
   
0 请登录后投票
最后更新时间:2008-07-30
soaringsea 写道
研一时上过一门课叫现代数据库,其中就讲了分布式数据库,而且是比较重点的内容。

我们的小组作业,就是在三个站点上做一个简单分布式数据库。还要在课堂上演示分布查询等。

分布式数据库还要考虑数据划分和数据备份的问题。

一些大型的数据库正在加入分布式特性。

你说的东西都已不是什么新鲜的了。建议你去图书馆查一下分布式数据库方面的书籍。


我也看过分布式数据库,书上说的分布式数据库和这个其实不太相同。在文章最前已经说了,这种分布式数据库是规避了书上分布式数据库那种远程部署,放在一个局域网里,尽量避免解决事务处理/同步等麻烦问题。目的只是分散数据中心的压力,而不是传统分布式数据库那种由于特定环境而必须将数据库进行远程部署。
   
0 请登录后投票
最后更新时间:2008-07-31
这个方法肯定不行啊。
      我不知道你所谓的海量是多少?
   对于上亿的数据不知道你测试过没有。。
   
0 请登录后投票
最后更新时间:2008-08-02
楼主说的这个东西不就是mysql cluster么,现成的。

你要做的应用,nutch应该可以满足要求,
search engine么,又不是transaction intensive应用,或者OLAP型的干吗琢磨数据库捏?

fredzhang 写道
范围查询用b+树来实现最方便,当然一般数据库也是用b+树,但多了很多不必要的地方导致性能下降。
海量检索本质就是设计一个好的数据库系统,数据库设计原理对于search engine有着非常大的借鉴价值但并不等同
最后别一提倒排表就lucene,这玩意也就是给小网站用着玩的


不少大型网站也用lucene
   
0 请登录后投票
最后更新时间:2008-08-05
楼主的研究精神值得学习,但是就如楼上某兄所说,这个方案未必要达到处理海量
能够在一定程度上实现一种低廉方案处理大数据量的方法也可以。
在下认为,海量数据的处理还是要用硬件+软件结合的方式来突破
比如象Terradata,专用的硬件设备加上专用的软件来解决,当然这样的方案就是太贵。
   
0 请登录后投票
论坛首页 综合技术版 企业应用

跳转论坛:
JavaEye推荐