r****c 发帖数: 1494 | 1 我是做仿真的,想把所有的计算搬到一系列机器上中央解决。
仿真程序是从某些特定语言生成的可执行文件,输入和输出都是二进制的文件,里面记
录了许多信号在所有时点的值,或者是些很大的多维矩阵啊什么的,不同的Task可能用
的是同一个可执行文件,只是输入输出不同。计算部分都是分开的,因此很适合并行,
scheduling什么的貌似也有很好的解决方案,logging也不用担心。
但是怎么管理这一大堆二进制文件呢?(暂时是数千,但是以后可能到几十万个或者更
多?)没有metadata肯定不好,但直接导入数据库肯定不好啊?有什么轮子可以分布式
的储存这些东西啊?(自己乱来当然是可以,肯定有聪明人发明过轮子了。) 储存了以
后怎么在Web上分发比较好呢?
(其实我就是个学汽车的票友,看周围人工作得太过于手动化了。。。想拼一套方案什
么的...)
先多谢啊。
其实我们这个行业也有很多人说要把这些现在在Desktop上弄的东西弄上云去.... |
g*****g 发帖数: 34805 | 2 这不就是cms吗,几十万数据量也很小。成熟免费的大约是lamp架构的。
【在 r****c 的大作中提到】 : 我是做仿真的,想把所有的计算搬到一系列机器上中央解决。 : 仿真程序是从某些特定语言生成的可执行文件,输入和输出都是二进制的文件,里面记 : 录了许多信号在所有时点的值,或者是些很大的多维矩阵啊什么的,不同的Task可能用 : 的是同一个可执行文件,只是输入输出不同。计算部分都是分开的,因此很适合并行, : scheduling什么的貌似也有很好的解决方案,logging也不用担心。 : 但是怎么管理这一大堆二进制文件呢?(暂时是数千,但是以后可能到几十万个或者更 : 多?)没有metadata肯定不好,但直接导入数据库肯定不好啊?有什么轮子可以分布式 : 的储存这些东西啊?(自己乱来当然是可以,肯定有聪明人发明过轮子了。) 储存了以 : 后怎么在Web上分发比较好呢? : (其实我就是个学汽车的票友,看周围人工作得太过于手动化了。。。想拼一套方案什
|
r****c 发帖数: 1494 | 3 多谢,原来CMS适合干这个啊,那么说我要找一个符合特定属性的文件也不难么?找了
一下,貌似也可以用REST来管理文件。
如果数据量继续变大到数亿个文件,每个文件上百MB的话,应该除去硬盘空间外应该没
有其他问题吧?数据库的能力真不了解。
貌似有些数据库支持把文件的Reference而不是内容存入数据库,有这个必要么?
【在 g*****g 的大作中提到】 : 这不就是cms吗,几十万数据量也很小。成熟免费的大约是lamp架构的。
|
r****c 发帖数: 1494 | 4 我上google看到有人推荐mongodb的这个:
http://docs.mongodb.org/manual/core/gridfs/
好用么?还是算Overkill了? |
f*******t 发帖数: 7549 | 5 你如果只是找个地方存,用hadoop的hdfs就可以。调用起来跟单机文件系统没什么区别
。 |
r****c 发帖数: 1494 | 6 就储存而言,这个大名鼎鼎的hadoop让人感觉很好啊。
不过我还是需要一些数据库的功能,因为某些特定的文件可以用在特定的情况,没有
metadata的话效率不高吧?
【在 f*******t 的大作中提到】 : 你如果只是找个地方存,用hadoop的hdfs就可以。调用起来跟单机文件系统没什么区别 : 。
|
f*******t 发帖数: 7549 | 7 metadata存hbase里,都是一套东西
【在 r****c 的大作中提到】 : 就储存而言,这个大名鼎鼎的hadoop让人感觉很好啊。 : 不过我还是需要一些数据库的功能,因为某些特定的文件可以用在特定的情况,没有 : metadata的话效率不高吧?
|
r****c 发帖数: 1494 | 8 貌似感觉用数据库存下文件的位置,然后文件放hdfs上也是可以。
不过感觉这样很山寨啊。如果有现成的方案当然更好了。
【在 f*******t 的大作中提到】 : 你如果只是找个地方存,用hadoop的hdfs就可以。调用起来跟单机文件系统没什么区别 : 。
|
r****c 发帖数: 1494 | 9 原来如此...
【在 f*******t 的大作中提到】 : metadata存hbase里,都是一套东西
|
g*****g 发帖数: 34805 | 10 文件大的话,都是把文件的路径而不是文件本身存入数据库。所有的metadata都可以存
进数据库,自然寻找符合属性的文件不难。至少到千万这个级别RDMBS数据库处理都没
问题,到数亿这个级别如果你的写数据量很大话,可能需要考虑NoSQL方案。比如用
cassandra存,用
Elastic search/solr搜索。
【在 r****c 的大作中提到】 : 多谢,原来CMS适合干这个啊,那么说我要找一个符合特定属性的文件也不难么?找了 : 一下,貌似也可以用REST来管理文件。 : 如果数据量继续变大到数亿个文件,每个文件上百MB的话,应该除去硬盘空间外应该没 : 有其他问题吧?数据库的能力真不了解。 : 貌似有些数据库支持把文件的Reference而不是内容存入数据库,有这个必要么?
|