由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 有没有什么轮子可以管理大堆的binary文件啊?
相关主题
今天碰见一个高手linux 文件大小的问题
我的一个客户案例(high traffic),请大家批判分析指点FORTRAN读文件时这样的错误怎么办?
FORTRAN数组越界问题问题:如何打开搜索二进制文件 (转载)
一个关于big data 系统架构的设计问题求推荐database的软件 (转载)
[请教]文件输入你们有没有一种感觉,其实big data
文件上传是存在硬盘上,还是存在数据库中?为了不至于谬种流传我还是回应一下吧
问二爷一个题外话春运火车票2个方案比较
把Drupal架在AWS上,大家看这个方案可行吗??到底谁赢了????????????
相关话题的讨论汇总
话题: 文件话题: 数据库话题: 轮子话题: metadata话题: 大堆
进入Programming版参与讨论
1 (共1页)
r****c
发帖数: 1494
1
我是做仿真的,想把所有的计算搬到一系列机器上中央解决。
仿真程序是从某些特定语言生成的可执行文件,输入和输出都是二进制的文件,里面记
录了许多信号在所有时点的值,或者是些很大的多维矩阵啊什么的,不同的Task可能用
的是同一个可执行文件,只是输入输出不同。计算部分都是分开的,因此很适合并行,
scheduling什么的貌似也有很好的解决方案,logging也不用担心。
但是怎么管理这一大堆二进制文件呢?(暂时是数千,但是以后可能到几十万个或者更
多?)没有metadata肯定不好,但直接导入数据库肯定不好啊?有什么轮子可以分布式
的储存这些东西啊?(自己乱来当然是可以,肯定有聪明人发明过轮子了。) 储存了以
后怎么在Web上分发比较好呢?
(其实我就是个学汽车的票友,看周围人工作得太过于手动化了。。。想拼一套方案什
么的...)
先多谢啊。
其实我们这个行业也有很多人说要把这些现在在Desktop上弄的东西弄上云去....
g*****g
发帖数: 34805
2
这不就是cms吗,几十万数据量也很小。成熟免费的大约是lamp架构的。

【在 r****c 的大作中提到】
: 我是做仿真的,想把所有的计算搬到一系列机器上中央解决。
: 仿真程序是从某些特定语言生成的可执行文件,输入和输出都是二进制的文件,里面记
: 录了许多信号在所有时点的值,或者是些很大的多维矩阵啊什么的,不同的Task可能用
: 的是同一个可执行文件,只是输入输出不同。计算部分都是分开的,因此很适合并行,
: scheduling什么的貌似也有很好的解决方案,logging也不用担心。
: 但是怎么管理这一大堆二进制文件呢?(暂时是数千,但是以后可能到几十万个或者更
: 多?)没有metadata肯定不好,但直接导入数据库肯定不好啊?有什么轮子可以分布式
: 的储存这些东西啊?(自己乱来当然是可以,肯定有聪明人发明过轮子了。) 储存了以
: 后怎么在Web上分发比较好呢?
: (其实我就是个学汽车的票友,看周围人工作得太过于手动化了。。。想拼一套方案什

r****c
发帖数: 1494
3
多谢,原来CMS适合干这个啊,那么说我要找一个符合特定属性的文件也不难么?找了
一下,貌似也可以用REST来管理文件。
如果数据量继续变大到数亿个文件,每个文件上百MB的话,应该除去硬盘空间外应该没
有其他问题吧?数据库的能力真不了解。
貌似有些数据库支持把文件的Reference而不是内容存入数据库,有这个必要么?

【在 g*****g 的大作中提到】
: 这不就是cms吗,几十万数据量也很小。成熟免费的大约是lamp架构的。
r****c
发帖数: 1494
4
我上google看到有人推荐mongodb的这个:
http://docs.mongodb.org/manual/core/gridfs/
好用么?还是算Overkill了?
f*******t
发帖数: 7549
5
你如果只是找个地方存,用hadoop的hdfs就可以。调用起来跟单机文件系统没什么区别
r****c
发帖数: 1494
6
就储存而言,这个大名鼎鼎的hadoop让人感觉很好啊。
不过我还是需要一些数据库的功能,因为某些特定的文件可以用在特定的情况,没有
metadata的话效率不高吧?

【在 f*******t 的大作中提到】
: 你如果只是找个地方存,用hadoop的hdfs就可以。调用起来跟单机文件系统没什么区别
: 。

f*******t
发帖数: 7549
7
metadata存hbase里,都是一套东西

【在 r****c 的大作中提到】
: 就储存而言,这个大名鼎鼎的hadoop让人感觉很好啊。
: 不过我还是需要一些数据库的功能,因为某些特定的文件可以用在特定的情况,没有
: metadata的话效率不高吧?

r****c
发帖数: 1494
8
貌似感觉用数据库存下文件的位置,然后文件放hdfs上也是可以。
不过感觉这样很山寨啊。如果有现成的方案当然更好了。

【在 f*******t 的大作中提到】
: 你如果只是找个地方存,用hadoop的hdfs就可以。调用起来跟单机文件系统没什么区别
: 。

r****c
发帖数: 1494
9
原来如此...

【在 f*******t 的大作中提到】
: metadata存hbase里,都是一套东西
g*****g
发帖数: 34805
10
文件大的话,都是把文件的路径而不是文件本身存入数据库。所有的metadata都可以存
进数据库,自然寻找符合属性的文件不难。至少到千万这个级别RDMBS数据库处理都没
问题,到数亿这个级别如果你的写数据量很大话,可能需要考虑NoSQL方案。比如用
cassandra存,用
Elastic search/solr搜索。

【在 r****c 的大作中提到】
: 多谢,原来CMS适合干这个啊,那么说我要找一个符合特定属性的文件也不难么?找了
: 一下,貌似也可以用REST来管理文件。
: 如果数据量继续变大到数亿个文件,每个文件上百MB的话,应该除去硬盘空间外应该没
: 有其他问题吧?数据库的能力真不了解。
: 貌似有些数据库支持把文件的Reference而不是内容存入数据库,有这个必要么?

1 (共1页)
进入Programming版参与讨论
相关主题
到底谁赢了????????????[请教]文件输入
用spring-data-XXXX来应付各种database,如何?文件上传是存在硬盘上,还是存在数据库中?
做项目的土鳖不和你们开了GOD模式的瞎掺和了问二爷一个题外话
MongoDB力压Cassandra把Drupal架在AWS上,大家看这个方案可行吗??
今天碰见一个高手linux 文件大小的问题
我的一个客户案例(high traffic),请大家批判分析指点FORTRAN读文件时这样的错误怎么办?
FORTRAN数组越界问题问题:如何打开搜索二进制文件 (转载)
一个关于big data 系统架构的设计问题求推荐database的软件 (转载)
相关话题的讨论汇总
话题: 文件话题: 数据库话题: 轮子话题: metadata话题: 大堆