由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - Time series big data大家觉得怎么存储比较好?
相关主题
学scala和spark需要什么pre req?试了下spark,不过如此啊
关于 SPARK, 问二爷peking2 和其他大牛一问题Cassandra 真是狗屎
感觉flink出来之后,hadoop就显得不怎么再需要了大牛讲讲mongoDB这种开源的怎么赚钱?
大牛能不能讨论下cassandra, Hbase, MongoDB的对比Hadoop 和Python的数据分析包哪个更值得学习?
以后真的是cassandra spark的天下了?Flink Sparks Next Wave of Distributed Data Processing
Spark + C*搞不懂为什么大牛说Hbase不如C*?
问二爷一个题外话MapReduce 的思想是怎么发明的?
Big data question学Hadoop还是spark
相关话题的讨论汇总
话题: time话题: data话题: series话题: cassandra话题: hadoop
进入Programming版参与讨论
1 (共1页)
p*******e
发帖数: 125
1
Hdf5 on Hadoop? 感觉除了高频数据,大多没有那么big,是不是hdf5 file分时间段(
一年一个file)存就不错?这Hadoop hdfs可能提供了一个fault tolerance的好处,不
过文件corrupted大多也可以重新load一次。这distributed file system对time
series data还有什么好处?欢迎大家讨论。想到这个因为听说一些fintech公司用
Hadoop spark处理这些数据。
x***4
发帖数: 1815
2
Druid

【在 p*******e 的大作中提到】
: Hdf5 on Hadoop? 感觉除了高频数据,大多没有那么big,是不是hdf5 file分时间段(
: 一年一个file)存就不错?这Hadoop hdfs可能提供了一个fault tolerance的好处,不
: 过文件corrupted大多也可以重新load一次。这distributed file system对time
: series data还有什么好处?欢迎大家讨论。想到这个因为听说一些fintech公司用
: Hadoop spark处理这些数据。

p*******e
发帖数: 125
3
Druid和mongodb, Cassandra 之类的比有什么独到的优势?为什么它更适合time
series data.大牛展开说说

【在 x***4 的大作中提到】
: Druid
d*******r
发帖数: 3299
4
http://db-engines.com/en/ranking/time+series+dbms

【在 p*******e 的大作中提到】
: Hdf5 on Hadoop? 感觉除了高频数据,大多没有那么big,是不是hdf5 file分时间段(
: 一年一个file)存就不错?这Hadoop hdfs可能提供了一个fault tolerance的好处,不
: 过文件corrupted大多也可以重新load一次。这distributed file system对time
: series data还有什么好处?欢迎大家讨论。想到这个因为听说一些fintech公司用
: Hadoop spark处理这些数据。

N*****m
发帖数: 42603
5
这几个都不太好用
街上用kdb的比较多

【在 p*******e 的大作中提到】
: Druid和mongodb, Cassandra 之类的比有什么独到的优势?为什么它更适合time
: series data.大牛展开说说

p*******e
发帖数: 125
6
Kdb query language sucks. 还巨贵

【在 N*****m 的大作中提到】
: 这几个都不太好用
: 街上用kdb的比较多

N*****m
发帖数: 42603
7
贵是有道理的

【在 p*******e 的大作中提到】
: Kdb query language sucks. 还巨贵
p*******e
发帖数: 125
8
谢谢。这个排名主要是popularity

【在 d*******r 的大作中提到】
: http://db-engines.com/en/ranking/time+series+dbms
p*******e
发帖数: 125
9
也许十年前可以justify它的价格。现在新project用它的很少听说,倒是onetick抢
了不少市场,虽然我觉得onetick也不怎么样

【在 N*****m 的大作中提到】
: 贵是有道理的
N*****m
发帖数: 42603
10
是的,现在好多新公司都在搞
你可以看看influxdb,不过集群版是收钱的

【在 p*******e 的大作中提到】
: 也许十年前可以justify它的价格。现在新project用它的很少听说,倒是onetick抢
: 了不少市场,虽然我觉得onetick也不怎么样

相关主题
Spark + C*试了下spark,不过如此啊
问二爷一个题外话Cassandra 真是狗屎
Big data question大牛讲讲mongoDB这种开源的怎么赚钱?
进入Programming版参与讨论
x***4
发帖数: 1815
11
你的用途是OLAP吗?
谁会consume这些data?用什么工具?spark, raw query, 还是BI tool?

【在 p*******e 的大作中提到】
: Druid和mongodb, Cassandra 之类的比有什么独到的优势?为什么它更适合time
: series data.大牛展开说说

p*******e
发帖数: 125
12
用途可能很多是data mining,不需要real time response.感觉druid主要是precompute
query比较快。

【在 x***4 的大作中提到】
: 你的用途是OLAP吗?
: 谁会consume这些data?用什么工具?spark, raw query, 还是BI tool?

l*********s
发帖数: 5409
13
rethink db 怎么样?
p*******e
发帖数: 125
14
It is shutting down.看起来没人支持了

【在 l*********s 的大作中提到】
: rethink db 怎么样?
x***4
发帖数: 1815
15
那就先放进spark吧。用parquet。spark大路货,以后应用明确之后倒来倒去也方便。
infra的东西,用的人多非常重要,尽量不要用小众的,免费帮人qa。

precompute

【在 p*******e 的大作中提到】
: 用途可能很多是data mining,不需要real time response.感觉druid主要是precompute
: query比较快。

l******n
发帖数: 9344
16
关键看你要做啥,存储hdfs没有问题,如果你要做实时处理或者ad-hoc query就不行,
得用in-memory database.

【在 p*******e 的大作中提到】
: Hdf5 on Hadoop? 感觉除了高频数据,大多没有那么big,是不是hdf5 file分时间段(
: 一年一个file)存就不错?这Hadoop hdfs可能提供了一个fault tolerance的好处,不
: 过文件corrupted大多也可以重新load一次。这distributed file system对time
: series data还有什么好处?欢迎大家讨论。想到这个因为听说一些fintech公司用
: Hadoop spark处理这些数据。

w**z
发帖数: 8232
17
time series data, 适合用 Cassandra

【在 p*******e 的大作中提到】
: Hdf5 on Hadoop? 感觉除了高频数据,大多没有那么big,是不是hdf5 file分时间段(
: 一年一个file)存就不错?这Hadoop hdfs可能提供了一个fault tolerance的好处,不
: 过文件corrupted大多也可以重新load一次。这distributed file system对time
: series data还有什么好处?欢迎大家讨论。想到这个因为听说一些fintech公司用
: Hadoop spark处理这些数据。

p*******e
发帖数: 125
18
是的。尽量用成熟的东西,不然到处是陷阱,开源很多这样。

【在 x***4 的大作中提到】
: 那就先放进spark吧。用parquet。spark大路货,以后应用明确之后倒来倒去也方便。
: infra的东西,用的人多非常重要,尽量不要用小众的,免费帮人qa。
:
: precompute

p*******e
发帖数: 125
19
能说说为什么Cassandra 适合吗?

【在 w**z 的大作中提到】
: time series data, 适合用 Cassandra
N*****m
发帖数: 42603
20
其实不太适用

【在 w**z 的大作中提到】
: time series data, 适合用 Cassandra
相关主题
Hadoop 和Python的数据分析包哪个更值得学习?MapReduce 的思想是怎么发明的?
Flink Sparks Next Wave of Distributed Data Processing学Hadoop还是spark
搞不懂为什么大牛说Hbase不如C*?你们有没有一种感觉,其实big data
进入Programming版参与讨论
x***4
发帖数: 1815
21
我觉得c不一定合适。不如说你想query某一个时间interval的数据,c就是不是很
efficient。

【在 p*******e 的大作中提到】
: 能说说为什么Cassandra 适合吗?
w**z
发帖数: 8232
22
Cassandra 的卖点之一就是 time series data
http://academy.datastax.com/resources/getting-started-time-series-data-modeling
https://www.datastax.com/dev/blog/advanced-time-series-data-modelling

【在 p*******e 的大作中提到】
: 能说说为什么Cassandra 适合吗?
N*****m
发帖数: 42603
23
这是比较简单的use-case,KarioDB这些都是基于cassandra
首先,cassandra的wide-column的时间精度不够,不适用楼主说的tick data;其次效
率比较差;然后自带的functionalities不行,得有二次开发,所以有了kariodb这些

【在 w**z 的大作中提到】
: Cassandra 的卖点之一就是 time series data
: http://academy.datastax.com/resources/getting-started-time-series-data-modeling
: https://www.datastax.com/dev/blog/advanced-time-series-data-modelling

1 (共1页)
进入Programming版参与讨论
相关主题
学Hadoop还是spark以后真的是cassandra spark的天下了?
你们有没有一种感觉,其实big dataSpark + C*
AWS cloud 内部做log,大家怎么设计问二爷一个题外话
那个 distributed file sysyem 适合我的需求Big data question
学scala和spark需要什么pre req?试了下spark,不过如此啊
关于 SPARK, 问二爷peking2 和其他大牛一问题Cassandra 真是狗屎
感觉flink出来之后,hadoop就显得不怎么再需要了大牛讲讲mongoDB这种开源的怎么赚钱?
大牛能不能讨论下cassandra, Hbase, MongoDB的对比Hadoop 和Python的数据分析包哪个更值得学习?
相关话题的讨论汇总
话题: time话题: data话题: series话题: cassandra话题: hadoop