Time series big data大家觉得怎么存储比较好？ - Programming版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - Time series big data大家觉得怎么存储比较好？

相关主题
● 学scala和spark需要什么pre req?	● 试了下spark，不过如此啊
● 关于 SPARK, 问二爷peking2 和其他大牛一问题	● Cassandra 真是狗屎
● 感觉flink出来之后，hadoop就显得不怎么再需要了	● 大牛讲讲mongoDB这种开源的怎么赚钱？
● 大牛能不能讨论下cassandra， Hbase， MongoDB的对比	● Hadoop 和Python的数据分析包哪个更值得学习？
● 以后真的是cassandra spark的天下了？	● Flink Sparks Next Wave of Distributed Data Processing
● Spark + C*	● 搞不懂为什么大牛说Hbase不如C*?
● 问二爷一个题外话	● MapReduce 的思想是怎么发明的？
● Big data question	● 学Hadoop还是spark

相关话题的讨论汇总
话题: time话题: data话题: series话题: cassandra话题: hadoop

进入Programming版参与讨论

(共1页)

p*******e
发帖数: 125

Hdf5 on Hadoop? 感觉除了高频数据，大多没有那么big，是不是hdf5 file分时间段（
一年一个file）存就不错？这Hadoop hdfs可能提供了一个fault tolerance的好处，不
过文件corrupted大多也可以重新load一次。这distributed file system对time
series data还有什么好处？欢迎大家讨论。想到这个因为听说一些fintech公司用
Hadoop spark处理这些数据。

x***4
发帖数: 1815

Druid

【在 p*******e 的大作中提到】

: Hdf5 on Hadoop? 感觉除了高频数据，大多没有那么big，是不是hdf5 file分时间段（
: 一年一个file）存就不错？这Hadoop hdfs可能提供了一个fault tolerance的好处，不
: 过文件corrupted大多也可以重新load一次。这distributed file system对time
: series data还有什么好处？欢迎大家讨论。想到这个因为听说一些fintech公司用
: Hadoop spark处理这些数据。

p*******e
发帖数: 125

Druid和mongodb, Cassandra 之类的比有什么独到的优势？为什么它更适合time
series data.大牛展开说说

【在 x***4 的大作中提到】

: Druid

d*******r
发帖数: 3299

http://db-engines.com/en/ranking/time+series+dbms

【在 p*******e 的大作中提到】

N*****m
发帖数: 42603

这几个都不太好用
街上用kdb的比较多

【在 p*******e 的大作中提到】

: Druid和mongodb, Cassandra 之类的比有什么独到的优势？为什么它更适合time
: series data.大牛展开说说

p*******e
发帖数: 125

Kdb query language sucks. 还巨贵

【在 N*****m 的大作中提到】

: 这几个都不太好用
: 街上用kdb的比较多

N*****m
发帖数: 42603

贵是有道理的

【在 p*******e 的大作中提到】

: Kdb query language sucks. 还巨贵

p*******e
发帖数: 125

谢谢。这个排名主要是popularity

【在 d*******r 的大作中提到】

: http://db-engines.com/en/ranking/time+series+dbms

p*******e
发帖数: 125

也许十年前可以justify它的价格。现在新project用它的很少听说，倒是onetick抢
了不少市场，虽然我觉得onetick也不怎么样

【在 N*****m 的大作中提到】

: 贵是有道理的

N*****m
发帖数: 42603

是的，现在好多新公司都在搞
你可以看看influxdb，不过集群版是收钱的

【在 p*******e 的大作中提到】

: 也许十年前可以justify它的价格。现在新project用它的很少听说，倒是onetick抢
: 了不少市场，虽然我觉得onetick也不怎么样

相关主题
● Spark + C*	● 试了下spark，不过如此啊
● 问二爷一个题外话	● Cassandra 真是狗屎
● Big data question	● 大牛讲讲mongoDB这种开源的怎么赚钱？
进入Programming版参与讨论

x***4
发帖数: 1815

你的用途是OLAP吗？
谁会consume这些data？用什么工具？spark, raw query, 还是BI tool？

【在 p*******e 的大作中提到】

: Druid和mongodb, Cassandra 之类的比有什么独到的优势？为什么它更适合time
: series data.大牛展开说说

p*******e
发帖数: 125

用途可能很多是data mining,不需要real time response.感觉druid主要是precompute
query比较快。

【在 x***4 的大作中提到】

: 你的用途是OLAP吗？
: 谁会consume这些data？用什么工具？spark, raw query, 还是BI tool？

l*********s
发帖数: 5409

rethink db 怎么样?

p*******e
发帖数: 125

It is shutting down.看起来没人支持了

【在 l*********s 的大作中提到】

: rethink db 怎么样?

x***4
发帖数: 1815

那就先放进spark吧。用parquet。spark大路货，以后应用明确之后倒来倒去也方便。
infra的东西，用的人多非常重要，尽量不要用小众的，免费帮人qa。

precompute

【在 p*******e 的大作中提到】

: 用途可能很多是data mining,不需要real time response.感觉druid主要是precompute
: query比较快。

l******n
发帖数: 9344

关键看你要做啥，存储hdfs没有问题，如果你要做实时处理或者ad-hoc query就不行，
得用in-memory database.

【在 p*******e 的大作中提到】

w**z
发帖数: 8232

time series data, 适合用 Cassandra

【在 p*******e 的大作中提到】

p*******e
发帖数: 125

是的。尽量用成熟的东西，不然到处是陷阱，开源很多这样。

【在 x***4 的大作中提到】

: 那就先放进spark吧。用parquet。spark大路货，以后应用明确之后倒来倒去也方便。
: infra的东西，用的人多非常重要，尽量不要用小众的，免费帮人qa。
:
: precompute

p*******e
发帖数: 125

能说说为什么Cassandra 适合吗？

【在 w**z 的大作中提到】

: time series data, 适合用 Cassandra

N*****m
发帖数: 42603

其实不太适用

【在 w**z 的大作中提到】

: time series data, 适合用 Cassandra

相关主题
● Hadoop 和Python的数据分析包哪个更值得学习？	● MapReduce 的思想是怎么发明的？
● Flink Sparks Next Wave of Distributed Data Processing	● 学Hadoop还是spark
● 搞不懂为什么大牛说Hbase不如C*?	● 你们有没有一种感觉，其实big data
进入Programming版参与讨论

x***4
发帖数: 1815

我觉得c不一定合适。不如说你想query某一个时间interval的数据，c就是不是很
efficient。

【在 p*******e 的大作中提到】

: 能说说为什么Cassandra 适合吗？

w**z
发帖数: 8232

Cassandra 的卖点之一就是 time series data
http://academy.datastax.com/resources/getting-started-time-series-data-modeling
https://www.datastax.com/dev/blog/advanced-time-series-data-modelling

【在 p*******e 的大作中提到】

: 能说说为什么Cassandra 适合吗？

N*****m
发帖数: 42603

这是比较简单的use-case，KarioDB这些都是基于cassandra
首先，cassandra的wide-column的时间精度不够，不适用楼主说的tick data；其次效
率比较差；然后自带的functionalities不行，得有二次开发，所以有了kariodb这些

【在 w**z 的大作中提到】

: Cassandra 的卖点之一就是 time series data
: http://academy.datastax.com/resources/getting-started-time-series-data-modeling
: https://www.datastax.com/dev/blog/advanced-time-series-data-modelling

(共1页)

进入Programming版参与讨论

相关主题
● 学Hadoop还是spark	● 以后真的是cassandra spark的天下了？
● 你们有没有一种感觉，其实big data	● Spark + C*
● AWS cloud 内部做log，大家怎么设计	● 问二爷一个题外话
● 那个 distributed file sysyem 适合我的需求	● Big data question
● 学scala和spark需要什么pre req?	● 试了下spark，不过如此啊
● 关于 SPARK, 问二爷peking2 和其他大牛一问题	● Cassandra 真是狗屎
● 感觉flink出来之后，hadoop就显得不怎么再需要了	● 大牛讲讲mongoDB这种开源的怎么赚钱？
● 大牛能不能讨论下cassandra， Hbase， MongoDB的对比	● Hadoop 和Python的数据分析包哪个更值得学习？

相关话题的讨论汇总
话题: time话题: data话题: series话题: cassandra话题: hadoop

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天