g****u 发帖数: 252 | 1 今天在两个节点上部署了riak,费老了劲了。
问题在于riak一个instance只支持一个硬盘,而且最小需要4个instance,
所以我每个节点上得跑两个instance。riak start愣是起不来。
现在勉强用riak console跑上了。
现在这些云存储也都是太高大上。现在做存储的机器一台也得十多个T的
裸盘空间吧,一上来就四台机器。有多少人需要那么大的存储?
我现在比较担心riak的吞吐量问题。我需要一遍遍地过几十个million
的object,不知道会不会很慢。(比如和apache跑在文件系统上比?) |
|
g****u 发帖数: 252 | 2 我需要的是一个object store存图片。Cassandra现在已经变成一个SQL了。
我觉得是overkill。
我的出发点是找S3的替代品。然后首先找到OpenStack swift。但是swift
是直接把object存成文件,我觉得效率太低。然后就找到了riak。
直接用rpm装riak非常容易,所以就开始折腾riak了。
我这个主要是一个cache,不怕丢数据。你能再推荐几个类似的系统吗?
我比较比较。 |
|
w**z 发帖数: 8232 | 3 我们几年前evaluate过 riak 和 Cassandra, 最后选了Cassandra. vector clock 太蛋
疼。
而且我run 了一下benchmark, 当时 performance 不如Cassandra. 说说你为什么选
riak? |
|
m***h 发帖数: 77 | 4 我们公司用riak,基本上是实现的S3功能,serve很多数据files
我不清楚具体实现,大致是openresty+lua+haproxy+riak
顺便赞一下openresty,这是老中做的,他人好像现在加州。 |
|
c***n 发帖数: 809 | 5 那要看你object多大,我记得超过10M的一多肯定没戏了
不知道现在2i现在怎么样了。一年前如果几十个2i一起跑都
不行。估计现在也不行。你怎么一遍遍读,这些key你存哪里,
riak当个kv还能perform,其他就难说了。 |
|
d*******r 发帖数: 3299 | 6 就是把实时采集到的用户端数据,基本都放在内存(过了几秒以上的,persisent到硬盘
),然后用内存database里的数据,做一些非常实时的计算 (要支持比较复杂的查询)。
具体的需求还在完善。但是我想要一个快的,而且强大的 memory database, 这样后续
开发方便。
看了 Redis 的表现能力,觉得很爽。就是不支持 Cluster scale out.
Riak 用的人很少吧。我怕查不到资料和经验。难道 Riak 有 Redis 一样高性能的的内
存数据库功能,persistent 做得还比 Redis 好很多?我知道 Riak scale out 不错的。 |
|
s***o 发帖数: 6934 | 7 very much depending on the data you are storing. There are needs for data
store in many layers: application layer serving stores, data warehouse for
your BI, billing/financial data.
* serving stores are usually nosql solutions or mysql/postgresql instances
depending on your need.
- there will be data that you only need key -> value lookup, use stores like
cassandra/riak/memcache/mongo depending on your requirements of access
patterns. cassandra requires thrift, which is painful to some. riak sup... 阅读全帖 |
|
q*c 发帖数: 9453 | 8 riak 这么碉堡了? 不过 riak 得配置那是真简单。 |
|
|
N*****m 发帖数: 42603 | 9 C*和Riak不能算问题,本来就是eventually consistent
Riak如果把allow-mult打开,是可以保证strong consistency的
另外,ectd和consul也没有问题
maybe- |
|
a**********2 发帖数: 3726 | 10 我不是希望美国完蛋,我怎么会希望美国完蛋呢?但我不否认的是美国的下坡路是不可
避免的。而如何在这个衰退的过程中(very like a very long process)保全我们后代
的利益才是最重要的,而首要的是生存权,没了生存权一切都是白搭。我们不要管到时
中国会怎么样,那个跟我们的后代一点点关系都没有。我们做出这个到美国的选择,那
就要承担后代不能如我们所愿生活在更好美国的risk. 任何选择都是有riak的。
and
的支 |
|
G*********e 发帖数: 2091 | 11 极右翼上台也不影响华人的生存权啊。
我上面也说了,即使是回到种族隔离期间,钱学森还做到上校,杨李得炸药奖,王安开
电脑公司,哪有什么生存权的问题。
[在 aprilfool002 (april002) 的大作中提到:]
:我不是希望美国完蛋,我怎么会希望美国完蛋呢?但我不否认的是美国的下坡路是不
可避免的。而如何在这个衰退的过程中(very like a very long process)保全我们后代
:的利益才是最重要的,而首要的是生存权,没了生存权一切都是白搭。我们不要管到
时中国会怎么样,那个跟我们的后代一点点关系都没有。我们做出这个到美国的选择,
那就要承担后代不能如我们所愿生活在更好美国的risk. 任何选择都是有riak的。
:and
:的支
:☆ 发自 iPhone 买买提 1.23.01 |
|
w**z 发帖数: 8232 | 12 c ++, code is on github, riak is written in Erlang |
|
l*****t 发帖数: 2019 | 13 这个太一眼难尽了。而且也没看懂Cassandra vs Cloudera, 你说Cassandra vs HBase
or Datastax.vs Cloudera?
要通关,我觉得攻略是
1)看老paper:amazon dynamo, google bigtable 2002 acm paper, google dremel
paper
2)看网上评论,你的问题就是keywords
3)future hadoop:
a) YARN
b) all different angles to shift focus from offline to online/nearline.
i)Hive SQL enhancement, Tez, sting, phoenix
ii) impala, dremel (以及non-hadoop, spark/shark, mpp)
c) Hbase datacenter aware
d) 网上搜下 "Hortonworks objectives 2013"
e) Watch HadoopSummit 2013 vid... 阅读全帖 |
|
l*****t 发帖数: 2019 | 14 hadoop components : mapreduce,hdfs(copycat of google GFS or now colossus),
hbase(copycat of google.BigTable or spanner now), hive, pig, zookeeper,oozie
,flume,sqoop,hcat.etc
hadoop version: many v1 that's.0.x and YARN aka verson hadoop 2.0
hadoop vendor: apache, cloudera, mapr, hortonworks. arguably (who claims
support MapReduce) greenplum, datastax( Cassandra vendor that supports
MapReduce on CFS), Hadapt(Hadoop and SQL),heard couchdb,mongodb all supports
MapReduce now.
Hadoop new:
1) impala ... 阅读全帖 |
|
p*****2 发帖数: 21240 | 15
貌似两种最流行,就是Neo4j 和 OrientDB。另外,貌似Riak也提供相应的功能。我目
前倾向于Neo4j。准备晚上好好学学。 |
|
w*******e 发帖数: 1588 | 16 代朋友发贴,寻软件工程师,做云计算开发。欢迎优秀CS新毕业生,或有中,高级经验
的同胞。有意者请站内联系。
Job Description
Are you interested in working with some of today's most exciting
technologies? Would you like the agility and opportunity of working in a
start-up, combined with the security and major market presence of one of the
world’s leading technology companies?
Responsibilities
Participate in all aspects of building new cloud services. In our start-up
environment everyone is expected to pitch in to help whenever needed with
current cri... 阅读全帖 |
|
|
S*******r 发帖数: 14 | 18 我在Uber Data Infrastructure组做hiring manager,现在开始为下半年招人,
backend engineer, full stack engineer, DevOps都要,名额充足。只要有Hadoop/
Kafka/Samza/Storm/Spark/Memsql/Riak/Hbase/Vertica相关经验,或者类似的系统(
例如狗家的码工)的同学都欢迎投。
工作地点在总部San Francisco, Uber支持H1B和Greencard (EB1-B(符合条件者)和
EB2都可)
版上的同学如果有兴趣,请投简历到 [email protected]
/* */,这个email我亲自查
看,保证每个简历我都会看一遍。合适者立即电面。 |
|
G*****m 发帖数: 5395 | 19 大牛能说说这些狗家对应的都是啥吗?
Hadoop/Kafka/Samza/Storm/Spark/Memsql/Riak/Hbase/Vertica
hadoop是mapreduce?
其他的呢? |
|
S*******r 发帖数: 14 | 20 同问!
Riak/Hbase对应的是Big table |
|
p****w 发帖数: 90 | 21 zan nn【在 Starpower (喵)的大作中提到:】n:n:我在Uber Data Infrastructure
组做hiring manager,现在开始为下半年招人,n:backend engineer, full stack
engineer, DevOps都要,名额充足。只要有Hadoop/n:Kafka/Samza/Storm/Spark/
Memsql/Riak/Hbase/Vertica相关经验,或者类似的系统(n:例如狗家的码工)的同学
都欢迎投。n:n:工作地点在总部San Francisco, Uber支持H1B和Greencard (EB1-B(
符合条件者)和n……nn--n[发自未名空间Android客户端] |
|
p*u 发帖数: 2454 | 22 实习求职终于uber offer,全职求职始于uber rej,what a life。带着唯一的return
offer继续骑驴找马找全职了。
====感想====
0,千万不要看点科技博客,小文章就觉得懂design了,千万不要!常见design题有什
么用,还是被大牛们按在地上摩擦了!所以下面都是我自己总结出来的合适答案,可能
还是会导致你被按在地上摩擦,大家随便看看。
1,Uber NY的Bar很高,尤其是design bar,不想浪费机会的小伙伴还是申Uber SF吧。
刷算法基本对Uber NY没用的,目前Uber NY就没有new grad,第一批new grad的要求必
然是overflow的。
2,几乎纯Design面试,new grad永远的痛,狠狠一巴掌打在自以为design很熟的我脸
上。面我的四个人都干过小公司CTO甚至大公司的技术核心,“你们这些说名词的new
grad,根本不懂design的境界”。
3,真机IDE测试,能bug free就bug free,对方的笑容不代表他认可你先run再debug。
大家都是专业的,笑容什么都不代表。
4,Uber N... 阅读全帖 |
|
f*******r 发帖数: 976 | 23 Move on.
实习求职终于uber offer,全职求职始于uber rej,what a life。带着唯一的return
offer继续骑驴找马找全职了。
====感想====
0,千万不要看点科技博客,小文章就觉得懂design了,千万不要!常见design题有什
么用,还是被大牛们按在地上摩擦了!所以下面都是我自己总结出来的合适答案,可能
还是会导致你被按在地上摩擦,大家随便看看。
1,Uber NY的Bar很高,尤其是design bar,不想浪费机会的小伙伴还是申Uber SF吧。
刷算法基本对Uber NY没用的,目前Uber NY就没有new grad,第一批new grad的要求必
然是overflow的。
2,几乎纯Design面试,new grad永远的痛,狠狠一巴掌打在自以为design很熟的我脸
上。面我的四个人都干过小公司CTO甚至大公司的技术核心,“你们这些说名词的new
grad,根本不懂design的境界”。
3,真机IDE测试,能bug free就bug free,对方的笑容不代表他认可你先run再debug。
大家都是专业的,笑容什么都不代表... 阅读全帖 |
|
W*******e 发帖数: 1268 | 24 如果底层用NoSQL数据库(比如Riak),能够有办法使用Oracle BI Publisher或者IBM
Cognos生成报表做数据分析吗?
或者问题简单点 - NoSQL数据库一般有没有流行的报表工具? |
|
w**z 发帖数: 8232 | 25 您老的标题不对啊,看标题还以为说JAVA 不行了,
最近在搞Cassandra, 感觉client lib不是一定要用Java, but Cassandra is written
in Java, so Java client lib has the best support. but Mongo and riak are
implemented in other languages (C,++ Erlang ), Java doesn't have any edge
there. |
|
w**z 发帖数: 8232 | 26 您老的标题不对啊,看标题还以为说JAVA 不行了,
最近在搞Cassandra, 感觉client lib不是一定要用Java, but Cassandra is written
in Java, so Java client lib has the best support. but Mongo and riak are
implemented in other languages (C,++ Erlang ), Java doesn't have any edge
there. |
|
|
|
s***o 发帖数: 6934 | 29 when mentioning functional languages, why not include arguably the most
successful one in industry usage, especially distributed computing: Erlang?
Ericsson switches
Riak (this is kicking Cassandra's ass now)
CouchDB
Amazon SimpleDB
rabbitMQ
Ejabberd
IMDB
Facebook chat backend
Whatsapp
...
FP
的。 |
|
s***o 发帖数: 6934 | 30 when mentioning functional languages, why not include arguably the most
successful one in industry usage, especially distributed computing: Erlang?
Ericsson switches
Riak (this is kicking Cassandra's ass now)
CouchDB
Amazon SimpleDB
rabbitMQ
Ejabberd
IMDB
Facebook chat backend
Whatsapp
...
FP
的。 |
|
s***o 发帖数: 6934 | 31 * depending on your data collecting device you need some sort of API (maybe
a webservice if your device supports it) to gather data
* the data should be stored in some sort of storage engine. depending on the
scale of your data you can choose from mysql to all kinds of nosql stores (
mongo, riak are good, avoid cassandra). Files do not work even if there's no
'relations', cause you still need to query and aggregate.
* you need a read only UI to present the data as charts from the data store.
fro... 阅读全帖 |
|
d*******r 发帖数: 3299 | 32 我还在琢磨搞个什么idea,二爷已经搞出来,惭愧了...
前一个星期都在乱看些 noSQL database, 把流行的noSQL database的都看了一下.
Redis (C) 很流行的样子,好像多用在内存里面做缓存, 不算专门的Database.
CouchDB (Erlang), 据说迁移和 Peer Backup/Synchronization 功能非常好. 看了下
他们公司的产品感觉很多很晕,新合并了公司,现在有个CouchBase貌似包括了CouchDB
的功能.
还看到一些游戏公司(e.g. Rovio) 在用 Riak (也是Erlang写的,multiple data
center deployment 要按node收钱).
http://vimeo.com/65582437
看到最后,貌似这2个组合用的人最多最流行?
Node.js + MongoDB(C++) for quick prototyping
Java/Scala + Cassandra(Java) for serious players
Cassandra 很多大公司用,看着很靠谱的样... 阅读全帖 |
|
w**z 发帖数: 8232 | 33 没有仔细看过hbase, 当时做POC, 时间紧,没有选hbase,在Mongo, C* and Riak
里选。
后来去了C* 和 Hbase conf, 觉得hbase community support 更大,有FB。 而且和
Hadoop 绝配。但两个nosql很象,已经开始用C*,估计老板不会在花时间在HBase上了
,support, setup, 一大堆事,不关是写code |
|
|
|
p*****2 发帖数: 21240 | 36 Option Adoption Readiness Value Proposition Votes Details
MongoDB 71% 75% 273 Heatmap
Redis 74% 80% 168 Heatmap
Cassandra 73% 80% 165 Heatmap
Neo4j 66% 75% 149 Heatmap
Couchbase 68% 75% 123 Heatmap
CouchDB 61% 68% 93 Heatmap
HBase 66% 72% 85 Heatmap
Riak 67% 75% 78 Heatmap
Hazelcast 68% 78% 62 Heatmap
GemFire 68% 72% 59 Heatmap
RavenDB 68% 64% 55 ... 阅读全帖 |
|
p*****2 发帖数: 21240 | 37 其实我还真找了找,还没找到能替换mongo的东西。貌似Riak还行,但是好像
replication cross data center要交钱。 |
|
g*****g 发帖数: 34805 | 38 你到底需要那些特性?只是cache的话memcached, 相似的还有Riak. |
|
b********e 发帖数: 595 | 39 两个我们都使过,一个是第三方选的,一个是内部使的。couchbase是memcache+erlang
做的持久化,开始的版本不太稳定,后来的稍微好点。
mongo完全自己从头用c++写的,以前版本的bug非常多,各种原因的crash, 不过我们还
好,使用的比较简单,主要是个分析系统在使,有几次crash是因为数据来的没有过滤
,加了objcheck = true基本稳定了。另外容易遇到连接未释放的情况,不过那些都是
node.js和python那边的问题。
另外据说mongo的锁是个大问题,不过我们基本都是几个节点,一个写,几个读。其他
的就是放aws上的存储,数据量不大放ebs上没问题,不过官方都不推荐,备份什么的用
mongodump数据都是非一致性的,想保持一致需要用10gen的mms服务。
大牛曾经力推Riak, 结果还没上线大牛被lay off了,不了了之。最后生产上用的最多
的还是aws的memcache cluster, 公司自己写的后台把数据持久化到rds上。 |
|
d*******r 发帖数: 3299 | 40 但是这种公司很多呀,比如 ElasticSearch 的monitoring GUI tool好像是要钱的
再比如 Riak 夸 DC 的 replica 也是要钱的,等等
很多的 |
|
M*****n 发帖数: 2301 | 41 这要具体看了,你要做什么,你公司是做什么的,sqlite在很多地方
还是用的挺多的。
学习system internal和学如何使用是完全不同的,如果是前者的话,
可以用来学习的open source project很多。这班上不是天天讨论NoSQL么,
redis就是不错的学习起点,memcached也不错,不算太复杂,
如果懂Erlang,CouchDB和Riak也不错,其他的可能对初学者来说也许太复杂了点。 |
|
M*****R 发帖数: 650 | 42 I am no Daniu, but I just finished transitioning from C++/C#/Windows
Platform to Java/Open Source Platform in last couple of years. There are a
few things I think that helped me a lot
- The two books: Core Java Volume I, Java Concurrency in Practice
- Read about dependency injection, from Spring to Guice
- Re-read a few design patterns
- Learn to use Java inner class and template pattern
- Read about JVM
- Don't focus too much on performance and memory management when coding
- Don't try to use l... 阅读全帖 |
|
|
a*f 发帖数: 1790 | 44 对开发应用系统的人员来说应该不是很关心后台的数据库平台把,不管用HBase,
MongoDB,Riak还是换成Spark,数据服务层下面如果加个adapter layer可以比较自由
转换数据库平台,上面应用代码几乎可以一模一样。hbase在consistency上面可能比c
更好一点,更适合mmorpg游戏类要求low latency的信息更新,spark可能更好。如果瓶
颈主要在硬件io,spark也快不了多少。 |
|
w**z 发帖数: 8232 | 45 Or you can try to go down the vector clock hell like Riak. |
|
d****n 发帖数: 1637 | 46 https://github.com/rethinkdb/rethinkdb
you are right.看来我没有调查就不要胡说。(嘴比脑子快了)
恍惚记得好像rethinkdb要在golang上重写(了?)。忘记了在哪看到
的了。(2000个update 也忘记在哪看的了,当时把我吓一跳)
////copy from the website
When is RethinkDB not a good choice?
RethinkDB is not a good choice if you need full ACID support or strong
schema enforcement—in this case you are better off using a relational
database such as MySQL or PostgreSQL.
If you are doing deep, computationally-intensive analytics you are better
off using a system like Hadoop or a ... 阅读全帖 |
|
h*i 发帖数: 3446 | 47 同意这个。nosql这种东西的好处就是多机,而多机主要的问题是网络的延迟和不可靠
,追求单机性能不是本末倒置么?
话说C*的分布式设计是有问题,具体见https://aphyr.com/posts/294-call-me-maybe-
cassandra/
但这些设计问题不是用C++写就能解决的。
这个对分布设计的Jepsen测试,目前测出来没问题的软件就只有zookeeper,其他被测
过的,C*, Mongo, Kafka,ES, Riak, Areospike, 等等, 全都有问题,partition都
会造成inconsistency。
常用的分布数据库里面,couchbase还没被测过,这个是用erlang写的网络部分,可能
没问题吧?还有就是被Apple买了的FoundationDB, 自己的测试就包括Jepsen,估计也
没有问题。
C* |
|
h*i 发帖数: 3446 | 48 nosql这种东西的好处就是多机,而多机主要的问题是网络的延迟和不可靠
,追求单机性能是本末倒置的。而分布式软件的设计难点就是对CAP定理的处理,
consistency, availability, partition tolerance,这三个不能兼得,只能保证两个
。很多分布式软件自称是CP的,也就是号称在网络partition (也就是网络的一部分不
能访问另一部分)的时候,能保持数据的一致性。这个Jepsen(https://aphyr.com/
tags/jepsen)就是用来测试这种广告是否属实的一个工具。
Jepsen测试目前测出来没问题的软件就只有Zookeeper。其他被测过的,C*, Mongo,
Redis,Kafka,ES, Riak, Areospike, 等等, 全都有设计问题,网路partition都会造
成数据不一致或者数据丢失。
常用的分布数据库里面,couchbase还没被测过,这个是用erlang写的网络部分,可能
没问题吧?还有就是被Apple买了的FoundationDB, 自己的内部测试就包括了Jepsen,
估计也没有问题。
其他的分布数... 阅读全帖 |
|
h*i 发帖数: 3446 | 49 对于别的business model,如果数据丢失是个问题的话,比如银行,现有的方案里面,
除了传统的SQL数据库,还有一种,就是“写”只用一个节点,“读”用分布式,并且
数据都是immutable的方式。
Datomic (datomic.com)就是这样的一个数据库,是Clojure的作者写的。有银行在用。
Datomic只管transaction和query, 用别的数据库做存储,包括一般的SQL数据库, C*,
riak, dynamodb, couchbase. Query语言是用Datalog.
我的公司除了用postgres以外, nosql试了很多种,最后都不理想,现在开始在用
Datomic,下面的存储用的是couchbase,这样horizontal scaling和ACID transaction
兼得,感觉很爽。唯一可惜的是Datomic不是开源的,免费可以用,但有限制。 |
|
w**z 发帖数: 8232 | 50 cache 试试 memcached 和 redis. 图片文件为什么自己cache, CDN 不好吗? |
|