由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - twitter又自己做了一個distributedLog.基于bookeeper
相关主题
大牛们,请教大数据系统如何架构现在的云计算技术,比如hadoop,和数据挖掘data mining有联系吗?
关于 Java 的 Log 轮子大数据除了能分析ETL job还能干什么
关于es的缺点github上面的代码和公司的代码
坛子里有人搞HBase的吗?能不能在hadoop中用open mpi?
二爷看过来。感觉flink出来之后,hadoop就显得不怎么再需要了
发现一个大牛内部推荐BigData工作机会
Cassandra 看测试read也不算慢呢一个Hadoop Cluster升级的问题
Scala的用途问个系统设计的题messaging
相关话题的讨论汇总
话题: bookeeper话题: log话题: 基于话题: twitter
进入Programming版参与讨论
1 (共1页)
t**r
发帖数: 3428
1
twitter又自己做了一個distributedLog.基于bookeeper
真是有钱有闲阿,卡福卡放着不用
c*******n
发帖数: 45
2

u自己也做了一个吧?

【在 t**r 的大作中提到】
: twitter又自己做了一個distributedLog.基于bookeeper
: 真是有钱有闲阿,卡福卡放着不用

z****e
发帖数: 54598
3
distributed log system很难做么?
需要用轮子?log无非就是查找建几个index就结了
还有啥难的?
h**********c
发帖数: 4120
4
distributed log 如果丢了东西怎么办把事件重新触发吗,愿听委座高见.
z****e
发帖数: 54598
5

但凡是distributed,都有replica,没那么容易丢
而且就算是单机,丢数据也是小概率事件
log也不是每一片log都那么重要
多数时候也就是出了问题才去找log,所以丢也没那么可怕了
如果真的是万分重要的数据,应该毫不犹豫上db

【在 h**********c 的大作中提到】
: distributed log 如果丢了东西怎么办把事件重新触发吗,愿听委座高见.
t**r
发帖数: 3428
6
自己build就是对performance要求高。
做好并不容易。kafka都tweak kernel parameter了。

【在 z****e 的大作中提到】
: distributed log system很难做么?
: 需要用轮子?log无非就是查找建几个index就结了
: 还有啥难的?

h**********c
发帖数: 4120
7
db fault tolerance 基本也是靠journal,file system 也是,好象这个因果偶没太整
明白

【在 z****e 的大作中提到】
:
: 但凡是distributed,都有replica,没那么容易丢
: 而且就算是单机,丢数据也是小概率事件
: log也不是每一片log都那么重要
: 多数时候也就是出了问题才去找log,所以丢也没那么可怕了
: 如果真的是万分重要的数据,应该毫不犹豫上db

t**r
发帖数: 3428
8
自己build就是对performance要求高。
做好并不容易。kafka都tweak kernel parameter了。

【在 z****e 的大作中提到】
: distributed log system很难做么?
: 需要用轮子?log无非就是查找建几个index就结了
: 还有啥难的?

z****e
发帖数: 54598
9

其实做好也没有那么困难了
现在很多新时代的server比如vert.x, undertow什么都可以轻松实现上百万的并发处理
加上log这种没有什么依赖和争抢的东西,属于最容易实现的一种
我觉得完全可以自己搞,不需要用轮子,实际上log的轮子用得都不是非常多
log4j什么都不是非常流行,招人一般都不怎么要求这些经验

【在 t**r 的大作中提到】
: 自己build就是对performance要求高。
: 做好并不容易。kafka都tweak kernel parameter了。

z****e
发帖数: 54598
10

distributed file system应该不是通过journal
错误毕竟是小概率事件,一个node的错误,可能性比如是1%
那么两个nodes,也就是replica = 2同时丢掉这个数据的可能性就是
1%^2,万分之一,如果设置replica = 3的话,那就是1%^3,就更低了
用这种方式来排错,注意设置逻辑version,做一个eventually consistent就好了

【在 h**********c 的大作中提到】
: db fault tolerance 基本也是靠journal,file system 也是,好象这个因果偶没太整
: 明白

相关主题
发现一个大牛现在的云计算技术,比如hadoop,和数据挖掘data mining有联系吗?
Cassandra 看测试read也不算慢呢大数据除了能分析ETL job还能干什么
Scala的用途github上面的代码和公司的代码
进入Programming版参与讨论
z****e
发帖数: 54598
11

安啦,保险公司是属于涉及金钱交易的
所以一般都是db,保险,金融,银行,这都是db的主力用户
distributed一般是互联网公司这种用得比较多
问一下,在米国,能否把401转成其他国家的insurance?
比如澳洲的super酱紫?

【在 h**********c 的大作中提到】
: db fault tolerance 基本也是靠journal,file system 也是,好象这个因果偶没太整
: 明白

w**z
发帖数: 8232
12
log在大数据时代的意义远远不止只在有问题的时候才查看。大数据很大一部分是从log
里来的。

【在 z****e 的大作中提到】
:
: 安啦,保险公司是属于涉及金钱交易的
: 所以一般都是db,保险,金融,银行,这都是db的主力用户
: distributed一般是互联网公司这种用得比较多
: 问一下,在米国,能否把401转成其他国家的insurance?
: 比如澳洲的super酱紫?

g*****g
发帖数: 34805
13
logging is not necessarily debug logging. It can be event logging that's
semi-structure. (e.g. logging the session state in a json blob for every
request that's visiting mitbbs).
Now a few months later, you try to answer questions like which posts are the
top 10 hits.
My company logs several hundred billion events a day for analytics purpose.
d******e
发帖数: 2265
14
做的好的非常有用。
我们的基于Hadoop的。
查询总是慢个几分钟。
这个要能基本事实。
会非常有用的。
说说哪种老歌系统现在能达到这个水准

【在 z****e 的大作中提到】
: distributed log system很难做么?
: 需要用轮子?log无非就是查找建几个index就结了
: 还有啥难的?

d******e
发帖数: 2265
15
做的好的非常有用。
我们的基于Hadoop的。
查询总是慢个几分钟。
这个要能基本事实。
会非常有用的。
说说哪种老歌系统现在能达到这个水准

【在 z****e 的大作中提到】
: distributed log system很难做么?
: 需要用轮子?log无非就是查找建几个index就结了
: 还有啥难的?

l******s
发帖数: 3045
16
同意,能感到但是工作还暂时接触不到。大牛能不能科普一下现在比较常见的应用?一
些用户行为习惯分析现在一般是从哪里取?Log file么?

log

【在 w**z 的大作中提到】
: log在大数据时代的意义远远不止只在有问题的时候才查看。大数据很大一部分是从log
: 里来的。

w**z
发帖数: 8232
17
这方面不是大牛,我才刚开始接触,亲手做。见过的有两种
1)在自己code里边直接写进log, 我们用scribe aggregate log, ETL 之后放入
hadoop, 用MR 处理
2)放个pixel 在webpage 里,有个web service 专门处理那样的request

【在 l******s 的大作中提到】
: 同意,能感到但是工作还暂时接触不到。大牛能不能科普一下现在比较常见的应用?一
: 些用户行为习惯分析现在一般是从哪里取?Log file么?
:
: log

z****e
发帖数: 54598
18
查询慢是因为复杂度高
本来就没有多少索引这些东西,加上无结构的数据
如果挨个parse过去,累死,加上lucene至少会快一点
单纯的hdfs不会有多快
这个纯粹看数据结构,log的结构越完整,能做的就越多
同样道理,越混乱的log,能做的就越少

【在 d******e 的大作中提到】
: 做的好的非常有用。
: 我们的基于Hadoop的。
: 查询总是慢个几分钟。
: 这个要能基本事实。
: 会非常有用的。
: 说说哪种老歌系统现在能达到这个水准

z****e
发帖数: 54598
19
要快就是先把能建index的地方全部建起index
比如time, 至少能够根据date建index
其次给node编号,也可以建index
不同的系统,然后根据level也还可以建index
到底是exception呢,还是error还是debug etc.
最后对于log本身做inverted index table的cache
酱紫就可以mr了,index的话,很多nosql都可以做
iit的话,用lucene,所以c*+lucene应该可以
可以看看这个
http://github.com/Stratio/cassandra-lucene-index
z****e
发帖数: 54598
20

log
big data的分析,精度比debug时候的精度要求更低
更讲究一个general的idea

【在 w**z 的大作中提到】
: log在大数据时代的意义远远不止只在有问题的时候才查看。大数据很大一部分是从log
: 里来的。

相关主题
能不能在hadoop中用open mpi?一个Hadoop Cluster升级的问题
感觉flink出来之后,hadoop就显得不怎么再需要了问个系统设计的题messaging
内部推荐BigData工作机会log4j 谁熟悉?
进入Programming版参与讨论
l******s
发帖数: 3045
21
羡慕。我们这里上个hadoop还犹犹豫豫。

【在 w**z 的大作中提到】
: 这方面不是大牛,我才刚开始接触,亲手做。见过的有两种
: 1)在自己code里边直接写进log, 我们用scribe aggregate log, ETL 之后放入
: hadoop, 用MR 处理
: 2)放个pixel 在webpage 里,有个web service 专门处理那样的request

D*******a
发帖数: 3688
22
distributedlog主要是用于状态机事件的复制,跟kafka这种application log的
transport用途不同

the

【在 g*****g 的大作中提到】
: logging is not necessarily debug logging. It can be event logging that's
: semi-structure. (e.g. logging the session state in a json blob for every
: request that's visiting mitbbs).
: Now a few months later, you try to answer questions like which posts are the
: top 10 hits.
: My company logs several hundred billion events a day for analytics purpose.

g*********e
发帖数: 14401
23
大哥 log4J跟这个完全两码事好吗?

【在 z****e 的大作中提到】
:
: log
: big data的分析,精度比debug时候的精度要求更低
: 更讲究一个general的idea

1 (共1页)
进入Programming版参与讨论
相关主题
问个系统设计的题messaging二爷看过来。
log4j 谁熟悉?发现一个大牛
hibernate问题Cassandra 看测试read也不算慢呢
怎样准确测量函数执行的时间?Scala的用途
大牛们,请教大数据系统如何架构现在的云计算技术,比如hadoop,和数据挖掘data mining有联系吗?
关于 Java 的 Log 轮子大数据除了能分析ETL job还能干什么
关于es的缺点github上面的代码和公司的代码
坛子里有人搞HBase的吗?能不能在hadoop中用open mpi?
相关话题的讨论汇总
话题: bookeeper话题: log话题: 基于话题: twitter