t**r 发帖数: 3428 | 1 twitter又自己做了一個distributedLog.基于bookeeper
真是有钱有闲阿,卡福卡放着不用 |
c*******n 发帖数: 45 | 2
u自己也做了一个吧?
【在 t**r 的大作中提到】 : twitter又自己做了一個distributedLog.基于bookeeper : 真是有钱有闲阿,卡福卡放着不用
|
z****e 发帖数: 54598 | 3 distributed log system很难做么?
需要用轮子?log无非就是查找建几个index就结了
还有啥难的? |
h**********c 发帖数: 4120 | 4 distributed log 如果丢了东西怎么办把事件重新触发吗,愿听委座高见. |
z****e 发帖数: 54598 | 5
但凡是distributed,都有replica,没那么容易丢
而且就算是单机,丢数据也是小概率事件
log也不是每一片log都那么重要
多数时候也就是出了问题才去找log,所以丢也没那么可怕了
如果真的是万分重要的数据,应该毫不犹豫上db
【在 h**********c 的大作中提到】 : distributed log 如果丢了东西怎么办把事件重新触发吗,愿听委座高见.
|
t**r 发帖数: 3428 | 6 自己build就是对performance要求高。
做好并不容易。kafka都tweak kernel parameter了。
【在 z****e 的大作中提到】 : distributed log system很难做么? : 需要用轮子?log无非就是查找建几个index就结了 : 还有啥难的?
|
h**********c 发帖数: 4120 | 7 db fault tolerance 基本也是靠journal,file system 也是,好象这个因果偶没太整
明白
【在 z****e 的大作中提到】 : : 但凡是distributed,都有replica,没那么容易丢 : 而且就算是单机,丢数据也是小概率事件 : log也不是每一片log都那么重要 : 多数时候也就是出了问题才去找log,所以丢也没那么可怕了 : 如果真的是万分重要的数据,应该毫不犹豫上db
|
t**r 发帖数: 3428 | 8 自己build就是对performance要求高。
做好并不容易。kafka都tweak kernel parameter了。
【在 z****e 的大作中提到】 : distributed log system很难做么? : 需要用轮子?log无非就是查找建几个index就结了 : 还有啥难的?
|
z****e 发帖数: 54598 | 9
其实做好也没有那么困难了
现在很多新时代的server比如vert.x, undertow什么都可以轻松实现上百万的并发处理
加上log这种没有什么依赖和争抢的东西,属于最容易实现的一种
我觉得完全可以自己搞,不需要用轮子,实际上log的轮子用得都不是非常多
log4j什么都不是非常流行,招人一般都不怎么要求这些经验
【在 t**r 的大作中提到】 : 自己build就是对performance要求高。 : 做好并不容易。kafka都tweak kernel parameter了。
|
z****e 发帖数: 54598 | 10
distributed file system应该不是通过journal
错误毕竟是小概率事件,一个node的错误,可能性比如是1%
那么两个nodes,也就是replica = 2同时丢掉这个数据的可能性就是
1%^2,万分之一,如果设置replica = 3的话,那就是1%^3,就更低了
用这种方式来排错,注意设置逻辑version,做一个eventually consistent就好了
【在 h**********c 的大作中提到】 : db fault tolerance 基本也是靠journal,file system 也是,好象这个因果偶没太整 : 明白
|
|
|
z****e 发帖数: 54598 | 11
安啦,保险公司是属于涉及金钱交易的
所以一般都是db,保险,金融,银行,这都是db的主力用户
distributed一般是互联网公司这种用得比较多
问一下,在米国,能否把401转成其他国家的insurance?
比如澳洲的super酱紫?
【在 h**********c 的大作中提到】 : db fault tolerance 基本也是靠journal,file system 也是,好象这个因果偶没太整 : 明白
|
w**z 发帖数: 8232 | 12 log在大数据时代的意义远远不止只在有问题的时候才查看。大数据很大一部分是从log
里来的。
【在 z****e 的大作中提到】 : : 安啦,保险公司是属于涉及金钱交易的 : 所以一般都是db,保险,金融,银行,这都是db的主力用户 : distributed一般是互联网公司这种用得比较多 : 问一下,在米国,能否把401转成其他国家的insurance? : 比如澳洲的super酱紫?
|
g*****g 发帖数: 34805 | 13 logging is not necessarily debug logging. It can be event logging that's
semi-structure. (e.g. logging the session state in a json blob for every
request that's visiting mitbbs).
Now a few months later, you try to answer questions like which posts are the
top 10 hits.
My company logs several hundred billion events a day for analytics purpose. |
d******e 发帖数: 2265 | 14 做的好的非常有用。
我们的基于Hadoop的。
查询总是慢个几分钟。
这个要能基本事实。
会非常有用的。
说说哪种老歌系统现在能达到这个水准
【在 z****e 的大作中提到】 : distributed log system很难做么? : 需要用轮子?log无非就是查找建几个index就结了 : 还有啥难的?
|
d******e 发帖数: 2265 | 15 做的好的非常有用。
我们的基于Hadoop的。
查询总是慢个几分钟。
这个要能基本事实。
会非常有用的。
说说哪种老歌系统现在能达到这个水准
【在 z****e 的大作中提到】 : distributed log system很难做么? : 需要用轮子?log无非就是查找建几个index就结了 : 还有啥难的?
|
l******s 发帖数: 3045 | 16 同意,能感到但是工作还暂时接触不到。大牛能不能科普一下现在比较常见的应用?一
些用户行为习惯分析现在一般是从哪里取?Log file么?
log
【在 w**z 的大作中提到】 : log在大数据时代的意义远远不止只在有问题的时候才查看。大数据很大一部分是从log : 里来的。
|
w**z 发帖数: 8232 | 17 这方面不是大牛,我才刚开始接触,亲手做。见过的有两种
1)在自己code里边直接写进log, 我们用scribe aggregate log, ETL 之后放入
hadoop, 用MR 处理
2)放个pixel 在webpage 里,有个web service 专门处理那样的request
【在 l******s 的大作中提到】 : 同意,能感到但是工作还暂时接触不到。大牛能不能科普一下现在比较常见的应用?一 : 些用户行为习惯分析现在一般是从哪里取?Log file么? : : log
|
z****e 发帖数: 54598 | 18 查询慢是因为复杂度高
本来就没有多少索引这些东西,加上无结构的数据
如果挨个parse过去,累死,加上lucene至少会快一点
单纯的hdfs不会有多快
这个纯粹看数据结构,log的结构越完整,能做的就越多
同样道理,越混乱的log,能做的就越少
【在 d******e 的大作中提到】 : 做的好的非常有用。 : 我们的基于Hadoop的。 : 查询总是慢个几分钟。 : 这个要能基本事实。 : 会非常有用的。 : 说说哪种老歌系统现在能达到这个水准
|
z****e 发帖数: 54598 | 19 要快就是先把能建index的地方全部建起index
比如time, 至少能够根据date建index
其次给node编号,也可以建index
不同的系统,然后根据level也还可以建index
到底是exception呢,还是error还是debug etc.
最后对于log本身做inverted index table的cache
酱紫就可以mr了,index的话,很多nosql都可以做
iit的话,用lucene,所以c*+lucene应该可以
可以看看这个
http://github.com/Stratio/cassandra-lucene-index |
z****e 发帖数: 54598 | 20
log
big data的分析,精度比debug时候的精度要求更低
更讲究一个general的idea
【在 w**z 的大作中提到】 : log在大数据时代的意义远远不止只在有问题的时候才查看。大数据很大一部分是从log : 里来的。
|
|
|
l******s 发帖数: 3045 | 21 羡慕。我们这里上个hadoop还犹犹豫豫。
【在 w**z 的大作中提到】 : 这方面不是大牛,我才刚开始接触,亲手做。见过的有两种 : 1)在自己code里边直接写进log, 我们用scribe aggregate log, ETL 之后放入 : hadoop, 用MR 处理 : 2)放个pixel 在webpage 里,有个web service 专门处理那样的request
|
D*******a 发帖数: 3688 | 22 distributedlog主要是用于状态机事件的复制,跟kafka这种application log的
transport用途不同
the
【在 g*****g 的大作中提到】 : logging is not necessarily debug logging. It can be event logging that's : semi-structure. (e.g. logging the session state in a json blob for every : request that's visiting mitbbs). : Now a few months later, you try to answer questions like which posts are the : top 10 hits. : My company logs several hundred billion events a day for analytics purpose.
|
g*********e 发帖数: 14401 | 23 大哥 log4J跟这个完全两码事好吗?
【在 z****e 的大作中提到】 : : log : big data的分析,精度比debug时候的精度要求更低 : 更讲究一个general的idea
|