twitter又自己做了一個distributedLog.基于bookeeper - Programming版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - twitter又自己做了一個distributedLog.基于bookeeper

相关主题
● 大牛们，请教大数据系统如何架构	● 现在的云计算技术，比如hadoop，和数据挖掘data mining有联系吗？
● 关于 Java 的 Log 轮子	● 大数据除了能分析ETL job还能干什么
● 关于es的缺点	● github上面的代码和公司的代码
● 坛子里有人搞HBase的吗？	● 能不能在hadoop中用open mpi?
● 二爷看过来。	● 感觉flink出来之后，hadoop就显得不怎么再需要了
● 发现一个大牛	● 内部推荐BigData工作机会
● Cassandra 看测试read也不算慢呢	● 一个Hadoop Cluster升级的问题
● Scala的用途	● 问个系统设计的题messaging

相关话题的讨论汇总
话题: bookeeper话题: log话题: 基于话题: twitter

进入Programming版参与讨论

(共1页)

t**r
发帖数: 3428

twitter又自己做了一個distributedLog.基于bookeeper
真是有钱有闲阿，卡福卡放着不用

c*******n
发帖数: 45

u自己也做了一个吧？

【在 t**r 的大作中提到】

: twitter又自己做了一個distributedLog.基于bookeeper
: 真是有钱有闲阿，卡福卡放着不用

z****e
发帖数: 54598

distributed log system很难做么？
需要用轮子？log无非就是查找建几个index就结了
还有啥难的？

h**********c
发帖数: 4120

distributed log 如果丢了东西怎么办把事件重新触发吗，愿听委座高见.

z****e
发帖数: 54598

但凡是distributed，都有replica，没那么容易丢
而且就算是单机，丢数据也是小概率事件
log也不是每一片log都那么重要
多数时候也就是出了问题才去找log，所以丢也没那么可怕了
如果真的是万分重要的数据，应该毫不犹豫上db

【在 h**********c 的大作中提到】

: distributed log 如果丢了东西怎么办把事件重新触发吗，愿听委座高见.

t**r
发帖数: 3428

自己build就是对performance要求高。
做好并不容易。kafka都tweak kernel parameter了。

【在 z****e 的大作中提到】

: distributed log system很难做么？
: 需要用轮子？log无非就是查找建几个index就结了
: 还有啥难的？

h**********c
发帖数: 4120

db fault tolerance 基本也是靠journal，file system 也是，好象这个因果偶没太整
明白

【在 z****e 的大作中提到】

:
: 但凡是distributed，都有replica，没那么容易丢
: 而且就算是单机，丢数据也是小概率事件
: log也不是每一片log都那么重要
: 多数时候也就是出了问题才去找log，所以丢也没那么可怕了
: 如果真的是万分重要的数据，应该毫不犹豫上db

t**r
发帖数: 3428

自己build就是对performance要求高。
做好并不容易。kafka都tweak kernel parameter了。

【在 z****e 的大作中提到】

: distributed log system很难做么？
: 需要用轮子？log无非就是查找建几个index就结了
: 还有啥难的？

z****e
发帖数: 54598

其实做好也没有那么困难了
现在很多新时代的server比如vert.x, undertow什么都可以轻松实现上百万的并发处理
加上log这种没有什么依赖和争抢的东西，属于最容易实现的一种
我觉得完全可以自己搞，不需要用轮子，实际上log的轮子用得都不是非常多
log4j什么都不是非常流行，招人一般都不怎么要求这些经验

【在 t**r 的大作中提到】

: 自己build就是对performance要求高。
: 做好并不容易。kafka都tweak kernel parameter了。

z****e
发帖数: 54598

distributed file system应该不是通过journal
错误毕竟是小概率事件，一个node的错误，可能性比如是1%
那么两个nodes，也就是replica = 2同时丢掉这个数据的可能性就是
1%^2，万分之一，如果设置replica = 3的话，那就是1%^3，就更低了
用这种方式来排错，注意设置逻辑version，做一个eventually consistent就好了

【在 h**********c 的大作中提到】

: db fault tolerance 基本也是靠journal，file system 也是，好象这个因果偶没太整
: 明白

相关主题
● 发现一个大牛	● 现在的云计算技术，比如hadoop，和数据挖掘data mining有联系吗？
● Cassandra 看测试read也不算慢呢	● 大数据除了能分析ETL job还能干什么
● Scala的用途	● github上面的代码和公司的代码
进入Programming版参与讨论

z****e
发帖数: 54598

安啦，保险公司是属于涉及金钱交易的
所以一般都是db，保险，金融，银行，这都是db的主力用户
distributed一般是互联网公司这种用得比较多
问一下，在米国，能否把401转成其他国家的insurance？
比如澳洲的super酱紫？

【在 h**********c 的大作中提到】

: db fault tolerance 基本也是靠journal，file system 也是，好象这个因果偶没太整
: 明白

w**z
发帖数: 8232

log在大数据时代的意义远远不止只在有问题的时候才查看。大数据很大一部分是从log
里来的。

【在 z****e 的大作中提到】

:
: 安啦，保险公司是属于涉及金钱交易的
: 所以一般都是db，保险，金融，银行，这都是db的主力用户
: distributed一般是互联网公司这种用得比较多
: 问一下，在米国，能否把401转成其他国家的insurance？
: 比如澳洲的super酱紫？

g*****g
发帖数: 34805

logging is not necessarily debug logging. It can be event logging that's
semi-structure. (e.g. logging the session state in a json blob for every
request that's visiting mitbbs).
Now a few months later, you try to answer questions like which posts are the
top 10 hits.
My company logs several hundred billion events a day for analytics purpose.

d******e
发帖数: 2265

做的好的非常有用。
我们的基于Hadoop的。
查询总是慢个几分钟。
这个要能基本事实。
会非常有用的。
说说哪种老歌系统现在能达到这个水准

【在 z****e 的大作中提到】

: distributed log system很难做么？
: 需要用轮子？log无非就是查找建几个index就结了
: 还有啥难的？

d******e
发帖数: 2265

: distributed log system很难做么？
: 需要用轮子？log无非就是查找建几个index就结了
: 还有啥难的？

l******s
发帖数: 3045

同意，能感到但是工作还暂时接触不到。大牛能不能科普一下现在比较常见的应用？一
些用户行为习惯分析现在一般是从哪里取？Log file么？

log

【在 w**z 的大作中提到】

: log在大数据时代的意义远远不止只在有问题的时候才查看。大数据很大一部分是从log
: 里来的。

w**z
发帖数: 8232

这方面不是大牛，我才刚开始接触，亲手做。见过的有两种
1）在自己code里边直接写进log，我们用scribe aggregate log， ETL 之后放入
hadoop，用MR 处理
2）放个pixel 在webpage 里，有个web service 专门处理那样的request

【在 l******s 的大作中提到】

: 同意，能感到但是工作还暂时接触不到。大牛能不能科普一下现在比较常见的应用？一
: 些用户行为习惯分析现在一般是从哪里取？Log file么？
:
: log

z****e
发帖数: 54598

查询慢是因为复杂度高
本来就没有多少索引这些东西，加上无结构的数据
如果挨个parse过去，累死，加上lucene至少会快一点
单纯的hdfs不会有多快
这个纯粹看数据结构，log的结构越完整，能做的就越多
同样道理，越混乱的log，能做的就越少

【在 d******e 的大作中提到】

: 做的好的非常有用。
: 我们的基于Hadoop的。
: 查询总是慢个几分钟。
: 这个要能基本事实。
: 会非常有用的。
: 说说哪种老歌系统现在能达到这个水准

z****e
发帖数: 54598

要快就是先把能建index的地方全部建起index
比如time，至少能够根据date建index
其次给node编号，也可以建index
不同的系统，然后根据level也还可以建index
到底是exception呢，还是error还是debug etc.
最后对于log本身做inverted index table的cache
酱紫就可以mr了，index的话，很多nosql都可以做
iit的话，用lucene，所以c*+lucene应该可以
可以看看这个
http://github.com/Stratio/cassandra-lucene-index

z****e
发帖数: 54598

log
big data的分析，精度比debug时候的精度要求更低
更讲究一个general的idea

【在 w**z 的大作中提到】

: log在大数据时代的意义远远不止只在有问题的时候才查看。大数据很大一部分是从log
: 里来的。

相关主题
● 能不能在hadoop中用open mpi?	● 一个Hadoop Cluster升级的问题
● 感觉flink出来之后，hadoop就显得不怎么再需要了	● 问个系统设计的题messaging
● 内部推荐BigData工作机会	● log4j 谁熟悉？
进入Programming版参与讨论

l******s
发帖数: 3045

羡慕。我们这里上个hadoop还犹犹豫豫。

【在 w**z 的大作中提到】

: 这方面不是大牛，我才刚开始接触，亲手做。见过的有两种
: 1）在自己code里边直接写进log，我们用scribe aggregate log， ETL 之后放入
: hadoop，用MR 处理
: 2）放个pixel 在webpage 里，有个web service 专门处理那样的request

D*******a
发帖数: 3688

distributedlog主要是用于状态机事件的复制，跟kafka这种application log的
transport用途不同

the

【在 g*****g 的大作中提到】

: logging is not necessarily debug logging. It can be event logging that's
: semi-structure. (e.g. logging the session state in a json blob for every
: request that's visiting mitbbs).
: Now a few months later, you try to answer questions like which posts are the
: top 10 hits.
: My company logs several hundred billion events a day for analytics purpose.

g*********e
发帖数: 14401

大哥 log4J跟这个完全两码事好吗？

【在 z****e 的大作中提到】

:
: log
: big data的分析，精度比debug时候的精度要求更低
: 更讲究一个general的idea

(共1页)

进入Programming版参与讨论

相关主题
● 问个系统设计的题messaging	● 二爷看过来。
● log4j 谁熟悉？	● 发现一个大牛
● hibernate问题	● Cassandra 看测试read也不算慢呢
● 怎样准确测量函数执行的时间？	● Scala的用途
● 大牛们，请教大数据系统如何架构	● 现在的云计算技术，比如hadoop，和数据挖掘data mining有联系吗？
● 关于 Java 的 Log 轮子	● 大数据除了能分析ETL job还能干什么
● 关于es的缺点	● github上面的代码和公司的代码
● 坛子里有人搞HBase的吗？	● 能不能在hadoop中用open mpi?

相关话题的讨论汇总
话题: bookeeper话题: log话题: 基于话题: twitter

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天