由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 大牛们,请教大数据系统如何架构
相关主题
二爷看过来。本版现在主题就是战啊。。。
Spark + C*Scala的AKKA很惨淡
twitter又自己做了一個distributedLog.基于bookeeper坛子里有人搞HBase的吗?
大数据在工业界流行的黑暗真相感觉Cassandra比HBase好用很多呀
Pinterest陶涛:三个教训和三个发展选择感觉nosql那个什么三驾马车完全是以讹传讹
How Twitter Handles Five Billion Sessions a Day哪里有便宜的hadoop计算平台
一个关于big data 系统架构的设计问题Hadoop运行时是不是用命令行执行的?Hadoop和Java有什么联系?
这里有人玩hadoop/hbase么? (转载)Cassandra 真是狗屎
相关话题的讨论汇总
话题: java话题: kafka话题: 数据话题: streaming话题: hadoop
进入Programming版参与讨论
1 (共1页)
h******e
发帖数: 209
1
问一个大数据系统架构的事情。
国内同学想找我合作一个跟大数据有关的项目。第一步,跟大家一样,都是在互联网上
采集大量数据,提纯去杂做一些处理后,要开个web服务器显示一些统计信息。用传统
的mysql方式肯定是不行了,数据采集量基本每天都超过1000万条了。采集量太大,而
且采集数据的渠道太多,太杂。考虑用大数据的方式来搞,但是不是很精通这一块。
要求是能横向扩容服务器来解决将来数据量增大的问题,另外,采集是流式的不断流入
数据,显示数据的时候也需要尽快的显示出最新的变化,能做到5分钟内更新采集到的
数据最好。
请教大牛们,这种方式该怎么设计系统,基于哪些模块或者软件开发最好?一定要靠谱
点,不冒出一堆坑的比较好!
d******e
发帖数: 2265
2
这个需求蛮典型的。你需要加一个data process pipeline.
经验是,processer做成异步service.
中间用message queue连起来。
CQRS。临时存储c*.最后msql或者直接query c*.
很多devops,logging, montior,reporting, management ui的东西。
大牛准备雇佣几个人做?

【在 h******e 的大作中提到】
: 问一个大数据系统架构的事情。
: 国内同学想找我合作一个跟大数据有关的项目。第一步,跟大家一样,都是在互联网上
: 采集大量数据,提纯去杂做一些处理后,要开个web服务器显示一些统计信息。用传统
: 的mysql方式肯定是不行了,数据采集量基本每天都超过1000万条了。采集量太大,而
: 且采集数据的渠道太多,太杂。考虑用大数据的方式来搞,但是不是很精通这一块。
: 要求是能横向扩容服务器来解决将来数据量增大的问题,另外,采集是流式的不断流入
: 数据,显示数据的时候也需要尽快的显示出最新的变化,能做到5分钟内更新采集到的
: 数据最好。
: 请教大牛们,这种方式该怎么设计系统,基于哪些模块或者软件开发最好?一定要靠谱
: 点,不冒出一堆坑的比较好!

w**z
发帖数: 8232
3
We use Kafka as message queue
We write own code to consume Kafka messages and write them to datastore.
Depending on your use case, you need to pick correct data store for you.
Then you can use Spark or Hadoop to read off the Datastore.
We end up writing our own datastore since none of the ones out there meet
our use case.

【在 d******e 的大作中提到】
: 这个需求蛮典型的。你需要加一个data process pipeline.
: 经验是,processer做成异步service.
: 中间用message queue连起来。
: CQRS。临时存储c*.最后msql或者直接query c*.
: 很多devops,logging, montior,reporting, management ui的东西。
: 大牛准备雇佣几个人做?

N*****m
发帖数: 42603
4
你不是用c*的吗?

【在 w**z 的大作中提到】
: We use Kafka as message queue
: We write own code to consume Kafka messages and write them to datastore.
: Depending on your use case, you need to pick correct data store for you.
: Then you can use Spark or Hadoop to read off the Datastore.
: We end up writing our own datastore since none of the ones out there meet
: our use case.

g*****g
发帖数: 34805
5
狗一下lambda architecture。如果你不需要batch processing,只需要streaming,那
用streaming的部分就好。
常见的轮子就是Kafka做MQ,C* 做存储。Storm, Spark, Hadoop做处理。

【在 h******e 的大作中提到】
: 问一个大数据系统架构的事情。
: 国内同学想找我合作一个跟大数据有关的项目。第一步,跟大家一样,都是在互联网上
: 采集大量数据,提纯去杂做一些处理后,要开个web服务器显示一些统计信息。用传统
: 的mysql方式肯定是不行了,数据采集量基本每天都超过1000万条了。采集量太大,而
: 且采集数据的渠道太多,太杂。考虑用大数据的方式来搞,但是不是很精通这一块。
: 要求是能横向扩容服务器来解决将来数据量增大的问题,另外,采集是流式的不断流入
: 数据,显示数据的时候也需要尽快的显示出最新的变化,能做到5分钟内更新采集到的
: 数据最好。
: 请教大牛们,这种方式该怎么设计系统,基于哪些模块或者软件开发最好?一定要靠谱
: 点,不冒出一堆坑的比较好!

J****R
发帖数: 373
6
基本上就是我们在干的事情。大概架构就是:
数据源->前台 web server收集数据->processing server(data pre aggregation)->
kafka->processing server (data aggregation)->staging data in Hbase or C*
后台web server query Hbase or C* for report.
data aggregation 如果是off line的就用mapreduce, spark什么的,如果是streaming
就用相应的streaming framework.或者干脆自己写。

【在 h******e 的大作中提到】
: 问一个大数据系统架构的事情。
: 国内同学想找我合作一个跟大数据有关的项目。第一步,跟大家一样,都是在互联网上
: 采集大量数据,提纯去杂做一些处理后,要开个web服务器显示一些统计信息。用传统
: 的mysql方式肯定是不行了,数据采集量基本每天都超过1000万条了。采集量太大,而
: 且采集数据的渠道太多,太杂。考虑用大数据的方式来搞,但是不是很精通这一块。
: 要求是能横向扩容服务器来解决将来数据量增大的问题,另外,采集是流式的不断流入
: 数据,显示数据的时候也需要尽快的显示出最新的变化,能做到5分钟内更新采集到的
: 数据最好。
: 请教大牛们,这种方式该怎么设计系统,基于哪些模块或者软件开发最好?一定要靠谱
: 点,不冒出一堆坑的比较好!

d*******r
发帖数: 3299
7
就是说 Storm, Spark, Hadoop 这些是接在 C* 后面吧,从 C* 里按要求提出数据?
如果有 ES, 估计也是接到 C* 后面吧.
C* 放在中间层主要为了提供灵活性,是不是?
毕竟从 Kafka 里提取数据,检索功能有限, Kafka 就当一个巨大 buffer 用?

【在 g*****g 的大作中提到】
: 狗一下lambda architecture。如果你不需要batch processing,只需要streaming,那
: 用streaming的部分就好。
: 常见的轮子就是Kafka做MQ,C* 做存储。Storm, Spark, Hadoop做处理。

g*****g
发帖数: 34805
8
Streaming处理在C*前,batch处理在C*后。

【在 d*******r 的大作中提到】
: 就是说 Storm, Spark, Hadoop 这些是接在 C* 后面吧,从 C* 里按要求提出数据?
: 如果有 ES, 估计也是接到 C* 后面吧.
: C* 放在中间层主要为了提供灵活性,是不是?
: 毕竟从 Kafka 里提取数据,检索功能有限, Kafka 就当一个巨大 buffer 用?

d*******r
发帖数: 3299
9
请教,这个 processing server(data pre aggregation) 是指初步的数据处理吧?
比如这些ID来的数据,每分钟 aggregate 一次,有些fields去掉,可能有用的fields
保留.
这一步需要的数据处理能力很小, 不用轮子,基本手写点简单的逻辑就行?

streaming

【在 J****R 的大作中提到】
: 基本上就是我们在干的事情。大概架构就是:
: 数据源->前台 web server收集数据->processing server(data pre aggregation)->
: kafka->processing server (data aggregation)->staging data in Hbase or C*
: 后台web server query Hbase or C* for report.
: data aggregation 如果是off line的就用mapreduce, spark什么的,如果是streaming
: 就用相应的streaming framework.或者干脆自己写。

d*******r
发帖数: 3299
10
这个赞 http://lambda-architecture.net
Mark 了慢慢看, 多谢

【在 g*****g 的大作中提到】
: 狗一下lambda architecture。如果你不需要batch processing,只需要streaming,那
: 用streaming的部分就好。
: 常见的轮子就是Kafka做MQ,C* 做存储。Storm, Spark, Hadoop做处理。

相关主题
How Twitter Handles Five Billion Sessions a Day本版现在主题就是战啊。。。
一个关于big data 系统架构的设计问题Scala的AKKA很惨淡
这里有人玩hadoop/hbase么? (转载)坛子里有人搞HBase的吗?
进入Programming版参与讨论
w**z
发帖数: 8232
11
换工作了,新地方,use case 比较特别,C*不好用,自己写了一个。

【在 N*****m 的大作中提到】
: 你不是用c*的吗?
w**z
发帖数: 8232
12
大家干的都差不多,我们在 写到Kafka的同时也写到S3。 Kafka 的consumer 写到后面
的data store做实时处理。Hadoop 是run 在S3的data 上做比较详细的数据分析。

streaming

【在 J****R 的大作中提到】
: 基本上就是我们在干的事情。大概架构就是:
: 数据源->前台 web server收集数据->processing server(data pre aggregation)->
: kafka->processing server (data aggregation)->staging data in Hbase or C*
: 后台web server query Hbase or C* for report.
: data aggregation 如果是off line的就用mapreduce, spark什么的,如果是streaming
: 就用相应的streaming framework.或者干脆自己写。

x*******1
发帖数: 28835
13
amazon kinesis / EMR cluster
d*******r
发帖数: 3299
14
C*不好用,自己写了一个
-_-! 牛

【在 w**z 的大作中提到】
: 换工作了,新地方,use case 比较特别,C*不好用,自己写了一个。
j*****8
发帖数: 3635
15
这个贴信息量很大阿,mark!
j*****8
发帖数: 3635
16
这个贴信息量很大阿,mark!
j*****8
发帖数: 3635
17
这个贴信息量很大阿,mark!
w**z
发帖数: 8232
18
我们当然不会做的向C*那么general, 只是适合我们的use case 其实原理有点像 big
table, 把data sort 好写在hard drive 上, query 起来就会快一点。

【在 d*******r 的大作中提到】
: C*不好用,自己写了一个
: -_-! 牛

h******e
发帖数: 209
19
初步打算招两个Java开发人员负责这一块。
在国内做,不知道能不能用amazon的那些服务。不行的话,估计得自己搭数据平台了。
先上20台24核/32G的服务器,分别做采集,分析,存储,数据库,web服务器,这样的
硬件配置是不是够了?
几年前学过一些hadoop,大牛们说的这些都没听过,孤陋寡闻了。
需要看那些资料,能尽快进入角色?
h******e
发帖数: 209
20
初步打算招两个Java开发人员负责这一块。
在国内做,不知道能不能用amazon的那些服务。不行的话,估计得自己搭数据平台了。
先上20台24核/32G的服务器,分别做采集,分析,存储,数据库,web服务器,这样的
硬件配置是不是够了?
几年前学过一些hadoop,大牛们说的这些都没听过,孤陋寡闻了。
需要看那些资料,能尽快进入角色?
相关主题
感觉Cassandra比HBase好用很多呀Hadoop运行时是不是用命令行执行的?Hadoop和Java有什么联系?
感觉nosql那个什么三驾马车完全是以讹传讹Cassandra 真是狗屎
哪里有便宜的hadoop计算平台大牛能不能讨论下cassandra, Hbase, MongoDB的对比
进入Programming版参与讨论
w**z
发帖数: 8232
21
国内也有很多云服务,千万别自己买机器。

【在 h******e 的大作中提到】
: 初步打算招两个Java开发人员负责这一块。
: 在国内做,不知道能不能用amazon的那些服务。不行的话,估计得自己搭数据平台了。
: 先上20台24核/32G的服务器,分别做采集,分析,存储,数据库,web服务器,这样的
: 硬件配置是不是够了?
: 几年前学过一些hadoop,大牛们说的这些都没听过,孤陋寡闻了。
: 需要看那些资料,能尽快进入角色?

t**r
发帖数: 3428
22
0. data gathering: use whatever scripts and generate some csv files.
1. ETL phase: use hadoop or pig to process and save result to cassandra or
mongodb.
2. online streaming process. Usually use kafka as queue and use either storm
or spark streaming to process it quickly.
3. off line analysis: use hadoop mapredue or spark to do detailed analysis.
4. data persistence: save to s3 / hdfs , or cassandra
5. you may need cache layer. No need to hit DB or process query every time.
candidates are memcache or redis. (prefer redis)
z****e
发帖数: 54598
23
我说说我的经验吧
我个人觉得,mq其实很难用
msg还是以json为佳
因为如果是其他的,尤其是serialisable的object
可读性不强
其次broker本身会产生严重的依赖
你测试就很麻烦
尤其是本机测试,你要连到mq上去
折腾啊,而且强依赖,所有的system都会依赖这个mq
所以我建议干掉mq,mq基本上都是一个坑
而且很多mq都没有直接监听的端口什么的,测试起来很成问题
建议直接http+json就好了
便于测试,或者像vert.x一样,有自己的msg bus
然后就用msg bus传json就好了,vert.x用的是web scoekt协议
用shell service可以直接看bus里面传递的消息
非常方便,便于测试,坑少很多
另外呢,如果你想做persistence,你这种明显没有什么规律的数据
建议直接用file system就好了,不需要用c*
因为c*很大,东西比较多,有cql固然方便,但是这个是基于index的查找
所以你要想清楚,你这个数据到底是semi-structured的,也就是有明显的index的
还是unstructured的,像网页一样完全无规律
如果是semi->c*,如果是unstructure->file system(e.g. hdfs)
两个都可以用elastic search,但是elastic search主要针对无规则数据
有规则的找index(c*)
还有呢,streaming这个无所谓,你不用storm也可以
自己做也没啥大不了的,rxjava,java8都可以
w********m
发帖数: 1137
24
你想太复杂了。被同学忽悠了吧。
设想你一个processor一天抓60*60*24 = 86400条
10M的流量只要115个processors。
五台PC就可以搞定。
10M的message,都是json的话,一条最多1KB。一天10GB,一个月300GB。传统的架构完
全可以满足。
d****i
发帖数: 4809
25
严重同意,前几天刚看到比这个数据量大的多的case, 八台机器,MySQL加上一些PHP,
Python代码用来做做ETL加data processing完全可以搞定,进了现在这么多hype的忽悠
坑出来就不容易了。

【在 w********m 的大作中提到】
: 你想太复杂了。被同学忽悠了吧。
: 设想你一个processor一天抓60*60*24 = 86400条
: 10M的流量只要115个processors。
: 五台PC就可以搞定。
: 10M的message,都是json的话,一条最多1KB。一天10GB,一个月300GB。传统的架构完
: 全可以满足。

d******e
发帖数: 2265
26
mq是必须的。data 来的时候通常是一个spike.你http要配多强大才好? 丢数据,
connection reject怎么半。http 当了你怎么retry.必要要mq熨平数据流。

【在 z****e 的大作中提到】
: 我说说我的经验吧
: 我个人觉得,mq其实很难用
: msg还是以json为佳
: 因为如果是其他的,尤其是serialisable的object
: 可读性不强
: 其次broker本身会产生严重的依赖
: 你测试就很麻烦
: 尤其是本机测试,你要连到mq上去
: 折腾啊,而且强依赖,所有的system都会依赖这个mq
: 所以我建议干掉mq,mq基本上都是一个坑

d******e
发帖数: 2265
27
两头码农差不多。你的这个东西估计io为主。24核over kill了。
不如劈成4 -6核8-12G的虚拟机。估计10台vm开始就够了。

【在 h******e 的大作中提到】
: 初步打算招两个Java开发人员负责这一块。
: 在国内做,不知道能不能用amazon的那些服务。不行的话,估计得自己搭数据平台了。
: 先上20台24核/32G的服务器,分别做采集,分析,存储,数据库,web服务器,这样的
: 硬件配置是不是够了?
: 几年前学过一些hadoop,大牛们说的这些都没听过,孤陋寡闻了。
: 需要看那些资料,能尽快进入角色?

g*****g
发帖数: 34805
28
一个主流的架构不在于用的机器最少,而在于自己要写的代码少,坑少,扩展性好,换
人也能维护。
wwzz让上云也是经验之谈,有天来了大姨妈流量大了,现去买机器就要侧漏了。

【在 w********m 的大作中提到】
: 你想太复杂了。被同学忽悠了吧。
: 设想你一个processor一天抓60*60*24 = 86400条
: 10M的流量只要115个processors。
: 五台PC就可以搞定。
: 10M的message,都是json的话,一条最多1KB。一天10GB,一个月300GB。传统的架构完
: 全可以满足。

J****R
发帖数: 373
29
storm, spark, hadoop 可以用来做aggregation,具体要看你们的user case。 如果用
spark, hadoop接在data store后面做query的话,要看你们出什么类型的report,要求
的响应时间是多少。如果是customized ad hoc query, 并且要实时显示report,那用
这些query就不太方便了,可能自己写一个query engine还好一点。如果query的数据量
不小的话,最好自己写点code 用coprocessor,user defined functions 这类东西处理
,能有效的减少响应时间。
c*,hbase这些东西也不是包治百病的,query的数据量大了一样很慢,还是得把计算挪
到cluster上去比较有效。如果你们的report比较固定,那可以用空间换时间,做点pre
process,query起来不管数据量大小都会很快。

【在 d*******r 的大作中提到】
: 就是说 Storm, Spark, Hadoop 这些是接在 C* 后面吧,从 C* 里按要求提出数据?
: 如果有 ES, 估计也是接到 C* 后面吧.
: C* 放在中间层主要为了提供灵活性,是不是?
: 毕竟从 Kafka 里提取数据,检索功能有限, Kafka 就当一个巨大 buffer 用?

w**z
发帖数: 8232
30
这年头startup不上云,就是自己找不痛快,有时间精力折腾机器,干点啥不好?那是
commodity, 不给你增加任何value.

【在 g*****g 的大作中提到】
: 一个主流的架构不在于用的机器最少,而在于自己要写的代码少,坑少,扩展性好,换
: 人也能维护。
: wwzz让上云也是经验之谈,有天来了大姨妈流量大了,现去买机器就要侧漏了。

相关主题
Hadoop/HBase真的落伍了吗?Spark + C*
搞不懂为什么大牛说Hbase不如C*?twitter又自己做了一個distributedLog.基于bookeeper
二爷看过来。大数据在工业界流行的黑暗真相
进入Programming版参与讨论
d*******r
发帖数: 3299
31
大牛已经跳 startup 啦,startup 中 java shop 的分布如何?

【在 w**z 的大作中提到】
: 这年头startup不上云,就是自己找不痛快,有时间精力折腾机器,干点啥不好?那是
: commodity, 不给你增加任何value.

g*****g
发帖数: 34805
32
UAP 里U全是Python,只有大数据一块是Java。A前端Ruby后端Java,P前端Python,后
端Java,Python,Go。

【在 d*******r 的大作中提到】
: 大牛已经跳 startup 啦,startup 中 java shop 的分布如何?
d*******r
发帖数: 3299
33
多谢, 好像U也有不少Node, 不过按照你的划分,可以算到前端部分

【在 g*****g 的大作中提到】
: UAP 里U全是Python,只有大数据一块是Java。A前端Ruby后端Java,P前端Python,后
: 端Java,Python,Go。

g*****g
发帖数: 34805
34
U的前端是mobile吧,A基本是 web. P两者都有一些。U内部网站用点 Node倒是不奇怪。

【在 d*******r 的大作中提到】
: 多谢, 好像U也有不少Node, 不过按照你的划分,可以算到前端部分
d*******r
发帖数: 3299
35
想来自己做后端还准备 Java, Python 双修,回头有机会认真搞搞 Java

怪。

【在 g*****g 的大作中提到】
: U的前端是mobile吧,A基本是 web. P两者都有一些。U内部网站用点 Node倒是不奇怪。
w**z
发帖数: 8232
36
我过去四年一直在startup, 前一个没搞头,换了一个。楼下古德吧对hot startup 搞
得很清楚。

【在 d*******r 的大作中提到】
: 大牛已经跳 startup 啦,startup 中 java shop 的分布如何?
d*******r
发帖数: 3299
37
大牛觉得现在 startup 用 Python 多,还是 Java 多?
我指的是总体情况,1~2 流的都包括的话.
goodbug 上面列的都是明星 startup, 属于一流.

【在 w**z 的大作中提到】
: 我过去四年一直在startup, 前一个没搞头,换了一个。楼下古德吧对hot startup 搞
: 得很清楚。

d******e
发帖数: 2265
38
starup没功夫用 java。
要么node, python,要么scala。
等做到一定规模,性能会有问题了,才考虑转java或者其他的。

【在 d*******r 的大作中提到】
: 大牛觉得现在 startup 用 Python 多,还是 Java 多?
: 我指的是总体情况,1~2 流的都包括的话.
: goodbug 上面列的都是明星 startup, 属于一流.

d*******r
发帖数: 3299
39
我以前也这么想,现在看来好像也不全对,
Java dev也不是那么笨重,主要是Java盘子大,自己也一直在演化.

【在 d******e 的大作中提到】
: starup没功夫用 java。
: 要么node, python,要么scala。
: 等做到一定规模,性能会有问题了,才考虑转java或者其他的。

w**z
发帖数: 8232
40
I think it depends on the early engineers. Startup most time goes with the
competency of the early engineers.
现在那么多工具,真不觉得Java 开发效率会比python, node.js 低太多。

【在 d*******r 的大作中提到】
: 我以前也这么想,现在看来好像也不全对,
: Java dev也不是那么笨重,主要是Java盘子大,自己也一直在演化.

相关主题
大数据在工业界流行的黑暗真相一个关于big data 系统架构的设计问题
Pinterest陶涛:三个教训和三个发展选择这里有人玩hadoop/hbase么? (转载)
How Twitter Handles Five Billion Sessions a Day本版现在主题就是战啊。。。
进入Programming版参与讨论
p**r
发帖数: 5853
41
从架构上来说,我自己做的项目和楼主的一模一样,
只是俺是抠门大仙,钱都去买奔驰宝马,要么给老婆买爱马,给娃买骑马
#1 采集+分析,自己家所有电脑不用的时候全民皆兵,提炼后结果同步服务器
采集不做任何分析,先采集下来再说
分析最重要,我一有时间就改善分析,
说的好听点machine learning
其实是半人工完善
#2 web服务器MS SQL(read only for front-end)+Cache+Lucene
反正我比较目前市面上的同类产品,说实在的,数据完整和速度还真没我的快,
当然竞争者一堆,不过老子一点都不怕,就怕你不来竞争
不然和老子这种街头派竞争,
你正规军得养个团队,老子谁都不用养,慢慢耗死对手,
g*****g
发帖数: 34805
42
startup最开始都是单应用,所以最初的几个engineer最熟悉啥就用啥。
面向企业的startup几乎清一色Java,做大之后把前端换成脚本语言。面向个人用户的
startup则相反。
大家比较熟悉 终端用户的 startup而已。

【在 w**z 的大作中提到】
: I think it depends on the early engineers. Startup most time goes with the
: competency of the early engineers.
: 现在那么多工具,真不觉得Java 开发效率会比python, node.js 低太多。

d*******r
发帖数: 3299
43
我也用 Python, Node.js,这2个维护确实是问题,不是说 project 大了,中型都不好
维护, 不是说语言不好,因为 community 没有那么“刻板”,写东西没有一定风格套
路可循. 当然,Python community 相对比较实务,比 Node community 好点. Node.js
还有个问题,轮子都太年轻,质量不高. 不过我大半年没用Node.js,不知道现在
version 5 的轮子质量如何.

【在 w**z 的大作中提到】
: I think it depends on the early engineers. Startup most time goes with the
: competency of the early engineers.
: 现在那么多工具,真不觉得Java 开发效率会比python, node.js 低太多。

c*********e
发帖数: 16335
44
node.js确实块,这个连java可能都比不过。不过,javascript写东西,难维护。

js

【在 d*******r 的大作中提到】
: 我也用 Python, Node.js,这2个维护确实是问题,不是说 project 大了,中型都不好
: 维护, 不是说语言不好,因为 community 没有那么“刻板”,写东西没有一定风格套
: 路可循. 当然,Python community 相对比较实务,比 Node community 好点. Node.js
: 还有个问题,轮子都太年轻,质量不高. 不过我大半年没用Node.js,不知道现在
: version 5 的轮子质量如何.

c*********e
发帖数: 16335
45
c*是什么?一种语言?

【在 d******e 的大作中提到】
: 这个需求蛮典型的。你需要加一个data process pipeline.
: 经验是,processer做成异步service.
: 中间用message queue连起来。
: CQRS。临时存储c*.最后msql或者直接query c*.
: 很多devops,logging, montior,reporting, management ui的东西。
: 大牛准备雇佣几个人做?

c*********e
发帖数: 16335
46
uap是什么?

【在 g*****g 的大作中提到】
: UAP 里U全是Python,只有大数据一块是Java。A前端Ruby后端Java,P前端Python,后
: 端Java,Python,Go。

c*********e
发帖数: 16335
47
既然都用ms sql了,怎么不用ssis,ssas,ssrs?

【在 p**r 的大作中提到】
: 从架构上来说,我自己做的项目和楼主的一模一样,
: 只是俺是抠门大仙,钱都去买奔驰宝马,要么给老婆买爱马,给娃买骑马
: #1 采集+分析,自己家所有电脑不用的时候全民皆兵,提炼后结果同步服务器
: 采集不做任何分析,先采集下来再说
: 分析最重要,我一有时间就改善分析,
: 说的好听点machine learning
: 其实是半人工完善
: #2 web服务器MS SQL(read only for front-end)+Cache+Lucene
: 反正我比较目前市面上的同类产品,说实在的,数据完整和速度还真没我的快,
: 当然竞争者一堆,不过老子一点都不怕,就怕你不来竞争

w**z
发帖数: 8232
48
Cassandra

【在 c*********e 的大作中提到】
: c*是什么?一种语言?
w**z
发帖数: 8232
49
uber, Airbnb, Pinterest

【在 c*********e 的大作中提到】
: uap是什么?
z****e
发帖数: 54598
50

我们以前做paymeng gateway时候都不怕丢数据,你怕什么?
你数据量再大,有我们大?当时数据是150次交易/s
比amazon和apple交易的总和(80/s)还大接近一倍
你说说你的多大?如果怕丢数据,就减少io,网络是最不可靠的东西
这个没啥疑问,还有就是要上分布式transaction,没那么容易做
http挂了,我们的一个机制就是会不停滴try,先assume它成功
然后不停滴试,最后刷成功为止,是,这样可能会有点问题,比如盗刷
但是一般跟银行的连接,都是可靠而且稳定的,这种情况极少
而且这个risk是资本家所必需承担的,这就是为啥那个系统做得好
能干掉很多同行的原因,风险并不可怕,可怕的是不可控的风险
所以java好啊,java你清楚滴知道它在干嘛,其他语言我靠
一个var可以搞死一片人

【在 d******e 的大作中提到】
: mq是必须的。data 来的时候通常是一个spike.你http要配多强大才好? 丢数据,
: connection reject怎么半。http 当了你怎么retry.必要要mq熨平数据流。

相关主题
Scala的AKKA很惨淡感觉nosql那个什么三驾马车完全是以讹传讹
坛子里有人搞HBase的吗?哪里有便宜的hadoop计算平台
感觉Cassandra比HBase好用很多呀Hadoop运行时是不是用命令行执行的?Hadoop和Java有什么联系?
进入Programming版参与讨论
z****e
发帖数: 54598
51

放屁,node慢得一塌糊涂
techempower那个benchmark不懂得看?人家连代码都给出来了

【在 c*********e 的大作中提到】
: node.js确实块,这个连java可能都比不过。不过,javascript写东西,难维护。
:
: js

z****e
发帖数: 54598
52

关键是那一套工具一般外行没接触过
jira, confluence, fisheye, jenkins, idea这一套天天用
虽然都是收费的,但是真的很cheap,比ibm那一套便宜太多
很多外行猴子还在用vi写代码,你没法解释
连用个ide都要解释,说什么好?
根本上就很不专业,用个version control就觉得了不得了
用java2-3周一个service,小菜,快的话,一周就搞定了
剩下一到两周做下一个iteration的活
swjtuer那个四万行一年应该是很多熟练猴的开发速度

【在 w**z 的大作中提到】
: I think it depends on the early engineers. Startup most time goes with the
: competency of the early engineers.
: 现在那么多工具,真不觉得Java 开发效率会比python, node.js 低太多。

c*********e
发帖数: 16335
53
原来是这些。你们一缩写,我就不认识了。

【在 w**z 的大作中提到】
: uber, Airbnb, Pinterest
1 (共1页)
进入Programming版参与讨论
相关主题
Cassandra 真是狗屎Pinterest陶涛:三个教训和三个发展选择
大牛能不能讨论下cassandra, Hbase, MongoDB的对比How Twitter Handles Five Billion Sessions a Day
Hadoop/HBase真的落伍了吗?一个关于big data 系统架构的设计问题
搞不懂为什么大牛说Hbase不如C*?这里有人玩hadoop/hbase么? (转载)
二爷看过来。本版现在主题就是战啊。。。
Spark + C*Scala的AKKA很惨淡
twitter又自己做了一個distributedLog.基于bookeeper坛子里有人搞HBase的吗?
大数据在工业界流行的黑暗真相感觉Cassandra比HBase好用很多呀
相关话题的讨论汇总
话题: java话题: kafka话题: 数据话题: streaming话题: hadoop