z****e 发帖数: 54598 | 1 现在hadoop eco里面有啥值得留恋的?
我就觉得cassandra不错,值得带走
其他的pig,hive啥的,也就那么一回事
spark已经收割了一轮了,之后flink出来之后如果再收割一轮
也就没啥剩下的了?
前几年写的系统很快又要凹凸了,哎
话说回来,对flink还是充满着期待啊
datastream+dataset模式比较符合人的本能设计 |
c*******9 发帖数: 9032 | 2 database用什么好?
【在 z****e 的大作中提到】 : 现在hadoop eco里面有啥值得留恋的? : 我就觉得cassandra不错,值得带走 : 其他的pig,hive啥的,也就那么一回事 : spark已经收割了一轮了,之后flink出来之后如果再收割一轮 : 也就没啥剩下的了? : 前几年写的系统很快又要凹凸了,哎 : 话说回来,对flink还是充满着期待啊 : datastream+dataset模式比较符合人的本能设计
|
y**********u 发帖数: 6366 | 3 what
Cassandra的性能还不是太好吧
【在 z****e 的大作中提到】 : 现在hadoop eco里面有啥值得留恋的? : 我就觉得cassandra不错,值得带走 : 其他的pig,hive啥的,也就那么一回事 : spark已经收割了一轮了,之后flink出来之后如果再收割一轮 : 也就没啥剩下的了? : 前几年写的系统很快又要凹凸了,哎 : 话说回来,对flink还是充满着期待啊 : datastream+dataset模式比较符合人的本能设计
|
z****e 发帖数: 54598 | 4 postgre
如果对mysql实在是舍不得
可以用mariadb
【在 c*******9 的大作中提到】 : database用什么好?
|
z****e 发帖数: 54598 | 5
找不到更好的了,要不你说一个
【在 y**********u 的大作中提到】 : what : Cassandra的性能还不是太好吧
|
n*****3 发帖数: 1584 | 6 yarn 很好,要用啊
ETL 还是可以 用Hadoop ego, spark sql 还比较新。
【在 z****e 的大作中提到】 : 现在hadoop eco里面有啥值得留恋的? : 我就觉得cassandra不错,值得带走 : 其他的pig,hive啥的,也就那么一回事 : spark已经收割了一轮了,之后flink出来之后如果再收割一轮 : 也就没啥剩下的了? : 前几年写的系统很快又要凹凸了,哎 : 话说回来,对flink还是充满着期待啊 : datastream+dataset模式比较符合人的本能设计
|
z****e 发帖数: 54598 | 7
etl用datastream,这个是最值得注意的部分啊
要不然就用spark了
sql用table api,这个纯粹是脚本引擎
这个如果不是只懂sql的话,不用也没啥大不了的
反正我感觉大部分dev对于sql都不是特别热爱
跟js差不多,多数都是一种够用便可的态度
yarn跟dataset也就是batch processing
也就是spark,flink这些几乎是直接竞争关系
虽说这两个都可以over yarn,但是貌似不用yarn也没啥大不了的
好像还更快一点,除非要用hpc这些,那yarn会比较方便
【在 n*****3 的大作中提到】 : yarn 很好,要用啊 : ETL 还是可以 用Hadoop ego, spark sql 还比较新。
|
z****e 发帖数: 54598 | 8 可能hdfs也值得带走吧
hbase就算了吧,不太想用
postgre+cassandra+flink
应该可以满足绝大多数需要了
flink可以替换掉yarn, spark, storm & hdmr
cassandra,postgre可以替换掉hbase,mongo
剩下的交给vert.x
酱紫大概用4-5个框架,就可以解决几乎所有目前已知需求
sql/db, nosql/batch, streaming, script, web, web service, thread pool etc.
如果将来有一个vert.x based & flink-like system
而非akka based systems(spark&flink)
那就是一个终极解决方案,要有人这么搞就太好了
话说nosql真麻烦啊
一般db的话,一个jdbc就搞掂了,顶多说异步的话,需要启一个worker
但是nosql还要折腾mr,yarn, spark, flink这些,麻烦不少 |
a*****s 发帖数: 1121 | 9 资源调度这一块需要有一个吧,
资源调度角度讲,YARN是global scheduler,上千台的server可以总体调度;slider加
入以后,你可以在YARN上运行任何daemon,也就是说,你可以在一个datacenter运行你
想要的所有framework,资源调度由yarn来帮你总体处理。YARN现在也支持docker
container,加上label的功能,很容易实现multi-tenent,Altiscale这方面做的不错
,已经有上千个vm的production cluster用docker on yarn
mesos是分布式调度,比较小众,貌似只有twitter在用,俺们组的一个傻逼本科劳模天
天吹嘘
多好多好。
分布式文件系统需要有一个吧,HDFS时鼻祖,由很多变种,但是都支持HDFS的原生API。
大公司甚至国家之间,拼的是系统,上万台server的data center是需要经得起折腾的
系统,对于小公司,那就另说了。不见得需要这么robust的组件。 |
z****e 发帖数: 54598 | 10 上千台server这个数量级不是随便一个公司都能达到的
大部分专注于某些领域的公司
就算做到global,也不用上千个nodes那么夸张
我以前呆的几个公司,大部分4-8个nodes的cluster可以支撑起一个系统
分成不同系统就是了,系统比较多,上百个系统都有
极少说单一系统要爆上千个nodes的
所以这种搞法本身就有些小众了
API。
【在 a*****s 的大作中提到】 : 资源调度这一块需要有一个吧, : 资源调度角度讲,YARN是global scheduler,上千台的server可以总体调度;slider加 : 入以后,你可以在YARN上运行任何daemon,也就是说,你可以在一个datacenter运行你 : 想要的所有framework,资源调度由yarn来帮你总体处理。YARN现在也支持docker : container,加上label的功能,很容易实现multi-tenent,Altiscale这方面做的不错 : ,已经有上千个vm的production cluster用docker on yarn : mesos是分布式调度,比较小众,貌似只有twitter在用,俺们组的一个傻逼本科劳模天 : 天吹嘘 : 多好多好。 : 分布式文件系统需要有一个吧,HDFS时鼻祖,由很多变种,但是都支持HDFS的原生API。
|
a*****s 发帖数: 1121 | 11 哎,很不幸,俺去的第一家公司就拥有世界上最大的hadoop cluster,
【在 z****e 的大作中提到】 : 上千台server这个数量级不是随便一个公司都能达到的 : 大部分专注于某些领域的公司 : 就算做到global,也不用上千个nodes那么夸张 : 我以前呆的几个公司,大部分4-8个nodes的cluster可以支撑起一个系统 : 分成不同系统就是了,系统比较多,上百个系统都有 : 极少说单一系统要爆上千个nodes的 : 所以这种搞法本身就有些小众了 : : API。
|
r********n 发帖数: 7441 | 12 大的 dc 1000台机器只够放个角落
【在 z****e 的大作中提到】 : 上千台server这个数量级不是随便一个公司都能达到的 : 大部分专注于某些领域的公司 : 就算做到global,也不用上千个nodes那么夸张 : 我以前呆的几个公司,大部分4-8个nodes的cluster可以支撑起一个系统 : 分成不同系统就是了,系统比较多,上百个系统都有 : 极少说单一系统要爆上千个nodes的 : 所以这种搞法本身就有些小众了 : : API。
|
r********n 发帖数: 7441 | 13 大的 dc 1000台机器只够放个角落
【在 z****e 的大作中提到】 : 上千台server这个数量级不是随便一个公司都能达到的 : 大部分专注于某些领域的公司 : 就算做到global,也不用上千个nodes那么夸张 : 我以前呆的几个公司,大部分4-8个nodes的cluster可以支撑起一个系统 : 分成不同系统就是了,系统比较多,上百个系统都有 : 极少说单一系统要爆上千个nodes的 : 所以这种搞法本身就有些小众了 : : API。
|