关于spark的讨论汇总 - 话题女王

d********w
发帖数: 363

来自主题: JobHunting版 - Hadoop Spark 学习小结[2014版]

基于很多朋友希望更新这个学习资料，我就尽力按我的积累补充，are you ready, 享
受技术饕餮大餐
# Hadoop
Hadoop社区依然发展迅速，2014年推出了2.3，2.4, [2.5]http://hadoop.apache.org/releases.html 的社区版本，比如增强
Resource Manager HA, YARN Rest API, ACL on HDFS, 改进 HDFS 的 Web UI...
[Hadoop Roadmap]http://wiki.apache.org/hadoop/Roadmap
根据我的观察，主要更新在Yarn，HDFS，而Mapreduce几乎停滞了，还有一些feature
属于安全，稳定可靠性一方面是比较稳定了，但也可以说是瓶颈了。
[Apache Hadoop Project Members]http://hadoop.apache.org/who.html
这个是Hadoop project member and committee, 里面好多来自Hortonworks，也有不少
国人上榜。
# Spar... 阅读全帖

d********w
发帖数: 363

来自主题: JobHunting版 - Hadoop Spark 学习小结[2014版]

基于很多朋友希望更新这个学习资料，我就尽力按我的积累补充，are you ready, 享
受技术饕餮大餐
#Hadoop
Hadoop社区依然发展迅速，2014年推出了2.3，2.4, 2.5 的社区版本，比如增强
Resource Manager HA,
YARN Rest API, ACL on HDFS...
http://hadoop.apache.org/releases.html
根据我的观察，主要更新在Yarn，HDFS，而Mapreduce几乎停滞了，还有一些feature
属于安全，稳定可靠性一方面也是比较稳定了，但也可以说是瓶颈了。
http://hadoop.apache.org/who.html
这个是Hadoop project member and committee, 里面好多来自Hortonworks，不过也有
不少国人加入了，都是未来的希望啊。
# Spark
Spark今年大放溢彩，Spark简单说就是内存计算（或者迭代式计算，DAG计算,流式计算
）框架，
MapReduce因效率低下大家经常嘲笑， Spark号称性能超Hadoop百倍，算法实现... 阅读全帖

o**********e
发帖数: 18403

来自主题: DataSciences版 - Hadoop Spark 学习小结[2014版] (转载)

【以下文字转载自 JobHunting 讨论区】
发信人: dongfeiwww (在路上), 信区: JobHunting
标题: Hadoop Spark 学习小结[2014版]
关键字: Spark,Big Data,Hadoop
发信站: BBS 未名空间站 (Sun Aug 17 12:28:34 2014, 美东)
基于很多朋友希望更新这个学习资料，我就尽力按我的积累补充，are you ready, 享
受技术饕餮大餐
#Hadoop
Hadoop社区依然发展迅速，2014年推出了2.3，2.4, 2.5 的社区版本，比如增强
Resource Manager HA,
YARN Rest API, ACL on HDFS...
http://hadoop.apache.org/releases.html
根据我的观察，主要更新在Yarn，HDFS，而Mapreduce几乎停滞了，还有一些feature
属于安全，稳定可靠性一方面也是比较稳定了，但也可以说是瓶颈了。
http://hadoop.apache.org/who.html
这个是Hadoop projec... 阅读全帖

z****e
发帖数: 54598

来自主题: DataSciences版 - Hadoop Spark 学习小结[2014版] (转载)

【以下文字转载自 JobHunting 讨论区】
发信人: dongfeiwww (在路上), 信区: JobHunting
标题: Hadoop Spark 学习小结[2014版]
关键字: Hadoop,Big Data,Spark
发信站: BBS 未名空间站 (Sun Aug 17 12:28:34 2014, 美东)
基于很多朋友希望更新这个学习资料，我就尽力按我的积累补充，are you ready, 享
受技术饕餮大餐
#Hadoop
Hadoop社区依然发展迅速，2014年推出了2.3，2.4, 2.5 的社区版本，比如增强
Resource Manager HA,
YARN Rest API, ACL on HDFS...
http://hadoop.apache.org/releases.html
这个是Hadoop project member and committee, 里面好多来自Hortonworks，不过也有
不少国人加入了，
都是未来的希望啊。
http://hadoop.apache.org/who.html
# Spark
Spark今年大... 阅读全帖

w**z
发帖数: 8232

来自主题: Programming版 - IBM is all into Spark

On Monday, IBM announced it will invest about $300 million over the next few
years and assign 3,500 people to help develop an up-and-coming technology
known as Spark.
IBM called Spark "the most significant open source project of the next
decade."
This was very good news for a two-year-old startup called Databricks,
founded by the people that invented Spark, and who, today, officially
launched their commercial version of Spark.
Spark is a free and open source software program managed by the organ... 阅读全帖

r********n
发帖数: 7

来自主题: Programming版 - Spark已经out了，能跳船的赶快

楼主会这么说应该对两个项目本身和项目背后的团队都不是很了解吧。Spark并不是一
个in-memory Hadoop。关于这个，可以参见我Quora的回答： https://www.quora.com/
How-does-Apache-Spark-work/answer/Reynold-Xin
Flink以前名字叫做Stratosphere，其实和Spark一样也有五年的历史了，但是一直不温
不火的。成熟度比Spark差了很远，参与Flink社区的人不到Spark的五分之一。
个人意见：Flink之所以不温不火的一个原因就是用了太多数据库的传统设计，反而忽略
了这些设计对实际应用的阻碍。很多这些设计在SQL query上是很有价值的，但是对于
general program却可能得不偿失。
比如说Flink一直比较崇尚从头到尾的declarative，希望你把整个程序从头到尾的都用
他的框架来写。比如一个简单的while/for loop，本来编程语言里面已经有内置的loop
了，但是他却强迫用户利用他框架内置的loop的API。这样子的下场是程序员如果要用
这个框架，反而需要去学习更... 阅读全帖

z****e
发帖数: 54598

来自主题: Programming版 - Flink Sparks Next Wave of Distributed Data Processing

February 22, 2015 Nicole Hemsoth
art2
If you haven’t heard of Flink until now, get ready for the deluge. As one
of a stream of Apache incubator-to-top-level projects turned commercial
effort, the data processing engine’s promise is to deliver near-real time
handling of data analytics in a much faster, more condensed, and memory-
aware way than Hadoop or its in-memory predecessor, Spark, could do.
What really captured our attention, however, was the claim by Data Artisans,
the company behind Flin... 阅读全帖

b***c
发帖数: 2280

来自主题: Money版 - CapitalOne Spark Biz卡的one-time bonus可以churn么？

https://www.capitalone.com/credit-cards/business/?Log=1&EventType=Link&
ComponentType=T&LOB=MTS%3A%3AL0RT6ME8Z&PageName=Home+Page+Dynamic&
ComponentName=primary_nav&ContentElement=p-cc-4%3BSmall+Business+Credit+
Cards&TargetLob=MTS%3A%3ALCTMMQC4S&TargetPageName=Spark+Business+Credit+
Cards+%7C+Capital+&referer=https%3A%2F%2Fwww.capitalone.com%2Fhomepage-
dynamic#footnote1
With 2 of our cash cards, you'll have the opportunity to earn a one-time
cash bonus*—$500 with Spark Cash or $200 with Spark ... 阅读全帖

m*****k
发帖数: 731

来自主题: Programming版 - spark 疑问

相应二爷号召，开始看spark，
I just checked out https://github.com/apache/spark.git
to /tmp/spark,
I set
MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=1024M -XX:ReservedCodeCacheSize=1024m"
/tmp/spark$mvn -DskipTests clean package
went well, build successful
But when I imported "examples" module as a maven project into eclipse,
I found it turned red, pom.xml is referring such as spark-core_2.10-1.2.0-
SNAPSHAT.jar which is NOT found from the repos, and I confirmed my maven
repository DO not have the referred jars a... 阅读全帖

t**********8
发帖数: 15

来自主题: Programming版 - 怎样schedule spark application

两个问题:
(1) 如何schedule Spark Jobs
你可以使用YARN mode来管理你的cluster.对于scheduler来说, Spark对于你来说,就是
一个master node,并行cluster计算对于你来说就是一个黑箱, 不需关心,scheduler可
以使任何常见的如cron jobs
(2) 如何数据交换,和Spark
对于输入来说, 和java main一个道理,可以使用main(String [] args)来接受参数,输
出可能会有些问题,因为Spark是基于RDD的,一般是把结果RDD写入files 来读取的.
两个问题:
(1) 如何schedule Spark Jobs
你可以使用YARN mode来管理你的cluster.对于scheduler来说, Spark对于你来说,就是
一个master node,并行cluster计算对于你来说就是一个黑箱, 不需关心,scheduler可
以使任何常见的如cron jobs
(2) 如何数据交换,和Spark
对于输入来说, 和java main一个道理,可以使用main(String [] ... 阅读全帖

s*******f
发帖数: 1114

来自主题: Automobile版 - 换spark plug详细步骤

还会补充修改。先贴上来。
**tools
Anti-Seize Lubricant: For easy removal of spark plugs, cylinder head and
exhaust head bolts
tune-up grease, brake cleaner, electric cleaner. paper tape,
Spark Plug Gauge: Coin Type with Gapper
Spark Plug Hole Thread Chaser/restorer:
Broken Spark Plug Remover: wire puller:
brush, blow gun, clean cloth * 5,
torque wrench, ratchet, extension bar, pliers
**parts:
hose
kia gap:
volvo gap:
wrench size:
nuts, bolts:
**process
engine cool
check new spark plug defect (cracks in the b... 阅读全帖

v*****r
发帖数: 2325

来自主题: Programming版 - spark is slower than java Mapreduce --scala big bulls pls advise

spark beginner trying out the buzz tech
input 200GB uncompressed data file stored in hdfs
37 worker nodes, each has 24 cores
using java map reduce, 6-8 minutes
using spark, 37 minutes, 2 18 minute-stage
"lightning fast cluster computing, 100x faster" ???!!!!
Big bulls please advise!
#sortMapper sort values for each key, then do some iteration for the grouped
values
text = sc.textFile(input,1776) #24*37*2
text.map(mapper).filter(lambda x: x!=None).groupByKey().map(sortMapper).
filter(lambda x: x... 阅读全帖

l*****i
发帖数: 13

来自主题: Programming版 - Spark已经out了，能跳船的赶快

Spark的在2012年刚耳闻的时候，惊艳的地方在于内存计算和REPL，当时做machine
learning的同事在公司内部推广这个的时候，我们做engineer的就觉得没什么用，错过
了很多
之后稍微细读spark发现宣传的核心其实是设计核心的一方面的表现，通过Spark的数据
核心RDD的partition/compute/dependency实际可以很容易包装为独立的应用逻辑，比
如现在的graph和dataframe, 然后再去基于新的RDD引入新的优化和应用。并且实际
RDDlazy的特性使得转换不一定对应一个真正的task，所以声明和计算是分离的，扩展
空间很大。Spark的极限远不是楼主说的这个。
另外可能spark确实做不了楼主所说的“真正的streaming”(这个不确定，看12楼的
rxin这些founder和大committer了)，但没有一个系统真正能把高性能，可靠和真正的
streaming做好。Storm在保证可靠和性能的时候也只能以batch来处理一个提交单位，
否则就要出现大量的commit或者不保证transactional.
也许google的Sp... 阅读全帖

w**2
发帖数: 147

来自主题: DataSciences版 - 诚心请教Spark EMR配置

最近在版上发了几个问题，谢谢大家的解答。LZ目前的水平也只能跑跑spark python的
程序，对于build spark cluster方面还是有很多不理解的地方。
比如我现在在建一个Spark EMR集群，1个master，2个core，没有task。master和core
都是15g那种, 总共是45g。我就在aws emr的那个网页上create cluster，然后ssh进入
master node。然后问题来了。
首先，memory shortage。我之前以为spark－submit的code都是要跑在core nodes上的
。可是我现在感觉是跑在master上面，根本没有用到core，所以memory才不够用呢？
master和core是如何交互的呢？
需要在spark-submit clause里面增加其他参数嘛？我之前用了增加了driver memory，
感觉可以跑一些数据量大一点的程序。executor memory和driver memory是什么关系呢
？他们都是core的参数嘛，还是master的参数，或者他们只要加起来比27g (45g*0.6)
小... 阅读全帖

s*****8
发帖数: 606

来自主题: Automobile版 - replaced spark plugs and wires - $165

spark plug wire可以通过测电阻值来判断好坏，youtube上有教。
spark我建议最好用你车原厂推荐的，NGK是个很不错的牌子,好像只供日车
NGK V-POWER spark(普通款)：$2一个
NGK laser spark（高级款）：$10左右一个
NGK spark plug wire一般$50 一下

发帖数: 1

来自主题: Stock版 - 罗氏拟50亿美元收购美国Spark

美国Spark Therapeutics是一个初创型的公司，该公司主攻的方向是基因疗法。不过，
目前Spark公司还没实现盈利，其销售收入也不到1亿美刀，同时，其开支更加多，因此
，从账面上来看 Spark亏损都有一千多万美刀一年。
而市值上面来说，更是没有多少。不过，这次瑞士制药巨头罗氏竟然花费了50亿美刀的
巨资来收购这家初创企业。并不是说，Spark能够短期来为罗氏创造利润。而是罗氏想
要整合SparK的技术和资源，罗氏想要在血友病的治疗上取得更大的进展。
当然，不是说罗氏出的这个价就一定能成交，还有一家公司也进行了报价。

o*****e
发帖数: 379

来自主题: Outdoors版 - [TR] Spark Plug Mtn

Spark Plug Mtn在Steven Pass以南7 mile的地方，John的计划是走一个loop，沿着
Spark Plug Lake上，由西向东穿过整条山脊，再从东边的Glacier Lake到Surprise
Lake一侧下山。星期六天非常好，万里无云，雪崩风险预报也在low到moderate之间。
我们6点一刻从我家门口的P&R出发，沿途又接了几个人，到Steven Pass收拾好东西准
备出发的时候，已经过8点了。这条路我走过很多次，一直最喜欢index附近的那一段风
景；因为海拔不高，那一带的山多是绿树覆盖着的，只有两座我叫不出名字的，从头到
脚都被积雪覆盖着，白皑皑的立在一片灰绿之间，很是醒目。从停车场出发，刚开始的
一个小时是沿着夏天的trail走，几乎全是平路，顺着溪水的一侧走在茂密的小树林里
。脚印被踩的很结实了，沿着走就好了。不少地方都有点滑，很多人都拿出microspike
穿；我没有，只好穿snowshoe，倒也省的背了。之后是一个接着一个的堆满雪崩遗迹的
山坡，这些雪崩有日头了，那些冲下的大大小小的雪球都冻的结结实实的，堆满了整个
山坡。半山腰也有前... 阅读全帖

z****e
发帖数: 54598

来自主题: Programming版 - 试了下spark，不过如此啊

spark其实就是一个big data的统一接口
其本质跟jdbc，hibernate没有太大区别
统一了接口之后，后续所有的开发都好办了
以前又是hive又是pig的，乱七八糟
烦，现在好了，都dump掉，全转spark，省得啰嗦
spark sql，spark r还有spark ml都是非常有前途的东西

interactive

m*****k
发帖数: 731

来自主题: Programming版 - spark 疑问

搞定了，
原来是自己太傻被误导了，应该用
mvn -DskipTests clean install
来生成examples depend on 的 spark jars，
而不是象
https://github.com/apache/spark的readme说的
“Building Spark
Spark is built using Apache Maven. To build Spark and its example programs,
run:
mvn -DskipTests clean package
”
我先前看到的exampels 的classes 是我改动了pom.xml 后在examples folder build出
来的，parent build不产生examples的classes
老赵说得对，还是下1.1.0来玩省心。

f********x
发帖数: 99

来自主题: Programming版 - Flink Sparks Next Wave of Distributed Data Processing

Spark采用batch engine来处理数据; Flink采用stream engine处理数据。
Spark的streaming process = micro batch; Flink的batch process = streaming
process的特殊情况。
在现实世界里，大数据平台处理数据的过程就好比油罐车拉原油的过程。你可以调用油
罐车队批量拉油（spark micro batch)，也修建石油管道直接输送原油（Flink
streaming）。
在计算机领域里，两个大数据平台的本质其是源于对Unix Pipes在分布式环境下的演化
。下面用Linux自带的工具举个例子，来比较一下Spark和Flink的不同点。假设我们想
统计FileA里面的关键字China的总数：
Spark的处理模式可以等效为: cat FileA > /dev/shm/RDD1; grep China /dev/shm/
RDD1 > /dev/shm/RDD2; wc -l /dev/shm/RDD2 > /dev/shm/FileB
Flink的处理模式可以等效为: cat File... 阅读全帖

C*********r
发帖数: 21

来自主题: Programming版 - 怎样schedule spark application

一般单机的程序可以用autosys或者cron这种类型的工具指定在某个时间或者某个
dependency满足的情况下，在固定某台机器上面kickoff固定的程序运行，然后可以设
置一些最长跑多长时间，log位置等参数。
如果我有一个跑在hdfs cluster上面的spark程序，那我怎么类似的实现schedule
spark程序呢（最好是整个cluster对我的scheduler都是透明的，不需要知道具体需要
跑在那台机器上面）。有什么工具或者系统推荐的么？
再一个问题是如果我想把spark程序做成一个service，通过外部的request来进行调用
，例如gui，其他web service等，这样我通过什么来和spark程序或者hdfs cluster进
行通信。大家有什么推荐的么。
刚开始学习spark，好多不懂的地方，先谢谢大家啦

M********0
发帖数: 1230

来自主题: Programming版 - 单机学习spark/hadoop的方案？

推荐按照cloudera的CDH配一个虚拟机或者本机都行楼主应该是做DM/ML的所以没必
要花时间学java写MR code
直接学spark吧能用scala就用要不就Pyspark 教程youtube 联系就先用spark
summit上的几个case 弄熟了再随便网上抓data跑
这个东西其实上手还蛮快的一周左右感觉就intro了我当时还把那本learning spark
的书里面大部分章节看了看
不过专门招spark的职位好像非常少所以这个只能是个plus 就算公司里用spark 你进
去了也未必要用当然本着学习的态度了解和掌握一下肯定没有坏处
楼主加油

v*****n
发帖数: 621

来自主题: Automobile版 - DIY手记--新手上路，spark plug & air filter

相比那些老牛们，我写这个手记就相当幼稚可笑了。但是对于自己无疑还是
一个令人兴奋的起点。老破车从前两个月开始就开始MPG明显下降，点火发动
的时候发抖和噪音都很厉害。另外，加速性能也明显下降。但是一来不喜欢
开车，二来人懒，就拖着了。新学期一开始，几次去机场接新生，老破车让
我恼火得不行。于是下决心修一下，查查手册发现可能是spark plug的问题，
而且这玩意自己换起来比较简单，就决定自己动手了。
具体过程很简单，把spark plug boot摘出来，然后拧螺丝一样把spark plug
从engine里拧出来，再把新的装回去就可以了。装新的spark plug之前，在
螺纹上稍微抹上点机油。这样下回比较好起出来。
然后顺便查了一下air filter，乖乖不得了，那个斗里面几乎一半堆满了松
子。air filter都成黑色的了。花了十刀买了个新的换上。
下午带领导去逛mall，顺便试车，加速性能上去了。点火发动的时候噪音有
所减少，颤动也减少。但是加速踩油门的时候，还是很吵，尤其是刚上路的
时候，估计是因为muffler的问题。因为年检刚过，暂时不想费那么多钱去修
了。
下一步

H****w
发帖数: 1632

来自主题: Automobile版 - How to change spark plugs - 2003 thru 2005 Honda CRV

If you have never change spark plugs on the new cars.
These videos will help.
The key is to use a torque wrench and don't strip the threads
How to change spark plugs - 2003 thru 2005 Honda CRV
How to replace spark plugs - General
http://www.youtube.com/watch?v=fHtyocJ_E1U
How to change spark plugs - 2004 Toyota Matrix

l*****n
发帖数: 246

来自主题: JobHunting版 - Spark这个东西真的有很多公司在用吗。。？

Spark提供了一系列的api，可以很容易的让你在做MapReduce的时候把一些数据存储到
内存里面，这样下一次操作就直接调取内存里面的data就可以了。这样避免了disk io
，省了很多时间，只要内存足够大，速度上比Hadoop可以快很多很多倍。
举个最简单的例子吧，ML里面做K-means的时候，如果是传统Hadoop，每更新一次
cluster centers就要过一遍数据。但是如果用Spark，直接用cache()函数，把RDD数据
存到内存里面就行。如果你的K-means要做100次才收敛，Hadoop要去硬盘读取一百次数
据，但是Spark直接用内存里面的数据，这样就可以比Hadoop快一百倍。
恩，刚开始学两天，这是我得理解。
写Spark Java程序也不是很容易啊，完全不知道什么是Maven， Java 8也不熟，什么
Lambda表达式都是现学。。不容易啊。。。

a******3
发帖数: 170

来自主题: JobHunting版 - storm和spark, maprduce比有什么优势？

Mapreduce 一般用来批处理存在分布式文件系统里的大文件
storm 是用来实时处理流数据。
Map/Reduce 有个缺点是过于依赖文件来存储中间结果，后果是运算turnaround 的时间
很长。Spark 的设计目标之一是解决这个问题，spark 里所有的运算都在内存里进行，
所以速度快很多，尤其是对于需要多个iteration 的运算。Spark 的另外一个优点是它
采用了functional programming 的编程模式，写程序要比MapReduce 简洁很多，和其
他(ML, graph process) libraries 的接口做得很好。Spark 的缺点是可靠性暂时还
比不上 Hadoop.

c******4
发帖数: 701

来自主题: JobHunting版 - 技术贴：spark-ML

有几个命令不能用了
collectAsMap()为什么不能用在这里，但老版本可以
1. error: value collectAsMap is not a member of org.apache.spark.sql.
Dataset[(Any, Any)]
scala> val movieTitles = moviesDF.map(array => (array(0), array(1))).
collectAsMap()
:41: error: value collectAsMap is not a member of org.apache.spark.
sql.Dataset[(Any, Any)]
val movieTitles = moviesDF.map(array => (array(0), array(1))).
collectAsMap()
2. ++不能用在df里面了,新命令怎么查？
scala> val tmpTTData = notDelayFlights ++ delayedFlights
error: value ++ i... 阅读全帖

e*p
发帖数: 526

来自主题: Living版 - 请问imore同一牌子的furnace spark ignitor能混用吗

furnace是bryant/payne的395A,应该很老了,突然不工作了.重启看不到任何打火的动静
,是不是可以先换spark ignitor试试?但是这个型号对应的spark ignitor P771-1015网
上没找到,估计因为太老了.ebay上找到些别的型号的spark ignitor,看样子长的一样,
但不确定能不能混用? 要是实在不行就算了,顺便换新的furnace了.
http://www.ebay.com/sch/i.html?_odkw=395a+spark&_osacat=0&_from
多谢imore版主,也欢迎各位意见,都有大包子答谢!

l**y
发帖数: 2103

来自主题: Money版 - 为啥没人讨论Spark？

大家讨论的神卡是没有年费的，这点就秒杀Spark了，相比之下，Spark 的60 年费要
spend 1200 才能赚回来。另外，FIA AMEX 咱点数的，那个点数还有人1.2 收，也就是
说相当于2.4%了，也比Spark 强。
相比之下Spark 唯一的好处就是被接受的范围广，如果你整天在不收AMEX 的地方下大
单，这个卡make sense，否则，还是上面提到的一个神卡 + Ink 的搭配更好一些。
另外，这个卡是biz 卡。

v*****n
发帖数: 621

来自主题: NKU版 - DIY手记--新手上路，spark plug & air filter

c******o
发帖数: 1277

来自主题: Programming版 - 试了下spark，不过如此啊

spark 不是 hadoop的竞争者。
是mapreduce的替代品。我们的stack就是hdfs+spark+aws s3,可能会用 Cassandra 替
代hdfs.
对我们来说，hadoop (以前的BI系统），换成spark的好处有很多：
1. unified system ＝》成为真正的pipeline, easy to program, modern, and
reliable, less maintenance.
2. much much faster （really, really fast for most BI use cases) , BI 最关心
的是最近，即使是历史数据，也是会对一段时间多加分析。反正测试是很快
3. uniformed way to do stream/interactive/batch/sql/ML/graph calculation, 很
多你在interactive/batch弄的东西，直接就可以用到stream, 常见的就是interactive
试验一下，成功了，转成 batch/stream,持续监视。
对一一个大型的数据... 阅读全帖

S*******e
发帖数: 525

来自主题: Programming版 - 关于 SPARK, 问二爷peking2 和其他大牛一问题

你们是用standalone mode, 还是over Hadoop/HDFS？要是standalone mode, 怎么处
理‘cluster’ 的 filesystem？
用了别人的10个datanode的Hadoop cluster 试SPARK。 Count records in files
with SPARK，只需要4分钟（1 billion records）。曾用 Hadoop's MR在40个
datanode上至少要用三十几分钟。这个该死的40datanode现在试不了SPARK -- 老给我
出错.
现在，自己组里想搭建一个小的spark cluster。不知是用standalone mode，还是
over hdfs。

c*****a
发帖数: 1638

来自主题: Programming版 - 如何从代码里向yarn动态提交一个spark job

研究了几天，好像无解？
貌似所有的地方都是说只能用spark-submit那个script，但是这个简直是搞笑吧
如果我有个web application，要根据具体情况提交spark job，难道必须从shell调用
这个spark-submit？
这么基础的功能都没有？或者说这么基础的API都不expose，spark这帮人在干啥啊？
在production里面，难道大家都是直接用这个shell来提交job？

f******2
发帖数: 2455

来自主题: Programming版 - Spark已经out了，能跳船的赶快

首先，本文不不是说Spark会死，而是说它的衰落会比预想的还有快，具体地说就是比
Hadoop被人抛弃还快（<5年，Hadoop的上升期）
Spark的问题就是核心引擎落后，核心部分就是个大的in－memory版Hadoop，完全抛弃
数据酷领域多年积累。这后面有很多问题暴露出来，例如，SparkStreaming就没法做真
正意义上的流处理。
如果没有VC的投入，上面这些问题可能还有机会解决（Berkeley从来不缺聪明的年轻人
，更何况是站在Spark经验教训的肩膀上作一些改善），但是现在的Spark已经是被资本
的助燃器推上轨道的火箭了（而且是巨型资本，换句话说就是重型发动机），没有办法
停下来思考什么是正确轨道，而是在自己的轨道冲下去。
德国的一群年轻人在一个教授（有IBM数据酷的长期背景）的带领下搞了个Flink，社区
非常活跃，而且成立了公司运作，估计会成为ElasticSearch这样一个欧洲发源，征服
美国的下一个大数据新宠。
立此存照。

f********x
发帖数: 99

来自主题: Programming版 - Flink Sparks Next Wave of Distributed Data Processing

真正的大牛是楼主，我只是一个小混混，也只是停留在成天研究这些眼花缭乱的层次里
面。
技术的选择主要是根据你所要解决的具体问题而定。你可以描述一下需求，大家一起深
入讨论一下。
如果你只是单纯的学习，那么选择学Spark或者Flink，甚至老旧的MapReduce和最先进
的Dataflow，都无所谓。因为他们的编程模式差别不大，连同语法都差不多一样。例如
，你可以用这样的组合：
Spark的书：
http://www.amazon.com/Learning-Spark-Lightning-Fast-Data-Analys
+
Spark AMPCamp训练:
http://ampcamp.berkeley.edu/
+
Flink的batch文档:
http://ci.apache.org/projects/flink/flink-docs-master/apis/prog
+
Flink的streaming文档:
http://ci.apache.org/projects/flink/flink-docs-master/apis/stre
+
Flink的online trainin... 阅读全帖

z*******3
发帖数: 13709

来自主题: Programming版 - IBM is all into Spark

怎么可能不值一驳
diversity好，软件产品尤其需要diversity
一家独大对谁来说都是不利的
现阶段flink还没有正式推出，有点像当年我们搞storm时候看spark的感觉
倒是如果你想contribute的话，这个时候是非常好的参与flink的机会
spark人满为患，这个时候再凑过去，顶多就是一个用户，人家也不需要你的贡献
spark有spark自己的问题，比如streaming就不怎样，设计上有缺陷
rdd是好东西，但是把所有的东西都搞成rdd，那又是另外一回事了
就像singlethreadness是容易，但是把所有东西都搞成single thread
那又是另外一回事了，flink的core就是streaming的，如果你对scala还有java敏感的话
应该可以感觉出来，streaming好像是future啊，streaming一捅到底那种感觉非常美妙
完全畅通无阻那种感觉，vert.x和flink都在强调streaming，还有scala那一堆东西
比起flink来说，vert.x的机会更大
vert.x替代akka应该是大势所趋，akka稍微复杂一点的rea... 阅读全帖

z*******3
发帖数: 13709

来自主题: Programming版 - IBM is all into Spark

spark的streaming的对比看这个slides
http://www.slideshare.net/ptgoetz/apache-storm-vs-spark-streami
flink还没推出，但是从设计上看，应该不会有类似的问题
我感觉最近streaming的需求越来越强烈
需要一个针对前后端都能够搞streaming的东东
vert.x是一个很不错的选择，但是vert.x对付c*之类的nosql，还显得工具偏少
另外mllib这些lib目前只能host在spark,flink这些上面，vert.x还缺少类似的libs
vert.x毕竟更为general一些，但其实你自己琢磨琢磨也没啥难的
无非那么一回事了，mapreduce那些api，跟rxjava有很大重叠
可以用rxjava实现一遍，主要是算法，mllib部分，clustering，svm etc.
api的话，什么flatmap，streaming之类的rx都有了，vert.x成熟之后大有可为
vert.x, rxjava, flink这些逐步走向成熟，过程值得学习和参考
当然spark之类已经取得巨大成功的更值得... 阅读全帖

z****e
发帖数: 54598

来自主题: Programming版 - scala/spark现在情况怎样？

这个观念是错误的
netty是比akka底层
但是vert.x绝对不比akka底层
几乎是平级的一个东西
都是actor model的实现，怎么会比akka底层？
netty是网络socket的一个封装
spark用akka的一个主要原因是当时他们只有akka可以用
akka诞生于09年，vert.x诞生于11年，差不多到了今年才算稳定下来
而spark开始于10年，vert.x比spark还年轻，怎么可能让spark去用？

n******7
发帖数: 12463

来自主题: Programming版 - 单机学习spark/hadoop的方案？

謝謝鼓励
我搜了一下，spark这个data.frame跟Ｒ和python的概念上是一致的，这个我很熟
我想学spark另外一个因素就是想看看spark跟单机的工具对比起来有什么异同
在我们行业里面使用的话，会有多大优势
很多东西都是听人说，自己不摸一下没感觉
我最近找工作才发现java远比我想象的流行，觉得jvm上面的东西还是值得投资的
能大致说一下你们招人主要看什么吗？如果对用Ｒ/python 处理data和ML比较熟悉，再
有一些spark的经验，够不够？需要scala/nosql方面的知识吗？

a*****s
发帖数: 1121

来自主题: Programming版 - spark load数据速度

单从你的数据量上看，九个节点已经不错了。aws上的都是VM instance，100个不一定
有你的9个物理机器快。
wdong分析的很到位，个人感觉你的程序需要并行，spark有两级并行，选择executor的
数量，然后，选择每个executor上多少parallelism，spark prefer 大内存fat node，
如果你的机器内存不大, 恐怕效果一般，跟写mapreduce相差不多（你只是parsing），
如果可能，用SSD替换硬盘，加大内存。检查网络速度，是10GE还是1GE，压缩你的数据
（HDFS支持snappy）
用AWS从S3到本地HDFS就把你时间耗去大半，不划算。
光spark的tuning就有很多可做的，而且用spark的目的也就是为了并行。
楼主贴些详细信息，大家也可以帮你分析分析

S*******e
发帖数: 525

来自主题: Programming版 - Spark 和 Tensorflow 线性回归问题

刚开始看一些Spark ML和Tensorflow的基本东西，看到下便两个程序的结果很糊涂：
为什么这么大的差异？
https://github.com/backstopmedia/tensorflowbook/blob/master/chapters/04_
machine_learning_basics/linear_regression.py
在以上程序加一行 print("w=", W.eval(), "b=", b.eval())，得到结果是
w= [[ 3.5245235 ]
[ 1.50171268]] b= 1.14499
所以 y=3.5245235x1 + 1.50171268x2 +1.14499
我用同样的数据 (格式附后）
https://github.com/apache/spark/blob/master/examples/src/main/java/org/
apache/spark/examples/ml/JavaLinearRegressionWithElasticNetExample.java
结果是：
Coefficients: [0.3827... 阅读全帖

T*****u
发帖数: 7103

来自主题: Programming版 - 问个spark的问题

在emr上跑了一个spark的cluster, 想用它处理我们在rds上postgres里的数据
ssh到master, run
/usr/lib/spark/bin/pyspark --driver-class-path ./postgresql-9.4.1211.jar --
conf spark.executor.extraClassPath=./postgresql-9.4.1211.jar --jars ./
postgresql-9.4.1211.jar
进去之后然后运行
>>> df = spark.read.format('jdbc').options(url=dbstring).options(dbtable='
users').options(driver='org.postgresql.Driver').load()
在本地的docker里面都没问题。但在这里出现问题
py4j.protocol.Py4JJavaError: An error occurred while calling o53.load.
在security group里面加了inbound
P... 阅读全帖

n*****3
发帖数: 1584

来自主题: DataSciences版 - Kafka, Spark Streaming, ElasticSearch for Business Intelli

谢谢指点。构架差不多，但什么时候用 SPARK／STREAM，什么时候scala（
independent of Spark），好像还要很多trick， spark／stream 毕竟太新了。。。
BTW tableau 是很好，但 computing 方面还比较弱；我们其他projects 是 call R
do some
calculation／simple model，但 to fitin THE spark EGO system， we have
not found any good solution yet.

J*******i
发帖数: 2162

来自主题: DataSciences版 - 学习spark是否需要懂scala？

请问如果要开始学spark，以及想以后能contribute code到spark
是不是一定要熟练掌握scala?
如果只会python和java，能搞定spark里所有的东西吗？
如果不单单是使用，而且还想要contribute code，spark的code base是用scala写的么？
多谢先
[发表自未名空间手机版 - m.mitbbs.com]

J*******i
发帖数: 2162

来自主题: DataSciences版 - 学习spark是否需要懂scala？

m*****r
发帖数: 551

来自主题: Automobile版 - 换spark plugs 出问题了，请教

昨天手痒把spark plugs 换了，然后就有点rough idle. 开机要半天才达到600rpm.
今天check engine light亮了，扔出来P1188,1189,0170,0173.
查了一下怎么都是MAF的Code啊。前几天都清理过MAF,Idle Control Valve了，换
spark plugs前一直好好的。
现在等着车冷，我是该把spark plugs 一个个换回去还是一下子全部换回去啊？
谢谢.

b*****e
发帖数: 762

来自主题: Automobile版 - 发动机spark knock并且混合气过稀（ＬＥＡＮ）

手动车。某一天不小心带速时候猛抬了一脚离合。于是熄火了。结果第二天发现在急加
速的时候发动机会哗啦哗啦响。根据本地车行的诊断这个是spark knock。并且我
youtube上的视频也完全符合这个症状。然后，我就加了一些cleaner到燃油里，又烧掉
了1箱premium的油。在这过程中check engine亮了，检查发现是混合气过稀。2个月前
换的氧传感器，一直都没问题。所以应该不是氧传感器的问题。是不是我那个时候抬离
合导致点火时机出问题了，要调整点火时机了？还是仅仅是那个时候刚好发生的，跟抬
离合没什么必然联系，换一下燃滤就可以了？由于我的spark knock在热车的时候非常
明显，是不是我也要考虑冷却水循环水泵有问题导致了引擎局部冷却不足？还有没有别
的可能性？上次花了100多才检查出来是spark knock。这次先自己诊断一下，如果实在
不行了再送去做engine diagnosis，估计还要上百。还不知道修好要多少钱。。。

T*****g
发帖数: 424

来自主题: Automobile版 - 还未确定出现misfire，spark plug和coil等有必要换么？

我这个车manual说48个月或者6w麦该换spark plug，到现在6年了，今年才买的二手车
，基本确定前任车主没有更换过spark plug和coil等。
前天出现了misfire的症状，check engine light 也亮了，初步用OBD meter发现是两
个缸出现了misfire，而这两个缸share同一个coil。
结果昨天和今天又没有感觉到misfire了，check engine light也没有再亮过，因为我
这个棒子车换spark plug比较麻烦，要花大概 $500，而且麦数很低，才3w麦多一点
我的意思是，既然已经出现过misfire，而且按照manual也应该换了，是不是就割肉换
了好了？

W****y
发帖数: 772

来自主题: Automobile版 - 换四个spark plug$160，这个价格靠不靠谱？

http://www.ngksparkplugs.com/pdf/tb-0630111antisieze.pdf
"Summary:
All spark plugs that have a blackened or dull appearance on the metal body
offer no protection against
seizing or bonding to the cylinder head and so it is with these spark plugs
that anti-seize would be
required. A spark plug that has a shiny silver appearance on the metal body
usually indicates that the
plug is manufactured with metal shell plating and therefore will not require
anti-seize."

t****3
发帖数: 6964

来自主题: Automobile版 - 有人自己换过，spark plugs 的吗？

四缸很好换，六缸有的spark plug位置会比较难接触到。需要专门的spark plug
socket把spark plug取出来。

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

topics

未名新帖统计// 7月16日

历史上的今天