由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - Spark请教。
相关主题
spark is slower than java Mapreduce --scala big bulls pls adviseSpark已经out了,能跳船的赶快
怎样schedule spark application关于spark的cache问题一直没想清楚
把不同 AKKA actor 里的数据 merge 到 spark RDD 的最佳方式?Spark RDD
spark 到底牛在什么地方?请教一下,各位牛人觉得Rust语言怎么样?
spark RDD不能当K/V store是吧?学scala和spark需要什么pre req?
Spark PK Akka 完胜呀试了下spark,不过如此啊
spark看了一边 没什么难点啊。7天掌握已经全上内存了,还要40多秒啊
Spark 和 Dynamodb 之间 如何 连接Spark会干掉Storm吗?
相关话题的讨论汇总
话题: spark话题: pdf话题: rdd话题: val话题: import
进入Programming版参与讨论
1 (共1页)
w****w
发帖数: 521
1
问题很简单,需要从几十万个pdf文件中抓点东西。java的程序已经有了,一个pdf输入
,产生一个csv文件。
我的基本思路是,做一个RDD,第一列是读进来的pdf binary,第二列是根据输入文件名
产生的输出文件名,然后就可以送到各个node上去抓了,最后根据输出名把结果合并成
1000个左右的输出文件。
熟悉spark的朋友能否给个框架?
n*****3
发帖数: 1584
2
RDD is dead, use dataframe instead.

【在 w****w 的大作中提到】
: 问题很简单,需要从几十万个pdf文件中抓点东西。java的程序已经有了,一个pdf输入
: ,产生一个csv文件。
: 我的基本思路是,做一个RDD,第一列是读进来的pdf binary,第二列是根据输入文件名
: 产生的输出文件名,然后就可以送到各个node上去抓了,最后根据输出名把结果合并成
: 1000个左右的输出文件。
: 熟悉spark的朋友能否给个框架?

w****w
发帖数: 521
3
不熟Spark。主要两个问题:怎么建这个dataframe和怎么pipe到java external
program。

【在 n*****3 的大作中提到】
: RDD is dead, use dataframe instead.
w****w
发帖数: 521
4
狗了半天解决了一半问题:
val files = sc.binaryFiles("hdfs://server/path/*.pdf")
println(files.keys.collect().mkString("\n"))
PDF内容都在files.values里。
w****w
发帖数: 521
5
有点入门了,exception还要处理一下。这里实际使用spark的人看来不多。
import my.pdf._
import collection.JavaConverters._
import collection.mutable._
def extract_func ( row: (String, org.apache.spark.input.PortableDataStream)
) =
{
val stripper = new MyStripper()
val extractor = new MyReportExtractor()
extractor.setText(stripper.getText(row._2.open));
row._2.close
extractor.getContent().asScala
}
val file_rdd = sc.binaryFiles ("/path/test/*.pdf")
file_rdd.flatMap(extract_func(_)).zipWithIndex.map(_._1).saveAsTextFile("/
path/result_test")
c*********e
发帖数: 16335
6
spark就一工具,网站上都教你怎么用了。

)

【在 w****w 的大作中提到】
: 有点入门了,exception还要处理一下。这里实际使用spark的人看来不多。
: import my.pdf._
: import collection.JavaConverters._
: import collection.mutable._
: def extract_func ( row: (String, org.apache.spark.input.PortableDataStream)
: ) =
: {
: val stripper = new MyStripper()
: val extractor = new MyReportExtractor()
: extractor.setText(stripper.getText(row._2.open));

1 (共1页)
进入Programming版参与讨论
相关主题
Spark会干掉Storm吗?spark RDD不能当K/V store是吧?
以后真的是cassandra spark的天下了?Spark PK Akka 完胜呀
谈谈为什么上scalaspark看了一边 没什么难点啊。7天掌握
coltzhao的公司还在用mongo吗?Spark 和 Dynamodb 之间 如何 连接
spark is slower than java Mapreduce --scala big bulls pls adviseSpark已经out了,能跳船的赶快
怎样schedule spark application关于spark的cache问题一直没想清楚
把不同 AKKA actor 里的数据 merge 到 spark RDD 的最佳方式?Spark RDD
spark 到底牛在什么地方?请教一下,各位牛人觉得Rust语言怎么样?
相关话题的讨论汇总
话题: spark话题: pdf话题: rdd话题: val话题: import