由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - A join B, spark里面怎么写?
相关主题
问个有关Perl Subroutine 转换到Module的问题scala应该努力成为学术圈内的工具
Python的With語句嚇著我了scala大牛入
akka/scala/jvm大牛说说用scala自己能做啥project
有因为Spark而学习Scala的吗?学scala和spark需要什么pre req?
感觉要跳scala了已经全上内存了,还要40多秒啊
大牛们给说说学习scala路径?Spark会干掉Storm吗?
二爷等牛人能给个学spark的建议不?谈谈为什么上scala
看了眼scala,觉得很杂Scala会不会把Java搞成第二个C++
相关话题的讨论汇总
话题: scala话题: tableb话题: value话题: name话题: join
进入Programming版参与讨论
1 (共1页)
b********1
发帖数: 291
1
你们都是聪明人,谁能帮忙写个例子。 就算是1对多的join.
a的变量假设是var1, var2,var3
b的变量假设是var4,var5,var6
假设var1,var4是primary key, foreign key的关系。
不管是用scala, python 还是rdd spark.
我打算先看懂哪个就学哪个.
本人编程零基础, 只会写query.
说穿了,我就是想要 create table c as
select a.*, b.var5, b.var6
from a
join b
on a.var1=b.var4
然后把c下载到excel里面看看.
网上看了半天教程, 都是天马行空的东西。
我就奇了怪了, 这么简单的事情,hadoop上怎么就这么难实现?
l*******m
发帖数: 1096
2
spark 是可以写sql的

【在 b********1 的大作中提到】
: 你们都是聪明人,谁能帮忙写个例子。 就算是1对多的join.
: a的变量假设是var1, var2,var3
: b的变量假设是var4,var5,var6
: 假设var1,var4是primary key, foreign key的关系。
: 不管是用scala, python 还是rdd spark.
: 我打算先看懂哪个就学哪个.
: 本人编程零基础, 只会写query.
: 说穿了,我就是想要 create table c as
: select a.*, b.var5, b.var6
: from a

b********1
发帖数: 291
3
谢。 你们成天几个争论这个语言长 那个语言短的 有时间上来比划比划。
我来做个裁判,看看哪个语言简洁漂亮 。
零基础的人能捉摸懂得语言才是好语言 。

【在 l*******m 的大作中提到】
: spark 是可以写sql的
g*****g
发帖数: 34805
4
就写sql就行。
http://spark.apache.org/sql/

【在 b********1 的大作中提到】
: 你们都是聪明人,谁能帮忙写个例子。 就算是1对多的join.
: a的变量假设是var1, var2,var3
: b的变量假设是var4,var5,var6
: 假设var1,var4是primary key, foreign key的关系。
: 不管是用scala, python 还是rdd spark.
: 我打算先看懂哪个就学哪个.
: 本人编程零基础, 只会写query.
: 说穿了,我就是想要 create table c as
: select a.*, b.var5, b.var6
: from a

x***4
发帖数: 1815
5
你是来问问题还是当裁判的?诚恳一点好不好。

【在 b********1 的大作中提到】
: 谢。 你们成天几个争论这个语言长 那个语言短的 有时间上来比划比划。
: 我来做个裁判,看看哪个语言简洁漂亮 。
: 零基础的人能捉摸懂得语言才是好语言 。

l******t
发帖数: 55733
6
sql本身很fp,可惜当年没从fp起步
z****e
发帖数: 54598
7
其实对于vert.x的file system来说,这个join很容易实现
就是内存中的io而已,hadoop是google,不搞点东西忽悠你怎么行?
hdfs这些就是ejb
还有一个就是,太简单傻瓜的东西,一般都是收费的
这里面有市场,因为不会写代码的傻瓜太多了
人家也没有义务来伺候傻瓜,除非给钱
l*******m
发帖数: 1096
8
我给你写一个吧
scala> val tableA = sc.parallelize(List((1, 5), (2, 3), (2, 1))).toDF("id", "
value")
tableA: org.apache.spark.sql.DataFrame = [id: int, value: int]
scala> tableA.show()
+--+-----+
|id|value|
+--+-----+
| 1| 5|
| 2| 3|
| 2| 1|
+--+-----+
scala> val tableB = sc.parallelize(List((1, "A"), (2, "B"))).toDF("id", "
name")
tableB: org.apache.spark.sql.DataFrame = [id: int, name: string]
scala> tableB.show
+--+----+
|id|name|
+--+----+
| 1| A|
| 2| B|
+--+----+
scala> tableA.join(tableB, "id").show()
+--+-----+----+
|id|value|name|
+--+-----+----+
| 1| 5| A|
| 2| 3| B|
| 2| 1| B|
+--+-----+----+

【在 b********1 的大作中提到】
: 谢。 你们成天几个争论这个语言长 那个语言短的 有时间上来比划比划。
: 我来做个裁判,看看哪个语言简洁漂亮 。
: 零基础的人能捉摸懂得语言才是好语言 。

1 (共1页)
进入Programming版参与讨论
相关主题
Scala会不会把Java搞成第二个C++感觉要跳scala了
akka, play, spark怎么学?大牛们给说说学习scala路径?
自学 scala,akka, play,spark 再刷leetcode,有机会进t 么二爷等牛人能给个学spark的建议不?
推书看了眼scala,觉得很杂
问个有关Perl Subroutine 转换到Module的问题scala应该努力成为学术圈内的工具
Python的With語句嚇著我了scala大牛入
akka/scala/jvm大牛说说用scala自己能做啥project
有因为Spark而学习Scala的吗?学scala和spark需要什么pre req?
相关话题的讨论汇总
话题: scala话题: tableb话题: value话题: name话题: join