问一道HIVE题关于Efficiency - Programming版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - 问一道HIVE题关于Efficiency

相关主题
● big data,菜凉?	● Hadoop运行时是不是用命令行执行的？Hadoop和Java有什么联系？
● How to design a database model related to six degree of se (转载)	● 关于mapreduce一问
● 问一道面试题	● Google的那个mapreduce的paper感觉基本是看过这类paper里最简单的了
● 怎么efficiently实现next_combination?	● 是否值得把业务逻辑做到Hbase coprocessor里面?
● question about using Hive parameter (转载)	● aws EMR能设置一个mapper吗？
● error of sql query in MS Access database (转载)	● 问一个mapreduce题目
● Error of SQL query on IBM netezza SQL database from Aginity (转载)	● example that C is more efficient than C++?
● coltzhao的公司还在用mongo吗？	● 这个同学很神

相关话题的讨论汇总
话题: query话题: hive话题: efficiency话题: select话题: table1

进入Programming版参与讨论

1

(共1页)

s*****t 发帖数: 119	1 下面两个HIVE query做同一件事情，请问那个query更efficient？假设在Map Reduce的 frame work 下 Query 1: select id, count(distinct value) values from table1 group by id; Query 2: select a.id, sum(1) values from (select distinct id, value from table1 )a group by a.id ; 另外请有哪本书或视频讲HIVE的query efficiency吗
T*******x 发帖数: 8565	2 这两个逻辑相等吗？【在 s*****t 的大作中提到】 : 下面两个HIVE query做同一件事情，请问那个query更efficient？假设在Map Reduce的 : frame work 下 : Query 1: : select id, count(distinct value) values : from table1 : group by id; : Query 2: : select a.id, sum(1) values : from : (select distinct id, value
s*****t 发帖数: 119	3 如果假设id和value没有null，结果应该是一样的吧？【在 T*******x 的大作中提到】 : 这两个逻辑相等吗？
T*******x 发帖数: 8565	4 哦。是的。【在 s*****t 的大作中提到】 : 如果假设id和value没有null，结果应该是一样的吧？
T*******x 发帖数: 8565	5 我觉得1会快一些，因为2中的subquery本身就需要一次MapReduce，所以2需要两次 MapReduce，而1只需要1次。不过Hive到底是怎样把query转换成MapReduce的，我也不是很清楚。但是这两个query 如果自己写MapReduce实现的话，好像应该是这样。【在 s*****t 的大作中提到】 : 下面两个HIVE query做同一件事情，请问那个query更efficient？假设在Map Reduce的 : frame work 下 : Query 1: : select id, count(distinct value) values : from table1 : group by id; : Query 2: : select a.id, sum(1) values : from : (select distinct id, value
s*****t 发帖数: 119	6 嗯有道理我也比较疑惑这是一道面试题我先答的1，面试官问有没有其他更efficient的解法我说可以用2做，但不知道是不是更efficient 面试官提示说，可以考虑一下哪些特定情况哪个更好些最后还是没答上来，对底层的MapReduce还是不熟 query 【在 T*******x 的大作中提到】 : 我觉得1会快一些，因为2中的subquery本身就需要一次MapReduce，所以2需要两次 : MapReduce，而1只需要1次。 : 不过Hive到底是怎样把query转换成MapReduce的，我也不是很清楚。但是这两个query : 如果自己写MapReduce实现的话，好像应该是这样。

1

(共1页)

进入Programming版参与讨论

相关主题
● 这个同学很神	● question about using Hive parameter (转载)
● template metaprogramming 的问题	● error of sql query in MS Access database (转载)
● how to implement binary tree efficiently?	● Error of SQL query on IBM netezza SQL database from Aginity (转载)
● What's the efficient way to merge two BST?	● coltzhao的公司还在用mongo吗？
● big data,菜凉?	● Hadoop运行时是不是用命令行执行的？Hadoop和Java有什么联系？
● How to design a database model related to six degree of se (转载)	● 关于mapreduce一问
● 问一道面试题	● Google的那个mapreduce的paper感觉基本是看过这类paper里最简单的了
● 怎么efficiently实现next_combination?	● 是否值得把业务逻辑做到Hbase coprocessor里面?

相关话题的讨论汇总
话题: query话题: hive话题: efficiency话题: select话题: table1

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)