问一个Big Data的问题 - JobHunting版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

JobHunting版 - 问一个Big Data的问题

相关主题
● 问个设计题	● Job opening for software engineer
● 华米USA(小米手环)招Full Time Senior Backend Engineer	● 四个个软工职位内推
● 【工作机会】Principal Big Data Platform Engineer -- CA	● 内推苹果itunes部门
● 【工作机会】加州 Big Data Platform Engineer	● 10Gen 这个公司怎么样？也叫MongoDB
● 【工作机会】Principal Big Data Platform Engineer -- CA	● F家这个烂大街的system题哪位大侠仔细讲讲
● casandra 的search 功能不行	● 有没有大牛给比较一下mongodb和cassandra?
● job opening - product search & personalization	● 这个周末wwzz和zhaoce大牛来谈谈kafka吧？
● Seeking a product search engineer - New York City	● 三星samsung创新部门招大数据工程师

相关话题的讨论汇总
话题: big话题: data话题: names话题: numbers话题: key

进入JobHunting版参与讨论

1

(共1页)

p****6 发帖数: 724	1 One design question from a big data start up. Suppose you have a big file with 1 billion of record, each entry is a key value pair of name and numbers. names can be duplicate, but numbers are unique and names are sorted in the file. Give you 100 machine, design a way to query records by number, and modify/ insert a record.
r****s 发帖数: 1025	2 这么简单的问题你把1b的number hash到100台机器上，然后建立一个hash value-> host的mapping在 master node不就行了？如果复杂一点，这1b还能继续grow, 自己找consistent hashing看看。
m*****l 发帖数: 95	3 你这么做显然没考虑很多东西。比如分布式系统的冗余问题。【在 r****s 的大作中提到】 : 这么简单的问题 : 你把1b的number hash到100台机器上，然后建立一个hash value-> host的mapping在 : master node不就行了？ : 如果复杂一点，这1b还能继续grow, 自己找consistent hashing看看。
w****r 发帖数: 15252	4 wow,这个要大牛才能解啊
p****6 发帖数: 724	5 这道题的难点是query by value 而不是key，但是要求增的时候key是排序的。这是一个open question，集思广益。
g*****g 发帖数: 34805	6 Put it in C* DB, number as key, done. Want redundancy? Use RF>1, done.
z****e 发帖数: 54598	7 看看column-based nosql db 天生就是按value做index的比如楼上说的cassandra还有hbase 【在 p****6 的大作中提到】 : 这道题的难点是query by value 而不是key，但是要求增的时候key是排序的。 : 这是一个open question，集思广益。
c********l 发帖数: 8138	8 what's C* DB? 【在 g****g 的大作中提到】 : Put it in C DB, number as key, done. Want redundancy? Use RF>1, done.
c********r 发帖数: 107	9 mark
x*****n 发帖数: 195	10 hbase只有对key做index。你想快速搜索别的column需要solr或者elasticsearch做的，或者solr/elasticsearch混合hbase做。 cassandra不了解【在 z****e 的大作中提到】 : 看看column-based nosql db : 天生就是按value做index的 : 比如楼上说的cassandra还有hbase
l*****t 发帖数: 2019	11 靠谱。啥出的这种缺德的面试题呀。【在 x*****n 的大作中提到】 : hbase只有对key做index。你想快速搜索别的column需要solr或者elasticsearch做的， : 或者solr/elasticsearch混合hbase做。 : cassandra不了解

1

(共1页)

进入JobHunting版参与讨论

相关主题
● 三星samsung创新部门招大数据工程师	● 【工作机会】Principal Big Data Platform Engineer -- CA
● FYI, 做kafka的startup confluent刚成立	● casandra 的search 功能不行
● 面试准备和经验	● job opening - product search & personalization
● 帮马鬃国人经理收SDE简历	● Seeking a product search engineer - New York City
● 问个设计题	● Job opening for software engineer
● 华米USA(小米手环)招Full Time Senior Backend Engineer	● 四个个软工职位内推
● 【工作机会】Principal Big Data Platform Engineer -- CA	● 内推苹果itunes部门
● 【工作机会】加州 Big Data Platform Engineer	● 10Gen 这个公司怎么样？也叫MongoDB

相关话题的讨论汇总
话题: big话题: data话题: names话题: numbers话题: key

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)