Yelp 面经 - JobHunting版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

相关主题
● 请教F家和T家最近的一道常见题	● 一道概率题目
● Google电面	● 问一道Amazon的老题
● 一个经典的随机数的问题。求教。	● 求教Careercup 150 上的一道题目
● 如果给随即函数rand[1,5] 如何产生rand[1,7]	● Pick k lines from a large file randomly uniformly distributed
● 一道老题	● 请教个弱题:random generator: from 1~5 to 1~7
● 这个copy random link真不容易写对	● card shuffle的算法我自己都想不出来
● 请教狗狗题：复制带随机指针的链表	● 电面问题求解答~~
● 问一道题	● 明天去G家onsite LC刷了0.8遍

相关话题的讨论汇总
话题: random话题: 概率话题: 返回值话题: reservoir话题: sampling

进入JobHunting版参与讨论

(共1页)

i********m
发帖数: 332

刚面完的Yelp skype interview.
题目是这样的：I have a very large text file, many gigabytes. I want a
uniform random sample of exactly k lines. Write a program to read the file
and print the random sample.
We assume we have n lines in the file.
我说假设memory可以handle的话用一个hashmap就解决了， key 是行数，value 就是
string。她说可以，但是如果memory不能handle怎么办。我说算一下string的
hashCode(). 她说可以但是你怎么能根据hashCode() 找到String。我说那就用一个B
+ 数建立index 吧。然后告诉她怎么build这么一个B+树，用bulk loading。然后她
说， good，你把她写出来吧。我顿时就汗颜了，麻痹的1000多行的B+数
implementation 让我写出来不是扯淡么，我说我用文字描述行不。她说可以。真心
蛋疼。不知道有什么好方法可以不用B+树的望指点。
开头20分钟问了我的project，她是做search 的，问我的project怎么建的index，用
的什么方法，怎么做的search，这些我都high level的跟她说了说，她貌似都懂了
，但是问的这个问题实在是蛋疼啊。大家给点意见。

x*******5
发帖数: 152

It seems fit reservoir sampling problem. Without knowing the total number,
but do want uniform k lines. B+ tree is overkill

g****y
发帖数: 240

reservoir sampling

i********m
发帖数: 332

什么是reservoir sampling 啊这题要写code 要involve到底层 DB -> read() 和 DB
->write()的东西啊这不扯淡么还是说有什么好方法可以做出来的？

l*****a
发帖数: 14598

楼上的不是告诉你这个题目的名称了吗
你怎么还不去喳喳，反而在这里扯到什么DB上

DB

【在 i********m 的大作中提到】

: 什么是reservoir sampling 啊这题要写code 要involve到底层 DB -> read() 和 DB
: ->write()的东西啊这不扯淡么还是说有什么好方法可以做出来的？

K*********n
发帖数: 2852

听说你Skype视频结束以后，一怒之下给对方发了一条消息：wocao

个B

【在 i********m 的大作中提到】

: 刚面完的Yelp skype interview.
: 题目是这样的：I have a very large text file, many gigabytes. I want a
: uniform random sample of exactly k lines. Write a program to read the file
: and print the random sample.
: We assume we have n lines in the file.
: 我说假设memory可以handle的话用一个hashmap就解决了， key 是行数，value 就是
: string。她说可以，但是如果memory不能handle怎么办。我说算一下string的
: hashCode(). 她说可以但是你怎么能根据hashCode() 找到String。我说那就用一个B
: + 数建立index 吧。然后告诉她怎么build这么一个B+树，用bulk loading。然后她
: 说， good，你把她写出来吧。我顿时就汗颜了，麻痹的1000多行的B+数

K*********n
发帖数: 2852

电面考到这个是不是有点过分啊……

【在 g****y 的大作中提到】

: reservoir sampling

D**********d
发帖数: 849

不如先 random sample k 个在 1...S 里的数，然后直接取相应的行数。这样只是 O
(K), 用 reservoir sampling 要 O(S).

i********m
发帖数: 332

是啊面完一激动打了一个 wocao 给那个interview的人然后立马说 sorry it's a
typo

h****n
发帖数: 2094

完全不对路。当然让你写B树
哈哈。

个B

【在 i********m 的大作中提到】

相关主题
● 这个copy random link真不容易写对	● 一道概率题目
● 请教狗狗题：复制带随机指针的链表	● 问一道Amazon的老题
● 问一道题	● 求教Careercup 150 上的一道题目
进入JobHunting版参与讨论

g*****e
发帖数: 282

+1

O

【在 D**********d 的大作中提到】

: 不如先 random sample k 个在 1...S 里的数，然后直接取相应的行数。这样只是 O
: (K), 用 reservoir sampling 要 O(S).

i********m
发帖数: 332

大家说说我最后打了一个wocao过去不会有事吧她不会去google吧
当时一激动没来得及看当前的窗口就直接发过去了后悔啊

C***U
发帖数: 2406

你好逗
哈哈

【在 i********m 的大作中提到】

: 是啊面完一激动打了一个 wocao 给那个interview的人然后立马说 sorry it's a
: typo

i********m
发帖数: 332

这题能不能这么做。
用一个random generator每次generate一个0到1的数 say ram
每次用k/n 和这个 ram 比较，如果k/n=，throw away
然后去下一行。

s******x
发帖数: 417

http://www.profanechinese.com/profanechinese.com.test/forums/ch
这个是wo cao的google第一搜索答案，如果HR去搜，你肯定挂。

s**r
发帖数: 390

这样会出现重复的吧

O

【在 D**********d 的大作中提到】

: 不如先 random sample k 个在 1...S 里的数，然后直接取相应的行数。这样只是 O
: (K), 用 reservoir sampling 要 O(S).

i********m
发帖数: 332

这个挂了是肯定的就怕影响以后啊

【在 s******x 的大作中提到】

: http://www.profanechinese.com/profanechinese.com.test/forums/ch
: 这个是wo cao的google第一搜索答案，如果HR去搜，你肯定挂。

c********t
发帖数: 5706

又学习了，可是看看下面wiki解释的sudo codes，不是uniform啊，i=k+1时候被置换的
概率比 i 极大的时候高很多啊。
array R[k]; // result
integer i, j;
// fill the reservoir array
for each i in 1 to k do
R[i] := S[i]
done;
// replace elements with gradually decreasing probability
for each i in k+1 to length(S) do
j := random(1, i); // important: inclusive range
if j <= k then
R[j] := S[i]
fi
done

【在 g****y 的大作中提到】

: reservoir sampling

c********t
发帖数: 5706

好像可以，可是会这么简单吗？

O

【在 D**********d 的大作中提到】

: 不如先 random sample k 个在 1...S 里的数，然后直接取相应的行数。这样只是 O
: (K), 用 reservoir sampling 要 O(S).

B***i
发帖数: 724

这个题我也出过。本来是要给一个同胞放水的。 sigh.
给总行数n是最简单的一种case. 解法就是先随机生成k个1..n之间的随机数，然后一次
遍历下去，遇到相应的数字就输出。就是那么简单。这种方法对付sampling with /
without replacement 都管用。
稍微再难点，不知道n. 当然可以先一遍扫描求出n.
其实这些都是垫场热身的。后面的问题是要用map-reduce的方法在极大的data下
sample. map-reduce 可以求n, 但是不好给每个sample一个序列号。
类似的问题有求中位数，求99 percentile之类的。

相关主题
● Pick k lines from a large file randomly uniformly distributed	● 电面问题求解答~~
● 请教个弱题:random generator: from 1~5 to 1~7	● 明天去G家onsite LC刷了0.8遍
● card shuffle的算法我自己都想不出来	● 一个概率+编程题。
进入JobHunting版参与讨论

l*****n
发帖数: 577

what is 99 percentile ?

e***s
发帖数: 799

是uniform的，你看wiki有关reservoir sampling 的中文版，有证明。

【在 c********t 的大作中提到】

: 又学习了，可是看看下面wiki解释的sudo codes，不是uniform啊，i=k+1时候被置换的
: 概率比 i 极大的时候高很多啊。
: array R[k]; // result
: integer i, j;
: // fill the reservoir array
: for each i in 1 to k do
: R[i] := S[i]
: done;
: // replace elements with gradually decreasing probability
: for each i in k+1 to length(S) do

e***s
发帖数: 799

这样可以吗？
第一，我们应该是不知道S啊，怎么random（1， S)
第二，有可能出现重复。

O

【在 D**********d 的大作中提到】

: 不如先 random sample k 个在 1...S 里的数，然后直接取相应的行数。这样只是 O
: (K), 用 reservoir sampling 要 O(S).

m*****k
发帖数: 731

是这个八
http://blog.csdn.net/wuzhekai1985/article/details/6597351
eg4.12：有一个长度为N的链表，N未知。希望你只遍历一次链表，就从链表中等概率
的挑出K个数。 -- TopLanguage
某博客的解法，非常好 http://blog.csdn.net/potty15/article/details/6221715
a：首先挑出前k个数，保存在pick[1...k]中，然后从第k+1个开始遍历
for i = k+1 to N do //这里N不知道，但是可以用链表->next == null 来判断是否到
达链表末尾。
r = random(1, i);
if (1 <= r <= k);
pick[r] = i;
简单数学证明如下：
归纳法，算法刚开始，对于前k个数被选中的概率都为1，，不失一般性，选择其中的第
j个来讨论，
i = k+1轮：
random(1, i)返回值为j的概率为1/k+1，所以j保留下来的概率为k/k+1
i = k+2轮：
random(1, i)返回值为j的概率为1/k+2，所以j保留下来的概率为(k/k+1) * (k+1/k+2)
= k/k+2
...
i = N轮
random(1, i)返回值为j的概率为1/N，所以j保留下来的概率为(k/k+1) * (k+1/k+2)*.
...* (N-1/N) = k/N
对于第k+1到第N个数，选择其中的数m来讨论，
当i = m时：
random(1, i)返回值在[1, k]内的概率为k/m，所以j保留下来的概率为k/m，设m保存在
第s位
i = m+1轮：
random(1, i)返回值为s的概率为1/(m+1)，所以j保留下来的概率为(k/m) * (m/m+1) =
k/(m+1)
...
i = N轮
random(1, i)返回值为s的概率为1/N，所以j保留下来的概率为(8/m) * (m/m+1) *....
* (N-1/N) = k/N
得证。

个B

【在 i********m 的大作中提到】

i********m
发帖数: 332

x*******5
发帖数: 152

It seems fit reservoir sampling problem. Without knowing the total number,
but do want uniform k lines. B+ tree is overkill

g****y
发帖数: 240

reservoir sampling

i********m
发帖数: 332

什么是reservoir sampling 啊这题要写code 要involve到底层 DB -> read() 和 DB
->write()的东西啊这不扯淡么还是说有什么好方法可以做出来的？

l*****a
发帖数: 14598

楼上的不是告诉你这个题目的名称了吗
你怎么还不去喳喳，反而在这里扯到什么DB上

DB

【在 i********m 的大作中提到】

: 什么是reservoir sampling 啊这题要写code 要involve到底层 DB -> read() 和 DB
: ->write()的东西啊这不扯淡么还是说有什么好方法可以做出来的？

K*********n
发帖数: 2852

听说你Skype视频结束以后，一怒之下给对方发了一条消息：wocao

个B

【在 i********m 的大作中提到】

相关主题
● 问一个题目	● Google电面
● 明天onsite，求下bless了	● 一个经典的随机数的问题。求教。
● 请教F家和T家最近的一道常见题	● 如果给随即函数rand[1,5] 如何产生rand[1,7]
进入JobHunting版参与讨论

K*********n
发帖数: 2852

电面考到这个是不是有点过分啊……

【在 g****y 的大作中提到】

: reservoir sampling

D**********d
发帖数: 849

不如先 random sample k 个在 1...S 里的数，然后直接取相应的行数。这样只是 O
(K), 用 reservoir sampling 要 O(S).

i********m
发帖数: 332

是啊面完一激动打了一个 wocao 给那个interview的人然后立马说 sorry it's a
typo

h****n
发帖数: 2094

完全不对路。当然让你写B树
哈哈。

个B

【在 i********m 的大作中提到】

g*****e
发帖数: 282

+1

O

【在 D**********d 的大作中提到】

: 不如先 random sample k 个在 1...S 里的数，然后直接取相应的行数。这样只是 O
: (K), 用 reservoir sampling 要 O(S).

i********m
发帖数: 332

大家说说我最后打了一个wocao过去不会有事吧她不会去google吧
当时一激动没来得及看当前的窗口就直接发过去了后悔啊

C***U
发帖数: 2406

你好逗
哈哈

【在 i********m 的大作中提到】

: 是啊面完一激动打了一个 wocao 给那个interview的人然后立马说 sorry it's a
: typo

i********m
发帖数: 332

这题能不能这么做。
用一个random generator每次generate一个0到1的数 say ram
每次用k/n 和这个 ram 比较，如果k/n=，throw away
然后去下一行。

s******x
发帖数: 417

http://www.profanechinese.com/profanechinese.com.test/forums/ch
这个是wo cao的google第一搜索答案，如果HR去搜，你肯定挂。

s**r
发帖数: 390

这样会出现重复的吧

O

【在 D**********d 的大作中提到】

: 不如先 random sample k 个在 1...S 里的数，然后直接取相应的行数。这样只是 O
: (K), 用 reservoir sampling 要 O(S).

相关主题
● 如果给随即函数rand[1,5] 如何产生rand[1,7]	● 请教狗狗题：复制带随机指针的链表
● 一道老题	● 问一道题
● 这个copy random link真不容易写对	● 一道概率题目
进入JobHunting版参与讨论

i********m
发帖数: 332

这个挂了是肯定的就怕影响以后啊

【在 s******x 的大作中提到】

: http://www.profanechinese.com/profanechinese.com.test/forums/ch
: 这个是wo cao的google第一搜索答案，如果HR去搜，你肯定挂。

c********t
发帖数: 5706

: reservoir sampling

c********t
发帖数: 5706

好像可以，可是会这么简单吗？

O

【在 D**********d 的大作中提到】

: 不如先 random sample k 个在 1...S 里的数，然后直接取相应的行数。这样只是 O
: (K), 用 reservoir sampling 要 O(S).

B***i
发帖数: 724

l*****n
发帖数: 577

what is 99 percentile ?

e***s
发帖数: 799

是uniform的，你看wiki有关reservoir sampling 的中文版，有证明。

【在 c********t 的大作中提到】

e***s
发帖数: 799

这样可以吗？
第一，我们应该是不知道S啊，怎么random（1， S)
第二，有可能出现重复。

O

【在 D**********d 的大作中提到】

: 不如先 random sample k 个在 1...S 里的数，然后直接取相应的行数。这样只是 O
: (K), 用 reservoir sampling 要 O(S).

m*****k
发帖数: 731

e***s
发帖数: 799

谢谢你的证明过程，我总算看懂了

【在 m*****k 的大作中提到】

: 是这个八
: http://blog.csdn.net/wuzhekai1985/article/details/6597351
: eg4.12：有一个长度为N的链表，N未知。希望你只遍历一次链表，就从链表中等概率
: 的挑出K个数。 -- TopLanguage
: 某博客的解法，非常好 http://blog.csdn.net/potty15/article/details/6221715
: a：首先挑出前k个数，保存在pick[1...k]中，然后从第k+1个开始遍历
: for i = k+1 to N do //这里N不知道，但是可以用链表->next == null 来判断是否到
: 达链表末尾。
: r = random(1, i);
: if (1 <= r <= k);

e***s
发帖数: 799

谢谢你的证明过程，我总算看懂了

【在 m*****k 的大作中提到】

相关主题
● 问一道Amazon的老题	● 请教个弱题:random generator: from 1~5 to 1~7
● 求教Careercup 150 上的一道题目	● card shuffle的算法我自己都想不出来
● Pick k lines from a large file randomly uniformly distributed	● 电面问题求解答~~
进入JobHunting版参与讨论

s*********n
发帖数: 191

这个题目很简单啊，cc150里概率一章的原题啊，怎么可能用B+树呢...扯得太远了吧。

【在 e***s 的大作中提到】

: 谢谢你的证明过程，我总算看懂了

f****l
发帖数: 8042

It's pronounced with two falling tones, so it sounds roughly like the
American English "Fuck me!" Essentially, that's about what it means,
although the "Wo" isn't actually "I" .
你查到的这个解释很有点...把宾主关系搞反了吧。

【在 s******x 的大作中提到】

: http://www.profanechinese.com/profanechinese.com.test/forums/ch
: 这个是wo cao的google第一搜索答案，如果HR去搜，你肯定挂。

(共1页)

进入JobHunting版参与讨论

相关主题
● 明天去G家onsite LC刷了0.8遍	● 一道老题
● 一个概率+编程题。	● 这个copy random link真不容易写对
● 问一个题目	● 请教狗狗题：复制带随机指针的链表
● 明天onsite，求下bless了	● 问一道题
● 请教F家和T家最近的一道常见题	● 一道概率题目
● Google电面	● 问一道Amazon的老题
● 一个经典的随机数的问题。求教。	● 求教Careercup 150 上的一道题目
● 如果给随即函数rand[1,5] 如何产生rand[1,7]	● Pick k lines from a large file randomly uniformly distributed

相关话题的讨论汇总
话题: random话题: 概率话题: 返回值话题: reservoir话题: sampling

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天