问个题　weighted random sampling - JobHunting版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

JobHunting版 - 问个题　weighted random sampling

相关主题
● 问个题	● c++定义bignum
● 问个题：找read-only array中duplicate的数	● 我发现我竟然学会了12种tree traversal的办法
● 问个题	● 请问怎样写没有parent pointer的BST iterator?
● 问一道微软面试题	● L家的高频题merge k sorted arrays giving iterators求讨论！
● 一个经典的随机数的问题。求教。	● A, A, G, G, L, C, Z, U 面经＋ offer
● 请教一道产生随机数的问题	● reverse an array
● Google电面	● 看到一个题目
● 失荆州 - G电面经	● 问个stl的iterator问题

相关话题的讨论汇总
话题: sum话题: max话题: weight话题: random话题: 产生

进入JobHunting版参与讨论

(共1页)

j*****n
发帖数: 1545

１个ａｒｒａｙ里面每个数对应１个ｗｅｉｇｈｔ,比如［１,２,３］的　ｗｅｉｇｈ
ｔ　分别是［１０,２０,３０］,　叫你从［１,２,３］里面按照ｗｅｉｇｈｔ产生１
个随机数，　比如这里面，产生３的概率是产生１的概率的３倍。
简单的做法就是把这些ｗｅｉｇｈｔ加起来，从［１０,２０,３０］变成［１０，３０
，６０］，然后产生１个从［０，６０］的uniform随机数，看这个数是在哪个区间，
［０，１０］，［１０,３０］还是［３０,６０］　就知道应该返回１，２，３中间哪
个了。
问题是有没有做法可以不需要执行这个ｓｕｍ的过程，因为如果ａｒｒａｙ很大很大，
这种ｓｕｍ很可能就ｏｖｅｒｆｌｏｗ了。

h****e
发帖数: 928

用double存sum不行吗？

【在 j*****n 的大作中提到】

: １个ａｒｒａｙ里面每个数对应１个ｗｅｉｇｈｔ,比如［１,２,３］的　ｗｅｉｇｈ
: ｔ　分别是［１０,２０,３０］,　叫你从［１,２,３］里面按照ｗｅｉｇｈｔ产生１
: 个随机数，　比如这里面，产生３的概率是产生１的概率的３倍。
: 简单的做法就是把这些ｗｅｉｇｈｔ加起来，从［１０,２０,３０］变成［１０，３０
: ，６０］，然后产生１个从［０，６０］的uniform随机数，看这个数是在哪个区间，
: ［０，１０］，［１０,３０］还是［３０,６０］　就知道应该返回１，２，３中间哪
: 个了。
: 问题是有没有做法可以不需要执行这个ｓｕｍ的过程，因为如果ａｒｒａｙ很大很大，
: 这种ｓｕｍ很可能就ｏｖｅｒｆｌｏｗ了。

l*****a
发帖数: 14598

也overflow呢？

【在 h****e 的大作中提到】

: 用double存sum不行吗？

h****e
发帖数: 928

那就用BigNum之类的。

【在 l*****a 的大作中提到】

: 也overflow呢？

k***g
发帖数: 58

把数都放到int array，size of sum，O(1)即可，也不用search了
★ Sent from iPhone App: iReader Mitbbs 7.56 - iPad Lite

X*K
发帖数: 87

是个办法，不过sum都溢出了，这array得有多大。

j*****n
发帖数: 1545

就是一些海量数据的玩意，我现在是把每个数都先scale down 一下，再加，会好一些
。搜了一下也没有什么好办法，都还是得加一加

g***s
发帖数: 3811

max_v = 0;
for i = 1 to n{
if (weight[i] > max_v) {
sum = sum * (max_v / weight[i]) ;
max_v = weight[i];
}
sum += weigh[i] / max_v;
if ( random(1) <= ( (weight[i]/max_v) / (sum) )
r = a[i];
}
return r;
max_v is alway the max value of weigh [0..i]
sum <= i

【在 j*****n 的大作中提到】

j*****n
发帖数: 1545

先顶再看

l******n
发帖数: 9344

divided by sum to turn to [0,1] and then generate a [0,1] uniform

【在 j*****n 的大作中提到】

相关主题
● 请教一道产生随机数的问题	● c++定义bignum
● Google电面	● 我发现我竟然学会了12种tree traversal的办法
● 失荆州 - G电面经	● 请问怎样写没有parent pointer的BST iterator?
进入JobHunting版参与讨论

m*********e
发帖数: 13

如果数组大到让sum溢出，那么scale down也会underflow。
我想可以用Metropolis–Hastings，也就是选random pick一个数x1，再random pick一
个数x2,如果weight of x2大于weight of x1，改变状态到x1，否则以一定概率到x2。
After burning in like 10000 iterations, 后面产生的就是要的sample.
这不像是面试SDE的问题，楼主面的是什么职位可以告知么？

j*****n
发帖数: 1545

M-H should work, but getting a good proposal distributon is not easy.
proving detailed balance is hard.
Just a bonus question for machine learning data scientist position.

【在 m*********e 的大作中提到】

: 如果数组大到让sum溢出，那么scale down也会underflow。
: 我想可以用Metropolis–Hastings，也就是选random pick一个数x1，再random pick一
: 个数x2,如果weight of x2大于weight of x1，改变状态到x1，否则以一定概率到x2。
: After burning in like 10000 iterations, 后面产生的就是要的sample.
: 这不像是面试SDE的问题，楼主面的是什么职位可以告知么？

g***s
发帖数: 3811

就是一道稍微改编的 weighted reservoir sampling algorithm.
始终记录到目前数字weight的最大值。然后用它scale。不能用sum进行scale。

【在 m*********e 的大作中提到】

j*****n
发帖数: 1545

I agree, it is the best answer so far, in my mind.

【在 g***s 的大作中提到】

: 就是一道稍微改编的 weighted reservoir sampling algorithm.
: 始终记录到目前数字weight的最大值。然后用它scale。不能用sum进行scale。

m*********e
发帖数: 13

jet你是什么背景的？我也想找data scientist之类的职位，但是这种职位似乎不愿给
没有经验的fresh grad。可是找不到工作我又哪来的经验，在死循环中痛苦中。

Z*****Z
发帖数: 723

~~~~rrdw：这里是不是应该是<=?

【在 g***s 的大作中提到】

: max_v = 0;
: for i = 1 to n{
: if (weight[i] > max_v) {
: sum = sum * (max_v / weight[i]) ;
: max_v = weight[i];
: }
: sum += weigh[i] / max_v;
: if ( random(1) <= ( (weight[i]/max_v) / (sum) )
: r = a[i];
: }

g***s
发帖数: 3811

yes. typo.

【在 Z*****Z 的大作中提到】

:
: ~~~~rrdw：这里是不是应该是<=?
:

j*****n
发帖数: 1545

h****e
发帖数: 928

用double存sum不行吗？

【在 j*****n 的大作中提到】

l*****a
发帖数: 14598

也overflow呢？

【在 h****e 的大作中提到】

: 用double存sum不行吗？

相关主题
● L家的高频题merge k sorted arrays giving iterators求讨论！	● 看到一个题目
● A, A, G, G, L, C, Z, U 面经＋ offer	● 问个stl的iterator问题
● reverse an array	● Bloomberg 电面
进入JobHunting版参与讨论

h****e
发帖数: 928

那就用BigNum之类的。

【在 l*****a 的大作中提到】

: 也overflow呢？

k***g
发帖数: 58

把数都放到int array，size of sum，O(1)即可，也不用search了
★ Sent from iPhone App: iReader Mitbbs 7.56 - iPad Lite

X*K
发帖数: 87

是个办法，不过sum都溢出了，这array得有多大。

j*****n
发帖数: 1545

就是一些海量数据的玩意，我现在是把每个数都先scale down 一下，再加，会好一些
。搜了一下也没有什么好办法，都还是得加一加

g***s
发帖数: 3811

j*****n
发帖数: 1545

先顶再看

l******n
发帖数: 9344

divided by sum to turn to [0,1] and then generate a [0,1] uniform

【在 j*****n 的大作中提到】

m*********e
发帖数: 13

j*****n
发帖数: 1545

g***s
发帖数: 3811

相关主题
● hash_map 的遍历问题	● 问个题：找read-only array中duplicate的数
● how to query in the universal hash table?	● 问个题
● 问个题	● 问一道微软面试题
进入JobHunting版参与讨论

j*****n
发帖数: 1545

I agree, it is the best answer so far, in my mind.

【在 g***s 的大作中提到】

: 就是一道稍微改编的 weighted reservoir sampling algorithm.
: 始终记录到目前数字weight的最大值。然后用它scale。不能用sum进行scale。

m*********e
发帖数: 13

Z*****Z
发帖数: 723

~~~~rrdw：这里是不是应该是<=?

【在 g***s 的大作中提到】

g***s
发帖数: 3811

yes. typo.

【在 Z*****Z 的大作中提到】

:
: ~~~~rrdw：这里是不是应该是<=?
:

b********r
发帖数: 620

the idea is great, but just picking bone from egg, why sum<=1? do i miss
anything?

【在 g***s 的大作中提到】

(共1页)

进入JobHunting版参与讨论

相关主题
● 问个stl的iterator问题	● 一个经典的随机数的问题。求教。
● Bloomberg 电面	● 请教一道产生随机数的问题
● hash_map 的遍历问题	● Google电面
● how to query in the universal hash table?	● 失荆州 - G电面经
● 问个题	● c++定义bignum
● 问个题：找read-only array中duplicate的数	● 我发现我竟然学会了12种tree traversal的办法
● 问个题	● 请问怎样写没有parent pointer的BST iterator?
● 问一道微软面试题	● L家的高频题merge k sorted arrays giving iterators求讨论！

相关话题的讨论汇总
话题: sum话题: max话题: weight话题: random话题: 产生

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天