由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
DataSciences版 - 发个狗家QA面经,已跪
相关主题
分享两个data scientist职位的面经求教分类问题中预测概率的问题
An example of cross validation not working求问一个概率题
问一道面试题零经验大妈真诚求转data analysis建议,长!!!
p value被摈弃了?如何算confidence interval之类的东西?说说浅学ML的感受
问一道概率题, FACEBOOK, data scientitst考到得. (转载)scala的主场在数学应用上 (转载)
问一个最近看到的面试题ds要刷leecode吗,
请问一个概率的问题求问编程语言的选择,学stat的往DS努力
请问一道概率题这样的数据怎么处理
相关话题的讨论汇总
话题: 概率话题: 女孩话题: household话题: 白男话题: die
进入DataSciences版参与讨论
1 (共1页)
w******e
发帖数: 1621
1
统计PHD, 先上干货
(1) 白男
a.先假设美国一个家庭里孩子数是x,给了x=0,1,2,3,4,>4的概率, (x>4的概率是0).然
后说从一堆孩子里任意sample了一个女孩,求这个女孩至少有一个姐妹的概率
b.给了一个data, 要求build一个model,open end没有答案
(2) 白男
a.写个程序simulate roll一个die, fair die? any die? 不止6面的die?
b.写个简单sql
c.一个超市有很多receipt,每个receipt有总价,有买了啥东西,但是超市把每个东西的
单价弄丢了,怎么算单价
(3)国女
a.说research
b.2组search query result, 怎么设计一个distance function 来比较相似度
c.类似第一个人的问题,假设一个人随机打电话给美国的一个人 来问household size,
这样有什么bias,然后问 如果打了3个电话 一个人说1个 一个人说2个 一个人说3个 要
估计unbiased est.
(4)三哥
a. 解释logistic regression
b. 给了个scatter plot要求build model,要求mlr
(5)国男
a. 行为问题
b. 一个广告,给了10个人看,1个人点了,点击率怎么估计,可性度怎么估计
c. 2个广告,怎么比较点击率
d. 怎么从一个圆里sample点
再谈感想:
所有有答案的题都答出来了,不过第一面的第一题要了hint. open end的题都答了 就
不知道答没答到点子上了。11月初面的,面完回来就立马从了别的offer,因为很明显
google QA 不是我最想干的。别的offer是SDE,更感兴趣一些。然后忙毕业。这周发现
都快一个月了,就催来了拒信。
几个面试官从态度从nice到mean排的话是
阿三=白男2=国果>白男1>>国女
技术从强到弱排的话应该是
白男1>阿三=白男2=国女>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>国男
白男1一看就是那种只care技术不care communication的geek,他的question看的出来都
是自己精心准备的.全程无表情.model题里藏了很多陷阱,发现了几个,估计还有很多
我肯定没有全发现
白男2应该是个cs背景,爱问稍微偏coding一点的题。
国女不说了,从开始看到用英文名就知道不好对付,果然上来就是一副“你丫这个
research老娘看5分钟就比你干5年懂得多了”的调调,其他问题也是全神灌注找你的漏
洞,distance function哪题,我发现一个错误已经改了,国女已经按捺不住冲上白板
就是写了个例子说你这个不行,我只好陪个笑脸说 我这个意识到了 已经改了
三哥人出奇的好,这个我也没有想到,没准是笑里藏刀
最后的大哥实在也不是想黑他,但是他和我说点击率服从binomial dist开始,我就觉得
最后拿不到offer也不遗憾了. (这是真的,我说点击次数是binomial,他纠正我点击率
才是,花了5分钟也没有说服他.) 后来大哥又问了啥 结果自己连t-test和z-test的区别
是啥也不知道,而且最后一面整整超时1小时,一共面了1小时45分钟。
最后找工结束,祝大家好运
E*******s
发帖数: 994
2
Great post
where do you go eventually?

【在 w******e 的大作中提到】
: 统计PHD, 先上干货
: (1) 白男
: a.先假设美国一个家庭里孩子数是x,给了x=0,1,2,3,4,>4的概率, (x>4的概率是0).然
: 后说从一堆孩子里任意sample了一个女孩,求这个女孩至少有一个姐妹的概率
: b.给了一个data, 要求build一个model,open end没有答案
: (2) 白男
: a.写个程序simulate roll一个die, fair die? any die? 不止6面的die?
: b.写个简单sql
: c.一个超市有很多receipt,每个receipt有总价,有买了啥东西,但是超市把每个东西的
: 单价弄丢了,怎么算单价

t******g
发帖数: 2253
3
祝楼主好运。Google这个总体问的的确不算太难,楼主应该答得也不错,不过运气差了
些。
z******r
发帖数: 1245
4
感谢贴出这么多干货
c**r
发帖数: 150
5
可以问问
“c.类似第一个人的问题,假设一个人随机打电话给美国的一个人 来问household size,
这样有什么bias,然后问 如果打了3个电话 一个人说1个 一个人说2个 一个人说3个 要
估计unbiased est.”
怎么回答呢?感觉这种我都不知道怎么算回答的好。谢谢~
h****y
发帖数: 33
6
我也觉得这道算是比较tricky的。
关于household size的survey sampling,主要的陷阱在于,如果你抽到的是household
size为1的人还好,但如果抽到了两个household size为2的人,这两个人是来自于两
个不同的household呢,还是其实是同一个household?同理,household size为3、4等
等。这就导致你直接对观测值做平均得到的估计值是biased的,而且是biased towards
larger household size。
假设抽样结果是:
household size为1的有x1个人
household size为2的有x2个人
....
household size为n的有xn个人
考虑两个极端情况:
(1)假设所有抽到的人都来自于不同的household,那么average household size的估
计值是(1*x1+2*x2+3*x3+...n*xn)/(x1+x2+x3+...+xn)
(2)假设所有抽到的household size大于1的人所在的household里的所有人都被抽到
了,那么最终估计值是:
(x1+x2+x3+...+xn)/(x1+x2/2+x3/3+...+xn/n)
所以真正的估计值应该是以(1)为上界,(2)为下界。
但是有没有closed form的估计值呢?这点我还没想出来。希望在sampling和
estimation方面比较擅长的同学来讨论下,看有没有其它的解法。

size,
size,

【在 c**r 的大作中提到】
: 可以问问
: “c.类似第一个人的问题,假设一个人随机打电话给美国的一个人 来问household size,
: 这样有什么bias,然后问 如果打了3个电话 一个人说1个 一个人说2个 一个人说3个 要
: 估计unbiased est.”
: 怎么回答呢?感觉这种我都不知道怎么算回答的好。谢谢~

h****y
发帖数: 33
7
mlr是指什么?

a. 解释logistic regression
b. 给了个scatter plot要求build model,要求mlr

【在 w******e 的大作中提到】
: 统计PHD, 先上干货
: (1) 白男
: a.先假设美国一个家庭里孩子数是x,给了x=0,1,2,3,4,>4的概率, (x>4的概率是0).然
: 后说从一堆孩子里任意sample了一个女孩,求这个女孩至少有一个姐妹的概率
: b.给了一个data, 要求build一个model,open end没有答案
: (2) 白男
: a.写个程序simulate roll一个die, fair die? any die? 不止6面的die?
: b.写个简单sql
: c.一个超市有很多receipt,每个receipt有总价,有买了啥东西,但是超市把每个东西的
: 单价弄丢了,怎么算单价

l******8
发帖数: 1691
8
我也是这么想的。但是实际上,如果是电话的话,要考虑打电话的时间,座机还是手机
。如果是座机的话,两个人的家庭,有至少一个人在家的几率不是简单的一个人家庭的
两倍。如果是手机的话,n个人的家庭,要考虑有几个人会没有手机。时间上,不同人
数的家庭白天和夜里有人的概率之比会有变化。我觉得这都是可以答的点,但是具体要
implement的话,就需要进一步的数据。

household
towards

【在 h****y 的大作中提到】
: 我也觉得这道算是比较tricky的。
: 关于household size的survey sampling,主要的陷阱在于,如果你抽到的是household
: size为1的人还好,但如果抽到了两个household size为2的人,这两个人是来自于两
: 个不同的household呢,还是其实是同一个household?同理,household size为3、4等
: 等。这就导致你直接对观测值做平均得到的估计值是biased的,而且是biased towards
: larger household size。
: 假设抽样结果是:
: household size为1的有x1个人
: household size为2的有x2个人
: ....

w******e
发帖数: 1621
9
统计PHD, 先上干货
(1) 白男
a.先假设美国一个家庭里孩子数是x,给了x=0,1,2,3,4,>4的概率, (x>4的概率是0).然
后说从一堆孩子里任意sample了一个女孩,求这个女孩至少有一个姐妹的概率
b.给了一个data, 要求build一个model,open end没有答案
(2) 白男
a.写个程序simulate roll一个die, fair die? any die? 不止6面的die?
b.写个简单sql
c.一个超市有很多receipt,每个receipt有总价,有买了啥东西,但是超市把每个东西的
单价弄丢了,怎么算单价
(3)国女
a.说research
b.2组search query result, 怎么设计一个distance function 来比较相似度
c.类似第一个人的问题,假设一个人随机打电话给美国的一个人 来问household size,
这样有什么bias,然后问 如果打了3个电话 一个人说1个 一个人说2个 一个人说3个 要
估计unbiased est.
(4)三哥
a. 解释logistic regression
b. 给了个scatter plot要求build model,要求mlr
(5)国男
a. 行为问题
b. 一个广告,给了10个人看,1个人点了,点击率怎么估计,可性度怎么估计
c. 2个广告,怎么比较点击率
d. 怎么从一个圆里sample点
再谈感想:
所有有答案的题都答出来了,不过第一面的第一题要了hint. open end的题都答了 就
不知道答没答到点子上了。11月初面的,面完回来就立马从了别的offer,因为很明显
google QA 不是我最想干的。别的offer是SDE,更感兴趣一些。然后忙毕业。这周发现
都快一个月了,就催来了拒信。
几个面试官从态度从nice到mean排的话是
阿三=白男2=国果>白男1>>国女
技术从强到弱排的话应该是
白男1>阿三=白男2=国女>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>国男
白男1一看就是那种只care技术不care communication的geek,他的question看的出来都
是自己精心准备的.全程无表情.model题里藏了很多陷阱,发现了几个,估计还有很多
我肯定没有全发现
白男2应该是个cs背景,爱问稍微偏coding一点的题。
国女不说了,从开始看到用英文名就知道不好对付,果然上来就是一副“你丫这个
research老娘看5分钟就比你干5年懂得多了”的调调,其他问题也是全神灌注找你的漏
洞,distance function哪题,我发现一个错误已经改了,国女已经按捺不住冲上白板
就是写了个例子说你这个不行,我只好陪个笑脸说 我这个意识到了 已经改了
三哥人出奇的好,这个我也没有想到,没准是笑里藏刀
最后的大哥实在也不是想黑他,但是他和我说点击率服从binomial dist开始,我就觉得
最后拿不到offer也不遗憾了. (这是真的,我说点击次数是binomial,他纠正我点击率
才是,花了5分钟也没有说服他.) 后来大哥又问了啥 结果自己连t-test和z-test的区别
是啥也不知道,而且最后一面整整超时1小时,一共面了1小时45分钟。
最后找工结束,祝大家好运
E*******s
发帖数: 994
10
Great post
where do you go eventually?

【在 w******e 的大作中提到】
: 统计PHD, 先上干货
: (1) 白男
: a.先假设美国一个家庭里孩子数是x,给了x=0,1,2,3,4,>4的概率, (x>4的概率是0).然
: 后说从一堆孩子里任意sample了一个女孩,求这个女孩至少有一个姐妹的概率
: b.给了一个data, 要求build一个model,open end没有答案
: (2) 白男
: a.写个程序simulate roll一个die, fair die? any die? 不止6面的die?
: b.写个简单sql
: c.一个超市有很多receipt,每个receipt有总价,有买了啥东西,但是超市把每个东西的
: 单价弄丢了,怎么算单价

相关主题
问一个最近看到的面试题求教分类问题中预测概率的问题
请问一个概率的问题求问一个概率题
请问一道概率题零经验大妈真诚求转data analysis建议,长!!!
进入DataSciences版参与讨论
t******g
发帖数: 2253
11
祝楼主好运。Google这个总体问的的确不算太难,楼主应该答得也不错,不过运气差了
些。
z******r
发帖数: 1245
12
感谢贴出这么多干货
c**r
发帖数: 150
13
可以问问
“c.类似第一个人的问题,假设一个人随机打电话给美国的一个人 来问household size,
这样有什么bias,然后问 如果打了3个电话 一个人说1个 一个人说2个 一个人说3个 要
估计unbiased est.”
怎么回答呢?感觉这种我都不知道怎么算回答的好。谢谢~
h****y
发帖数: 33
14
我也觉得这道算是比较tricky的。
关于household size的survey sampling,主要的陷阱在于,如果你抽到的是household
size为1的人还好,但如果抽到了两个household size为2的人,这两个人是来自于两
个不同的household呢,还是其实是同一个household?同理,household size为3、4等
等。这就导致你直接对观测值做平均得到的估计值是biased的,而且是biased towards
larger household size。
假设抽样结果是:
household size为1的有x1个人
household size为2的有x2个人
....
household size为n的有xn个人
考虑两个极端情况:
(1)假设所有抽到的人都来自于不同的household,那么average household size的估
计值是(1*x1+2*x2+3*x3+...n*xn)/(x1+x2+x3+...+xn)
(2)假设所有抽到的household size大于1的人所在的household里的所有人都被抽到
了,那么最终估计值是:
(x1+x2+x3+...+xn)/(x1+x2/2+x3/3+...+xn/n)
所以真正的估计值应该是以(1)为上界,(2)为下界。
但是有没有closed form的估计值呢?这点我还没想出来。希望在sampling和
estimation方面比较擅长的同学来讨论下,看有没有其它的解法。

size,
size,

【在 c**r 的大作中提到】
: 可以问问
: “c.类似第一个人的问题,假设一个人随机打电话给美国的一个人 来问household size,
: 这样有什么bias,然后问 如果打了3个电话 一个人说1个 一个人说2个 一个人说3个 要
: 估计unbiased est.”
: 怎么回答呢?感觉这种我都不知道怎么算回答的好。谢谢~

h****y
发帖数: 33
15
mlr是指什么?

a. 解释logistic regression
b. 给了个scatter plot要求build model,要求mlr

【在 w******e 的大作中提到】
: 统计PHD, 先上干货
: (1) 白男
: a.先假设美国一个家庭里孩子数是x,给了x=0,1,2,3,4,>4的概率, (x>4的概率是0).然
: 后说从一堆孩子里任意sample了一个女孩,求这个女孩至少有一个姐妹的概率
: b.给了一个data, 要求build一个model,open end没有答案
: (2) 白男
: a.写个程序simulate roll一个die, fair die? any die? 不止6面的die?
: b.写个简单sql
: c.一个超市有很多receipt,每个receipt有总价,有买了啥东西,但是超市把每个东西的
: 单价弄丢了,怎么算单价

l******8
发帖数: 1691
16
我也是这么想的。但是实际上,如果是电话的话,要考虑打电话的时间,座机还是手机
。如果是座机的话,两个人的家庭,有至少一个人在家的几率不是简单的一个人家庭的
两倍。如果是手机的话,n个人的家庭,要考虑有几个人会没有手机。时间上,不同人
数的家庭白天和夜里有人的概率之比会有变化。我觉得这都是可以答的点,但是具体要
implement的话,就需要进一步的数据。

household
towards

【在 h****y 的大作中提到】
: 我也觉得这道算是比较tricky的。
: 关于household size的survey sampling,主要的陷阱在于,如果你抽到的是household
: size为1的人还好,但如果抽到了两个household size为2的人,这两个人是来自于两
: 个不同的household呢,还是其实是同一个household?同理,household size为3、4等
: 等。这就导致你直接对观测值做平均得到的估计值是biased的,而且是biased towards
: larger household size。
: 假设抽样结果是:
: household size为1的有x1个人
: household size为2的有x2个人
: ....

B********4
发帖数: 7156
17
(1) 白男
a.先假设美国一个家庭里孩子数是x,给了x=0,1,2,3,4,>4的概率, (x>4的概率是0).然
后说从一堆孩子里任意sample了一个女孩,求这个女孩至少有一个姐妹的概率
答:(1/2)P(x=2) + (3/4)P(x=3) + (7/8)P(x=4)
(2) 白男
a.写个程序simulate roll一个die, fair die? any die? 不止6面的die?
考虑:用随机数来模拟,Math.round(Math.random() * 6), 不止6面的die把那个系数
改成大于6的变量就行。any die啥意思,每面的概率不同?
c.一个超市有很多receipt,每个receipt有总价,有买了啥东西,但是超市把每个东西的
单价弄丢了,怎么算单价?
考虑:用多元单次方程组?
T*****u
发帖数: 7103
18
(1)的答案错了。极限情况,p(0)=0.11,p(2)=0,01。这个就是bayesian,比较tricky的
地方就是原题给的是家庭里孩子的分布,而不是女孩子数量的家庭分布。算likelihood
之前需要转化一下。
(2)把round()换成floor()+1

【在 B********4 的大作中提到】
: (1) 白男
: a.先假设美国一个家庭里孩子数是x,给了x=0,1,2,3,4,>4的概率, (x>4的概率是0).然
: 后说从一堆孩子里任意sample了一个女孩,求这个女孩至少有一个姐妹的概率
: 答:(1/2)P(x=2) + (3/4)P(x=3) + (7/8)P(x=4)
: (2) 白男
: a.写个程序simulate roll一个die, fair die? any die? 不止6面的die?
: 考虑:用随机数来模拟,Math.round(Math.random() * 6), 不止6面的die把那个系数
: 改成大于6的变量就行。any die啥意思,每面的概率不同?
: c.一个超市有很多receipt,每个receipt有总价,有买了啥东西,但是超市把每个东西的
: 单价弄丢了,怎么算单价?

s****y
发帖数: 1233
19
第一个问题是不是这样?
x=0 显然不在考虑内,要不哪里来的一个女孩?
x=1 这个女孩有一个姐妹的概率是0:p(1)*0
x=2 这个女孩有一个姐妹的概率:
首先这个家庭至少有一个女孩的概率:3/4
两个都是女孩的概率:1/4
condition on 至少有一个女孩,然后两个都是女孩的概率:1/3
condition on x=2,这个女孩有一个姐妹的概率:p(2)*(1/3)
x=3 这个家庭至少有一个女孩的概率7/8
两个及两个以上女孩的概率:3/8+1/8
condition on 至少有一个女孩的概率,然后这个女孩有至少一个姐妹的概率:
4/7
condition on x=3, 这个女孩有至少一个姐妹:p(3)*(4/7)
x=4 这个家庭至少有一个女孩的概率15/16
两个及两个以上女孩的概率:1-(1/16)-(1/4)=11/16
condition on 至少有一个女孩的概率,然后这个女孩有至少一个姐妹的概率:
11/15
condition on x=1, p(4)*(11/15)
所以答案应该是:p(0)*0+p(2)*(1/3)+p(3)*(4/7)+p(4)*(11/15)
我算对了没有啊@@

【在 w******e 的大作中提到】
: 统计PHD, 先上干货
: (1) 白男
: a.先假设美国一个家庭里孩子数是x,给了x=0,1,2,3,4,>4的概率, (x>4的概率是0).然
: 后说从一堆孩子里任意sample了一个女孩,求这个女孩至少有一个姐妹的概率
: b.给了一个data, 要求build一个model,open end没有答案
: (2) 白男
: a.写个程序simulate roll一个die, fair die? any die? 不止6面的die?
: b.写个简单sql
: c.一个超市有很多receipt,每个receipt有总价,有买了啥东西,但是超市把每个东西的
: 单价弄丢了,怎么算单价

l********k
发帖数: 14844
20
如果采样小,区号明显不同,俩手机属于同一个household的概率是几亿分之一忽略不
计。其它的bias,可能要考虑不同年龄段的人持手机的比例也不同。独居的老头老太可
能统计不上。
如果是座机号码,bias就海了。首先是打电话的时间。大白天家里还有人的,不是老人
就是保姆,家里人口多;单身狗一般根本没有座机,有也接不着。此外家里人多的话,
家里有人接座机电话的概率也大。当然座机可能拨到单位,接电话的不可能是无业者,
所以比接家里座机的household可能小一些。
总之这个问题不错。

【在 l******8 的大作中提到】
: 我也是这么想的。但是实际上,如果是电话的话,要考虑打电话的时间,座机还是手机
: 。如果是座机的话,两个人的家庭,有至少一个人在家的几率不是简单的一个人家庭的
: 两倍。如果是手机的话,n个人的家庭,要考虑有几个人会没有手机。时间上,不同人
: 数的家庭白天和夜里有人的概率之比会有变化。我觉得这都是可以答的点,但是具体要
: implement的话,就需要进一步的数据。
:
: household
: towards

相关主题
说说浅学ML的感受求问编程语言的选择,学stat的往DS努力
scala的主场在数学应用上 (转载)这样的数据怎么处理
ds要刷leecode吗,湾区大妈转行做DS或BA,求建议
进入DataSciences版参与讨论
G*********t
发帖数: 344
21
看来google 的人也就这点水平了, 第一题就没给够条件, 男孩女孩的比例并非50:
50, 比率随年纪变化。

【在 w******e 的大作中提到】
: 统计PHD, 先上干货
: (1) 白男
: a.先假设美国一个家庭里孩子数是x,给了x=0,1,2,3,4,>4的概率, (x>4的概率是0).然
: 后说从一堆孩子里任意sample了一个女孩,求这个女孩至少有一个姐妹的概率
: b.给了一个data, 要求build一个model,open end没有答案
: (2) 白男
: a.写个程序simulate roll一个die, fair die? any die? 不止6面的die?
: b.写个简单sql
: c.一个超市有很多receipt,每个receipt有总价,有买了啥东西,但是超市把每个东西的
: 单价弄丢了,怎么算单价

c*****l
发帖数: 1493
22
目测能猜出一半以上面试官。。。
多谢lz~
t********m
发帖数: 939
23
c.一个超市有很多receipt,每个receipt有总价,有买了啥东西,但是超市把每个东西的
单价弄丢了,怎么算单价
感兴趣这个,楼主能说说你的思路么?感觉这道题很实际,现实中能用到。谢谢。

【在 w******e 的大作中提到】
: 统计PHD, 先上干货
: (1) 白男
: a.先假设美国一个家庭里孩子数是x,给了x=0,1,2,3,4,>4的概率, (x>4的概率是0).然
: 后说从一堆孩子里任意sample了一个女孩,求这个女孩至少有一个姐妹的概率
: b.给了一个data, 要求build一个model,open end没有答案
: (2) 白男
: a.写个程序simulate roll一个die, fair die? any die? 不止6面的die?
: b.写个简单sql
: c.一个超市有很多receipt,每个receipt有总价,有买了啥东西,但是超市把每个东西的
: 单价弄丢了,怎么算单价

l******n
发帖数: 648
24
Google的QA是什么样子的职位
是analyst那种吗

【在 w******e 的大作中提到】
: 统计PHD, 先上干货
: (1) 白男
: a.先假设美国一个家庭里孩子数是x,给了x=0,1,2,3,4,>4的概率, (x>4的概率是0).然
: 后说从一堆孩子里任意sample了一个女孩,求这个女孩至少有一个姐妹的概率
: b.给了一个data, 要求build一个model,open end没有答案
: (2) 白男
: a.写个程序simulate roll一个die, fair die? any die? 不止6面的die?
: b.写个简单sql
: c.一个超市有很多receipt,每个receipt有总价,有买了啥东西,但是超市把每个东西的
: 单价弄丢了,怎么算单价

B********4
发帖数: 7156
25
(1) 白男
a.先假设美国一个家庭里孩子数是x,给了x=0,1,2,3,4,>4的概率, (x>4的概率是0).然
后说从一堆孩子里任意sample了一个女孩,求这个女孩至少有一个姐妹的概率
答:(1/2)P(x=2) + (3/4)P(x=3) + (7/8)P(x=4)
(2) 白男
a.写个程序simulate roll一个die, fair die? any die? 不止6面的die?
考虑:用随机数来模拟,Math.round(Math.random() * 6), 不止6面的die把那个系数
改成大于6的变量就行。any die啥意思,每面的概率不同?
c.一个超市有很多receipt,每个receipt有总价,有买了啥东西,但是超市把每个东西的
单价弄丢了,怎么算单价?
考虑:用多元单次方程组?
T*****u
发帖数: 7103
26
(1)的答案错了。极限情况,p(0)=0.11,p(2)=0,01。这个就是bayesian,比较tricky的
地方就是原题给的是家庭里孩子的分布,而不是女孩子数量的家庭分布。算likelihood
之前需要转化一下。
(2)把round()换成floor()+1

【在 B********4 的大作中提到】
: (1) 白男
: a.先假设美国一个家庭里孩子数是x,给了x=0,1,2,3,4,>4的概率, (x>4的概率是0).然
: 后说从一堆孩子里任意sample了一个女孩,求这个女孩至少有一个姐妹的概率
: 答:(1/2)P(x=2) + (3/4)P(x=3) + (7/8)P(x=4)
: (2) 白男
: a.写个程序simulate roll一个die, fair die? any die? 不止6面的die?
: 考虑:用随机数来模拟,Math.round(Math.random() * 6), 不止6面的die把那个系数
: 改成大于6的变量就行。any die啥意思,每面的概率不同?
: c.一个超市有很多receipt,每个receipt有总价,有买了啥东西,但是超市把每个东西的
: 单价弄丢了,怎么算单价?

s****y
发帖数: 1233
27
第一个问题是不是这样?
x=0 显然不在考虑内,要不哪里来的一个女孩?
x=1 这个女孩有一个姐妹的概率是0:p(1)*0
x=2 这个女孩有一个姐妹的概率:
首先这个家庭至少有一个女孩的概率:3/4
两个都是女孩的概率:1/4
condition on 至少有一个女孩,然后两个都是女孩的概率:1/3
condition on x=2,这个女孩有一个姐妹的概率:p(2)*(1/3)
x=3 这个家庭至少有一个女孩的概率7/8
两个及两个以上女孩的概率:3/8+1/8
condition on 至少有一个女孩的概率,然后这个女孩有至少一个姐妹的概率:
4/7
condition on x=3, 这个女孩有至少一个姐妹:p(3)*(4/7)
x=4 这个家庭至少有一个女孩的概率15/16
两个及两个以上女孩的概率:1-(1/16)-(1/4)=11/16
condition on 至少有一个女孩的概率,然后这个女孩有至少一个姐妹的概率:
11/15
condition on x=1, p(4)*(11/15)
所以答案应该是:p(0)*0+p(2)*(1/3)+p(3)*(4/7)+p(4)*(11/15)
我算对了没有啊@@

【在 w******e 的大作中提到】
: 统计PHD, 先上干货
: (1) 白男
: a.先假设美国一个家庭里孩子数是x,给了x=0,1,2,3,4,>4的概率, (x>4的概率是0).然
: 后说从一堆孩子里任意sample了一个女孩,求这个女孩至少有一个姐妹的概率
: b.给了一个data, 要求build一个model,open end没有答案
: (2) 白男
: a.写个程序simulate roll一个die, fair die? any die? 不止6面的die?
: b.写个简单sql
: c.一个超市有很多receipt,每个receipt有总价,有买了啥东西,但是超市把每个东西的
: 单价弄丢了,怎么算单价

l********k
发帖数: 14844
28
如果采样小,区号明显不同,俩手机属于同一个household的概率是几亿分之一忽略不
计。其它的bias,可能要考虑不同年龄段的人持手机的比例也不同。独居的老头老太可
能统计不上。
如果是座机号码,bias就海了。首先是打电话的时间。大白天家里还有人的,不是老人
就是保姆,家里人口多;单身狗一般根本没有座机,有也接不着。此外家里人多的话,
家里有人接座机电话的概率也大。当然座机可能拨到单位,接电话的不可能是无业者,
所以比接家里座机的household可能小一些。
总之这个问题不错。

【在 l******8 的大作中提到】
: 我也是这么想的。但是实际上,如果是电话的话,要考虑打电话的时间,座机还是手机
: 。如果是座机的话,两个人的家庭,有至少一个人在家的几率不是简单的一个人家庭的
: 两倍。如果是手机的话,n个人的家庭,要考虑有几个人会没有手机。时间上,不同人
: 数的家庭白天和夜里有人的概率之比会有变化。我觉得这都是可以答的点,但是具体要
: implement的话,就需要进一步的数据。
:
: household
: towards

G*********t
发帖数: 344
29
看来google 的人也就这点水平了, 第一题就没给够条件, 男孩女孩的比例并非50:
50, 比率随年纪变化。

【在 w******e 的大作中提到】
: 统计PHD, 先上干货
: (1) 白男
: a.先假设美国一个家庭里孩子数是x,给了x=0,1,2,3,4,>4的概率, (x>4的概率是0).然
: 后说从一堆孩子里任意sample了一个女孩,求这个女孩至少有一个姐妹的概率
: b.给了一个data, 要求build一个model,open end没有答案
: (2) 白男
: a.写个程序simulate roll一个die, fair die? any die? 不止6面的die?
: b.写个简单sql
: c.一个超市有很多receipt,每个receipt有总价,有买了啥东西,但是超市把每个东西的
: 单价弄丢了,怎么算单价

c*****l
发帖数: 1493
30
目测能猜出一半以上面试官。。。
多谢lz~
相关主题
新人/转行怎么成为一个DSAn example of cross validation not working
Leetcode?问一道面试题
分享两个data scientist职位的面经p value被摈弃了?如何算confidence interval之类的东西?
进入DataSciences版参与讨论
t********m
发帖数: 939
31
c.一个超市有很多receipt,每个receipt有总价,有买了啥东西,但是超市把每个东西的
单价弄丢了,怎么算单价
感兴趣这个,楼主能说说你的思路么?感觉这道题很实际,现实中能用到。谢谢。

【在 w******e 的大作中提到】
: 统计PHD, 先上干货
: (1) 白男
: a.先假设美国一个家庭里孩子数是x,给了x=0,1,2,3,4,>4的概率, (x>4的概率是0).然
: 后说从一堆孩子里任意sample了一个女孩,求这个女孩至少有一个姐妹的概率
: b.给了一个data, 要求build一个model,open end没有答案
: (2) 白男
: a.写个程序simulate roll一个die, fair die? any die? 不止6面的die?
: b.写个简单sql
: c.一个超市有很多receipt,每个receipt有总价,有买了啥东西,但是超市把每个东西的
: 单价弄丢了,怎么算单价

l******n
发帖数: 648
32
Google的QA是什么样子的职位
是analyst那种吗

【在 w******e 的大作中提到】
: 统计PHD, 先上干货
: (1) 白男
: a.先假设美国一个家庭里孩子数是x,给了x=0,1,2,3,4,>4的概率, (x>4的概率是0).然
: 后说从一堆孩子里任意sample了一个女孩,求这个女孩至少有一个姐妹的概率
: b.给了一个data, 要求build一个model,open end没有答案
: (2) 白男
: a.写个程序simulate roll一个die, fair die? any die? 不止6面的die?
: b.写个简单sql
: c.一个超市有很多receipt,每个receipt有总价,有买了啥东西,但是超市把每个东西的
: 单价弄丢了,怎么算单价

P***n
发帖数: 174
33
感觉google的QA完全是往statistician上面靠的职位啊,至少面试如此。感觉跟我知道
的data analyst问sql/hive/pig/spark/python/shell啥的完全不是一个种类啊
q*********8
发帖数: 188
34
ding

【在 w******e 的大作中提到】
: 统计PHD, 先上干货
: (1) 白男
: a.先假设美国一个家庭里孩子数是x,给了x=0,1,2,3,4,>4的概率, (x>4的概率是0).然
: 后说从一堆孩子里任意sample了一个女孩,求这个女孩至少有一个姐妹的概率
: b.给了一个data, 要求build一个model,open end没有答案
: (2) 白男
: a.写个程序simulate roll一个die, fair die? any die? 不止6面的die?
: b.写个简单sql
: c.一个超市有很多receipt,每个receipt有总价,有买了啥东西,但是超市把每个东西的
: 单价弄丢了,怎么算单价

h*********2
发帖数: 208
35
(1) 白男, My friend from MIT said it is 1-(P(x=1)+(1/2)P(x=2) + (1/4)P(x=3)
+ (1/8)P(x=4)), but I don't know which one is right.

【在 B********4 的大作中提到】
: (1) 白男
: a.先假设美国一个家庭里孩子数是x,给了x=0,1,2,3,4,>4的概率, (x>4的概率是0).然
: 后说从一堆孩子里任意sample了一个女孩,求这个女孩至少有一个姐妹的概率
: 答:(1/2)P(x=2) + (3/4)P(x=3) + (7/8)P(x=4)
: (2) 白男
: a.写个程序simulate roll一个die, fair die? any die? 不止6面的die?
: 考虑:用随机数来模拟,Math.round(Math.random() * 6), 不止6面的die把那个系数
: 改成大于6的变量就行。any die啥意思,每面的概率不同?
: c.一个超市有很多receipt,每个receipt有总价,有买了啥东西,但是超市把每个东西的
: 单价弄丢了,怎么算单价?

h*********2
发帖数: 208
36
for (1), it need to be normalized, and my answer is
[a_2*(1-0.5)*2/2+ a_3*(1-0.5^2)*3/2 + a_4*(1-0.5^3)*4/2] / [a_1*1/2+ a_2*2/2
+ a_3*3/2+ a_4*4/2], where a_2=P(x=2), etc.
h*********2
发帖数: 208
37
can someone tell me which one is right for q(1)?
o**o
发帖数: 3964
38
这不是典型的线性回归吗

【在 t********m 的大作中提到】
: c.一个超市有很多receipt,每个receipt有总价,有买了啥东西,但是超市把每个东西的
: 单价弄丢了,怎么算单价
: 感兴趣这个,楼主能说说你的思路么?感觉这道题很实际,现实中能用到。谢谢。

l******n
发帖数: 648
39
more than that
this is a good question indeed
can test a ds upto many levels..

【在 o**o 的大作中提到】
: 这不是典型的线性回归吗
s****k
发帖数: 778
40
一题都不会做,现在正在申G的位置,是不是该主动撤了?
相关主题
p value被摈弃了?如何算confidence interval之类的东西?请问一个概率的问题
问一道概率题, FACEBOOK, data scientitst考到得. (转载)请问一道概率题
问一个最近看到的面试题求教分类问题中预测概率的问题
进入DataSciences版参与讨论
l******8
发帖数: 1691
41
你朋友是对的。里面有个陷阱就是p0不用考虑,因为已经有一个女孩了。也就是说这个
条件概率下p1, p2, p3, p4加起来等于1,其比值和原来一样。这样就简单了。前面那
个什么讨论三分之一之类的就是属于统计课还没上完的。

)

【在 h*********2 的大作中提到】
: (1) 白男, My friend from MIT said it is 1-(P(x=1)+(1/2)P(x=2) + (1/4)P(x=3)
: + (1/8)P(x=4)), but I don't know which one is right.

h*********2
发帖数: 208
42
可是难道你不要考虑fact that k-child family contribute k/2 girls to the
sampling pool? that is why I add the weight factor k/2 for each P(k).
1 (共1页)
进入DataSciences版参与讨论
相关主题
这样的数据怎么处理问一道概率题, FACEBOOK, data scientitst考到得. (转载)
湾区大妈转行做DS或BA,求建议问一个最近看到的面试题
新人/转行怎么成为一个DS请问一个概率的问题
Leetcode?请问一道概率题
分享两个data scientist职位的面经求教分类问题中预测概率的问题
An example of cross validation not working求问一个概率题
问一道面试题零经验大妈真诚求转data analysis建议,长!!!
p value被摈弃了?如何算confidence interval之类的东西?说说浅学ML的感受
相关话题的讨论汇总
话题: 概率话题: 女孩话题: household话题: 白男话题: die