w*********y 发帖数: 7895 | 1 假设我有一些数据,
A= 1-10, B = 11-20, C = 21-30, D = 31-40
ID Cost
1 A
2 D
3 C
4 C
5 D
......
要求算average cost...
现在有2个做法,一种做法是把A, B, C, D 分别CODE 1, 2, 3, 4,然后加起来,算
average, 如果是 2.5, 我就说average cost 是11-30.
还有一个做法是,把所以lower bounds and higher bounds分别加起来,
再算average cost的range...
我google了一下,没有找到很多信息。。。所以想请教一下大家,这2个方法的利弊,
或者还有什么更好的方法吗? | t*****a 发帖数: 459 | 2 那个,distribution assumption是啥,以及样本量? | H**********f 发帖数: 2978 | 3 第一个办法纯扯蛋
简单办法,每个区间都当成是均匀的(像histogram那样),所以用其均值(5.5,15.5
,25.5,35.5)代替区间然后算平均。应该足够准了
麻烦一点,拟合一个分布然后求期望
【在 w*********y 的大作中提到】 : 假设我有一些数据, : A= 1-10, B = 11-20, C = 21-30, D = 31-40 : ID Cost : 1 A : 2 D : 3 C : 4 C : 5 D : ...... : 要求算average cost...
|
|