s*********y 发帖数: 34 | 1 一个data有30,000个数据, 每一行数值变量有三个(ID, Usage, Group)和一个字符号变
量(name). Group=1,2,3,…,n, 假设30000/n=整数.
现在想把30,000个数据分成N组, 每组有相似的 mean of Usage 和 相似的 variance
of Usage.
请问怎么写sas code 比较有效? | k*****u 发帖数: 1688 | 2 猛一看,以为用proc sql的having就好了
再一看,mean其实depends on group.是不是要高个什么算法来cluster data?
k-means cluster是不是可以? | b********8 发帖数: 3059 | | a****g 发帖数: 8131 | 4 你是希望这N个组之间mean usage和variance相似
如果这样的话,楼上有人提到的cluster是不能达到这个结果的
其实,我感觉一个simple random sampling with equal weight, same sample sizes
will work
如果你的usage是discrete的,你可以加上allocation rate,更加没有问题
【在 s*********y 的大作中提到】 : 一个data有30,000个数据, 每一行数值变量有三个(ID, Usage, Group)和一个字符号变 : 量(name). Group=1,2,3,…,n, 假设30000/n=整数. : 现在想把30,000个数据分成N组, 每组有相似的 mean of Usage 和 相似的 variance : of Usage. : 请问怎么写sas code 比较有效?
| D******n 发帖数: 2836 | 5 i guess the mean can only be the grand mean and variance can only be the
grand variance, and this leads to systematic sampling? | o****o 发帖数: 8077 | 6 aglee
sizes
【在 a****g 的大作中提到】 : 你是希望这N个组之间mean usage和variance相似 : 如果这样的话,楼上有人提到的cluster是不能达到这个结果的 : 其实,我感觉一个simple random sampling with equal weight, same sample sizes : will work : 如果你的usage是discrete的,你可以加上allocation rate,更加没有问题
|
|