由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - [bssd]swiftDOve的基站數據檢查問題
相关主题
给大家看点有趣的c+11 問題:什麽情況下用remove_reference.
请问不用开方怎么算N个复数的模之和?javascript editor的問題
如何用C++产生随机Poisson分别的随机数?南沙永暑礁、渚碧礁开通4G基站
给CS的朋友来科普一下pCell手机支付国内人喜欢就好
发现真的有点老了发现5G最大的问题还不是速度
怎么在客户端跑统计分析?中国的教育体制教育不出天才 (转载)
我出的面试题是不是太难了这个群体智商均值高5个点还是均方差高5好
语言没有很难的,只有很难赚钱的。所谓的智商真未必和人种有关
相关话题的讨论汇总
话题: swiftdove话题: 數據话题: 問題话题: br话题: 坏点
进入Programming版参与讨论
1 (共1页)
g****t
发帖数: 31659
1
首先再次感謝swiftdove帶來真實工作經驗。這個問題是真實的,而且挺有意思,我來
略作總結。也有幾個問題向各位專家請教。
按loghtroom講的,一般有兩個思路。第一個是density estimation。最簡單的就是算
平均值和方差,找出來z score。這個辦法是我個人首選。因為從做項目的角度來講,
假如發現一個地區一個時間段,有個基站的掉線率高於平均值的3 sigma, 那麼我可以
說這個情況deman an explanation, 可以派給工人ticket 。就是說平均值和方差異常
一旦找到,基本不需要解釋。
第二個是knn類型的大數據聚類分析。這也是swiftdove驗證過有效的辦法。
現在我有兩個問題。第一個問題,這個問題在理論上似乎也可以深學autocode來做。
autocode恢復不出來的數據,即是異常數據?各位怎麼看?
第二個問題,對一組數據來講。異常的數據即是帶來最多信息數據。那麼找到一個點,
去掉這個點之後,信息商變化最大。這個點就是異常點。我覺得這個想法是對的. 但是
大數據似乎沒有處理這類計算的工具,大家怎麼看?簡而言之,就是求去掉一個點前後
,求信息商對個點的delta,這種有人做過嗎?
m******r
发帖数: 1033
2
没看明白swiftdove 给出的3列数据怎么就描述基站掉线率了。 x y各表示啥?
干嘛不直接比一下最近三个月基站掉线率,看看谁最高?
g****t
发帖数: 31659
3
我是說假設是掉線率或者別feature,以此來說明方差計算的解釋。
光看最高有可能有偶然噪聲。另外第二高也許和最高掉線那個一樣都有問題。


: 没看明白swiftdove 给出的3列数据怎么就描述基站掉线率了。 x y各表
示啥?

: 干嘛不直接比一下最近三个月基站掉线率,看看谁最高?



【在 m******r 的大作中提到】
: 没看明白swiftdove 给出的3列数据怎么就描述基站掉线率了。 x y各表示啥?
: 干嘛不直接比一下最近三个月基站掉线率,看看谁最高?

S*******e
发帖数: 525
4
你的想法正是我们做的: 我们用过去13个礼拜的同一天同一个小时的“坏点”率做统
计分析。注意那组数据是主任抽象出来的。。。你可以认为每点都是“坏点”,用
count来代替“坏点”率。谈到真正的数据,就是含有“坏点”的总体数据。我想“考
考”大家,assuming the clusters have been generated by the “坏点”, 你怎么
来画这个区域来计算“坏点”率? 这是一个很有趣的数学问题。

【在 m******r 的大作中提到】
: 没看明白swiftdove 给出的3列数据怎么就描述基站掉线率了。 x y各表示啥?
: 干嘛不直接比一下最近三个月基站掉线率,看看谁最高?

S*******e
发帖数: 525
5
x,y 显然是lat,lng.

【在 m******r 的大作中提到】
: 没看明白swiftdove 给出的3列数据怎么就描述基站掉线率了。 x y各表示啥?
: 干嘛不直接比一下最近三个月基站掉线率,看看谁最高?

g****t
发帖数: 31659
6
光是x,y,t的話,似乎無法達到你前面講的目的,也就是
"找到了坏点出现太多的区域,可以估测那个区域的站点有问题(可让 field
engineers 或其他相关部门人员去修等)。"
除非像你所說的,x,y,t是統計異常的信號源,隨著時間擴散出來的位置?那這就
和abnormal detection沒關係了。
因為你這裡x,y,t是abnormal detection的結果。而
不是原因。
我前面講的算平均值標準差,可能對應與你們主任做的統計分析。
後面一步,如果是x y t cluster,那就首選knn


: x,y 显然是lat,lng.



【在 S*******e 的大作中提到】
: x,y 显然是lat,lng.
S*******e
发帖数: 525
7
来这样理解吧: 如果你仔细地看那个3-D图得话,它有四根柱子。这些柱子实际上是“
正常的区域”。在那个3-D图的顶层,中间突然出现一堆点:这个中间区域是“
abnormal”,因为过去的历史在这个区域几乎没什么坏点。

【在 g****t 的大作中提到】
: 光是x,y,t的話,似乎無法達到你前面講的目的,也就是
: "找到了坏点出现太多的区域,可以估测那个区域的站点有问题(可让 field
: engineers 或其他相关部门人员去修等)。"
: 除非像你所說的,x,y,t是統計異常的信號源,隨著時間擴散出來的位置?那這就
: 和abnormal detection沒關係了。
: 因為你這裡x,y,t是abnormal detection的結果。而
: 不是原因。
: 我前面講的算平均值標準差,可能對應與你們主任做的統計分析。
: 後面一步,如果是x y t cluster,那就首選knn
:

T********i
发帖数: 2416
8
数据是物理意义不说明,算法基本没办法做。你肯定数据的收集办法就是对的?
我在做我那个mesh协议栈的时候,也面临如何优化通信可靠性的问题。找来一大堆论文
,读了以后发现根本没有靠谱的。比如两个节点之间的链路质量评估。评估是消耗带宽
的。但是就算你把带宽都占用了,你也没办法实时评估。因为突然通信失败,可能是特
定方向的干扰,也可能是永久性的障碍物,也可能是临时障碍物比如站个人。我最终采
用的算法就是链路质量评估需要较长时间emv平均,比如几分钟。路由只要没失败就一
直用下去,一旦失败再用其它节点的数据找条路绕过去好了。
换句话说,所谓实时链路质量评估根本不需要。直到你连发3个包,没有ack,链路质量
就是0了。
S*******e
发帖数: 525
9
哈哈,别这样说。我们就是靠狗皮膏药挣份生活费,不然没事干。主任的一个小问题,
我们干了一年多。。。现在看来后续还有不少东西要加。收集一大堆数据。。。都说有
用,人人想分一杯羹,你知道大公司是怎么运行的。

【在 T********i 的大作中提到】
: 数据是物理意义不说明,算法基本没办法做。你肯定数据的收集办法就是对的?
: 我在做我那个mesh协议栈的时候,也面临如何优化通信可靠性的问题。找来一大堆论文
: ,读了以后发现根本没有靠谱的。比如两个节点之间的链路质量评估。评估是消耗带宽
: 的。但是就算你把带宽都占用了,你也没办法实时评估。因为突然通信失败,可能是特
: 定方向的干扰,也可能是永久性的障碍物,也可能是临时障碍物比如站个人。我最终采
: 用的算法就是链路质量评估需要较长时间emv平均,比如几分钟。路由只要没失败就一
: 直用下去,一旦失败再用其它节点的数据找条路绕过去好了。
: 换句话说,所谓实时链路质量评估根本不需要。直到你连发3个包,没有ack,链路质量
: 就是0了。

g****t
发帖数: 31659
10
Emv和正态分佈檢查是等價的。實用到機器往往只能用這些。畫圖給人看看的應用另說
。都是一个低通滤波器,然后距离滤波出来的值比较远的值定义为异常即可。
但是高维数据用频率域的办法无法搞。历史上有人尝试过
拉普拉斯变换阵,没有成功。


: 数据是物理意义不说明,算法基本没办法做。你肯定数据的收集办法就是
对的?

: 我在做我那个mesh协议栈的时候,也面临如何优化通信可靠性的问题。找
来一大
堆论文

: ,读了以后发现根本没有靠谱的。比如两个节点之间的链路质量评估。评
估是消
耗带宽

: 的。但是就算你把带宽都占用了,你也没办法实时评估。因为突然通信失
败,可
能是特

: 定方向的干扰,也可能是永久性的障碍物,也可能是临时障碍物比如站个
人。我
最终采

: 用的算法就是链路质量评估需要较长时间emv平均,比如几分钟。路由只
要没失
败就一

: 直用下去,一旦失败再用其它节点的数据找条路绕过去好了。

: 换句话说,所谓实时链路质量评估根本不需要。直到你连发3个包,没有
ack,链
路质量

: 就是0了。



【在 T********i 的大作中提到】
: 数据是物理意义不说明,算法基本没办法做。你肯定数据的收集办法就是对的?
: 我在做我那个mesh协议栈的时候,也面临如何优化通信可靠性的问题。找来一大堆论文
: ,读了以后发现根本没有靠谱的。比如两个节点之间的链路质量评估。评估是消耗带宽
: 的。但是就算你把带宽都占用了,你也没办法实时评估。因为突然通信失败,可能是特
: 定方向的干扰,也可能是永久性的障碍物,也可能是临时障碍物比如站个人。我最终采
: 用的算法就是链路质量评估需要较长时间emv平均,比如几分钟。路由只要没失败就一
: 直用下去,一旦失败再用其它节点的数据找条路绕过去好了。
: 换句话说,所谓实时链路质量评估根本不需要。直到你连发3个包,没有ack,链路质量
: 就是0了。

g****t
发帖数: 31659
11
假如我是你,我会趁着现在有credit的时候, 把这个项目交给别人。项目做到这个阶段
,已经是只能成功不能失败。可以把成功留给自己,可能的擦屁股的活留给老印。


: 哈哈,别这样说。我们就是靠狗皮膏药挣份生活费,不然没事干。主任的
一个小
问题,

: 我们干了一年多。。。现在看来后续还有不少东西要加。收集一大堆数据
。。。
都说有

: 用,人人想分一杯羹,你知道大公司是怎么运行的。



【在 S*******e 的大作中提到】
: 哈哈,别这样说。我们就是靠狗皮膏药挣份生活费,不然没事干。主任的一个小问题,
: 我们干了一年多。。。现在看来后续还有不少东西要加。收集一大堆数据。。。都说有
: 用,人人想分一杯羹,你知道大公司是怎么运行的。

m******r
发帖数: 1033
12
确实有四根柱子 , 里面还包围着一个cluster。 我建议去掉时间轴,三维变两维,
看看还是不是5个cluster.
如果是,就简单了嘛, 调查调查第五个cluster怎么回事。
r****t
发帖数: 10904
13
所以 t_number 是时间了
每个 dt 有一个 2d population of (x, y) points.
问题是对每个 future t 判断 population 之下的 distribution 是不是有变化。
keep an average for trailing N time slices,
每个t 新来的 数据算下 KL divergence 应该就够了,不用 clustering,
density estimation 也用无参数,naive 的就够了。这样就成了一维的
abnormal detection.
找出来某个时间出事之后,人眼看片或者 clustering 都行。

【在 S*******e 的大作中提到】
: 来这样理解吧: 如果你仔细地看那个3-D图得话,它有四根柱子。这些柱子实际上是“
: 正常的区域”。在那个3-D图的顶层,中间突然出现一堆点:这个中间区域是“
: abnormal”,因为过去的历史在这个区域几乎没什么坏点。

1 (共1页)
进入Programming版参与讨论
相关主题
黄人想象力显然不如白人发现真的有点老了
请教一道面试题怎么在客户端跑统计分析?
警惕野鸡TA,FA我出的面试题是不是太难了
技术上来说...语言没有很难的,只有很难赚钱的。
给大家看点有趣的c+11 問題:什麽情況下用remove_reference.
请问不用开方怎么算N个复数的模之和?javascript editor的問題
如何用C++产生随机Poisson分别的随机数?南沙永暑礁、渚碧礁开通4G基站
给CS的朋友来科普一下pCell手机支付国内人喜欢就好
相关话题的讨论汇总
话题: swiftdove话题: 數據话题: 問題话题: br话题: 坏点