如果你不是孬种数学背景的统计学家，请接受挑战 - PhotoGear版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

PhotoGear版 - 如果你不是孬种数学背景的统计学家，请接受挑战

相关主题
● 有点想把M3送到Shintaro那里去repaint一下。。。	● 用点测的请进
● S 50 Art VS Otus 55	● Leica R 80mm 试机照。
● 佳能后续机将采用全域快门	● 2,016像素RGB测光感应器
● 临界回归模型的连续性 (转载)	● 爱凤的那个测光表软件是不是中央加权测光？
● 性观念和社会道德	● 美国那架战斗机该不是被利比亚打下来得的吧?
● [合集] 请大牛们稍微指点一下,关于对焦	● 你们真的很相信矩阵测光么？
● 多点对焦有什么意义？	● 要求
● C家的点测到底是怎么运作的？	● 群众有结论了，Canon在专业可靠上赶上Nikon了。。。

相关话题的讨论汇总
话题: 临界点话题: 模型话题: cr话题: 全域话题: 对应

进入PhotoGear版参与讨论

1

(共1页)

l***a 发帖数: 12410	1 【以下文字转载自 Statistics 讨论区】发信人: TNEGIETNI (lovewisdom), 信区: Statistics 标题: 如果你不是孬种数学背景的统计学家，请接受挑战发信站: BBS 未名空间站 (Fri May 13 12:13:47 2011, 美东) 这几天版上总有人找我茬。相信他们无一不是数学背景出来搞统计的。他们以为自己掌握了一点数学技能就在统计学里自命不凡。如果他们不是孬种，就请接受我的以下挑战，并回答我在最后提出的简单问题。回答不了的，或不敢回答的，就请他/她滚回数学里去讨饭吃，别仗着自己那份高深莫测的数学理论继续在统计学里胡说八道。为了不再继续为版上添乱，我想请seattleren, ningyan, kaleege等人接受我的挑战。当然，我也欢迎任何人参与严肃的讨论。不能说出个一二三四的，就请自动回避，免得自讨没趣（我想对pp65说的是，我对你感到抱歉，因为本段最后的话对你来说说得太晚了）。给定一个两分法的样本（假定X是自变量而Y是因变量，两段都是简单线性模型，且临界点是在X上）。现行算法及分段模型组的基本表述如下： hat\y_1 = a1+b1X if X<=t hat\y_2 = a2+b2X if X>t ID X Y M CR 1 x1 y1 m1 cr1 2 x2 y2 m2 cr2 3 x3 y3 m3 cr3 4 x4 y4 m4 cr4 5 x5 y5 m5 cr5 6 x6 y6 m6 cr6 7 x7 y7 m7* cr7 min(.) 8 x8 y8 m8 cr8 9 x9 y9 m9 cr9 0 x0 y0 m0 cr0 其中，M是由分段模型组的系数构成的矩阵，CR是分段模型的合并残差。*表示根据最小 CR选定的分段模型，如果我们有 min(CR)=cr7。在得到m7后，按照强制连续性假设，对分段模型组7解联立方程组得到关于X上的一个解 Gamma Gamma = (a1-a2)/(b2-b1) (1) 作为临界点t在样本基础上估计的结果。到此为止就是经典的分段回归分析（classical piecewise regression or segmented regression）。后来，为了满足模型间连接的平滑性，人们对连接点处进行了平滑处理，得到了一个现代化的样条模型。这就是现行的分段回归。这个方法从数学的角度非常的正确，无懈可击。然而，这样得到的临界点仅仅是一个随机的点测量，没有可信区间，在统计学上根本站不住脚。尽管后来有人为此付出了努力，但基本上都失败了。直到bootstrap方法出来后，人们才开始用bootstrap来构建临界点的可信区间。上述基本分析逻辑构成了现当代统计学领域一个非常重要的基础部分，即最优化和强制连续性。它们被广泛地使用在很多方法论的构建之中，例如生存分析中的比例风险模型就是以最大似然估计为准则选定的模型。现在，我对上述分析逻辑提出了批判。认为它在统计学理论上是一个错误。我的观点是，首先，临界点在抽样条件下是一个随机变量，两段模型间是否连续是不确定的。它们在抽样条件下一定存在一个连接变异。这个变异有多大多小谁也不知道，因而需要一个概率进行推断而不是强制性地主观假设它们之间是exactly连续的。从而，用解联立方程组估计临界点的方法根本行不通。其次，由于X是随机变量，分段模型组的系数矩阵M 以及合并残差CR在搜索过程中也将是一个随机变量，而且X、M和CR之间相互关联。它们的随机点测量之间的对应是一个随机对应，从而不能由min(CR)来决定E(M)。最后，在公式（1）中，Gamma具有不可测的变异性，因为分母（b2-b1）可以趋于甚至等于0。因此，我对上述方法进行了如下改造： hat\y_1 = a1+b1X if X<=t_bar (t: Threshold) hat\y_2 = a2+b2X if X>=t_bar ID X=T Y R M CR CRR=W 1 x1=t1 y1 r m1 cr1 w1=\|r-cr1\|/r 2 x2=t2 y2 r m2 cr2 w2=\|r-cr2\|/r 3 x3=t3 y3 r m3 cr3 w3=\|r-cr3\|/r 4 x4=t4 y4 r m4 cr4 w4=\|r-cr4\|/r 5 x5=t5 y5 r m5 cr5 w5=\|r-cr5\|/r 6 x6=t6 y6 r m6 cr6 w6=\|r-cr6\|/r 7 x7=t7 y7 r m7 cr7 w7=\|r-cr7\|/r 8 x8=t8 y8 r m8 cr8 w8=\|r-cr8\|/r 9 x9=t9 y9 r m9 cr9 w9=\|r-cr9\|/r 0 x0=t0 y0 r m0 cr0 w0=\|r-cr0\|/r 这里，R是全域模型的预测残差，根据模型的假定它是一个随机常量（因为样本因而模型都是随机的，但对于给定的样本和模型来说，R是不变的）。由于临界点被假定在X上，因而它与X拥有同一个可测空间。在两分法中，对X的每个实测样本点就是随机临界点的实测样本点。这个搜索过程就是在假定每个实测X点作为临界点时对临界关系的改变的意义或贡献是怎样的，这由CRR来度量。由于我们不知道临界点在哪里，只能这样假设并搜索，从而得知每个点都有贡献，因此，由一个简单的加权平均估计就可以得到临界点的期望估计。由此，临界模型就被建立在这个期望临界点之上，由此，两段模型间的连接变异就可以在该期望临界点处得到测量，从而有了连续性检验的基础。由于有了权重，我们可以计算临界点的加权抽样误差，从而可以计算其可信区间。而分段模型在临界点处的CRR就是比较分段模型与全域模型之间的优劣的一个度量。由于全域模型已经给定了全空间的基本关系型或模型结构，因此，在搜索临界点的过程中，每次迭代的分段模型都应该与全域模型保持同一模型结构，从而CR就是一个单纯依从系数的随机改变而改变的随机变量，因而它们之间的误差仅有抽样误差而没有系统误差。然而，两分法是一个特例，即其中的临界点数被arbitarily假定为只有一个。在我看来，即使是临界点数也是不确定的。如果存在一个，是否存在另一个与它一致或不一致呢？从而三分法的思想就诞生了。为了找到另一个，我构建了两类三分迭代法（对称的和非对称的）以便为每个临界点构造一个可测空间，并由此得到对它以及它的权重的随机测量，进而将每个临界点的估计建立在加权平均上。由于每个临界点都有加权的抽样误差估计，因而采用一个加权的t-检验就可以推断两个临界点是否一致。从而一个样本空间里的临界点的个数也在概率论上找到了支持。请问，我的分析逻辑和算法错在哪？显然，任何一个受过统计学常识训练的人都会赞成这个分析逻辑和算法。现在，请你们回答以下几个问题： 1）X, M, R, CR以及CRR等是否是随机变量？ 2）min(CR)与m7之间的对应是一个随机对应还是一个期望对应？ 3）我们可否用最优化来决定临界模型的期望？换句话说，对应于min(CR)的临界模型是稳定的因而是可以被期望的模型吗？ 4）所谓的“概率收敛”在CR上会收敛到min(CR)处吗？如果你不是傻瓜，你一定会做出回答。
x5 发帖数: 27871	2 摘要？学里也欢【在 l***a 的大作中提到】 : 【以下文字转载自 Statistics 讨论区】 : 发信人: TNEGIETNI (lovewisdom), 信区: Statistics : 标题: 如果你不是孬种数学背景的统计学家，请接受挑战 : 发信站: BBS 未名空间站 (Fri May 13 12:13:47 2011, 美东) : 这几天版上总有人找我茬。相信他们无一不是数学背景出来搞统计的。他们以为自己掌 : 握了一点数学技能就在统计学里自命不凡。如果他们不是孬种，就请接受我的以下挑战 : ，并回答我在最后提出的简单问题。回答不了的，或不敢回答的，就请他/她滚回数学里 : 去讨饭吃，别仗着自己那份高深莫测的数学理论继续在统计学里胡说八道。为了不再继 : 续为版上添乱，我想请seattleren, ningyan, kaleege等人接受我的挑战。当然，我也欢 : 迎任何人参与严肃的讨论。不能说出个一二三四的，就请自动回避，免得自讨没趣（我
l***a 发帖数: 12410	3 民科中的民科统计版的宠物【在 x5 的大作中提到】 : 摘要？ : : 学里 : 也欢
m****7 发帖数: 14685	4 搞子集的对搞超集的叫板【在 x5 的大作中提到】 : 摘要？ : : 学里 : 也欢
h*******e 发帖数: 8370	5 也曾临时客串过佛投机的宠物吧。
s**********s 发帖数: 4255	6 求科普此id 【在 h*******e 的大作中提到】 : 也曾临时客串过佛投机的宠物吧。
h*******e 发帖数: 8370	7 可惜了那个好坑。现实版“北美wsn事迹”啊。大致是去年，开车一个小时去了一老太太家，人家标900的24-70L，死皮赖脸非800给拿下了。拿下之后回来拍地图给佛投机众人欣赏。后来还试图倒卖FD 501.4来着，来版上问过，但是没什么人理他。好象也是开车一个多小时去的，价格好象是三个头一共50。回来之后抱怨镜头长霉。但是我没他文采好。叙事干巴巴的。没有故事男主角说的好。【在 s**********s 的大作中提到】 : : 求科普此id

1

(共1页)

进入PhotoGear版参与讨论

相关主题
● 群众有结论了，Canon在专业可靠上赶上Nikon了。。。	● 性观念和社会道德
● 如何选择正确的测光模式？	● [合集] 请大牛们稍微指点一下,关于对焦
● 我是否有换机的必要（附图）	● 多点对焦有什么意义？
● 买了房和准备买房的佛爷们	● C家的点测到底是怎么运作的？
● 有点想把M3送到Shintaro那里去repaint一下。。。	● 用点测的请进
● S 50 Art VS Otus 55	● Leica R 80mm 试机照。
● 佳能后续机将采用全域快门	● 2,016像素RGB测光感应器
● 临界回归模型的连续性 (转载)	● 爱凤的那个测光表软件是不是中央加权测光？

相关话题的讨论汇总
话题: 临界点话题: 模型话题: cr话题: 全域话题: 对应

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)