陈大师，　我很好奇 - Statistics版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Statistics版 - 陈大师，　我很好奇

相关主题
● 统计学的新地平线——陈立功与他的自权重曲线	● A New Horizon of Statistics@Youtube
● 恭请luckyjet (tejykcul)回答二个问题	● 陈大师不是民科
● 答水泡泡：陈立功是谁教出来的？	● 我说老陈，咱别玩儿虚的了。你给说明一下这个简单的例子
● Great Confucius	● 陈大师为什么不回答我的问题呢？
● 居然还有人试图和陈大师讨论统计问题	● 陈大师的意思我终于有点领会了
● 陈大师的两大硬伤和两大法宝	● 请教:随机变量的分布函数问题
● 如何处理这样的missing value？	● logistic, overfit了怎么办？
● 长篇消遣：以科学理性为利剑，以艺术激情为锋芒	● Re: 关于肖手术的最新review (转载)

相关话题的讨论汇总
话题: your话题: statistics话题: 样本话题: 模型话题: sample

进入Statistics版参与讨论

(共1页)

s*****r
发帖数: 790

你说：
不过，我的美国老板、同样是拥有统计PhD学历的高级统计专家，却对我提出的理论和
方法表示了他的赞同。这是他支持我参加今年JSM年会的主要原因。如果他不认同我的
东西，如果他也像你们这样认为我在胡言乱语，他绝对不会用公司的经费支持我去出席
会议。
你在ｊｓｍ注册的单位是　The Department of Preventive Medicine and Biometris,
USUHS http://www.usuhs.mil/pmb/employees.html
我是非常好奇，你老板是哪个高级统计专家？他对你的东西是怎么认同的？那地方好
像还是有几个统计方向的人的，他们是怎么评价你的新理论的？

T*******I
发帖数: 5138

我刚刚修改了自己的affiliation. 我所说的那个美国白人统计专家以前是GW大学统计
系的教授，现在受聘于一家专门提供统计服务的公司。他面试我的时候和我讨论了我的
方法论。但现在我又主动离开了那家公司回到了USUHS。我离开的时候他两次拥抱了我
说我的离开使他感到很sad. 我之所以离开是因为我想帮以前的老板完成microarray的
data分析。我认为这对于我更具挑战性。我这次参会将是这个新老板资助。

Biometris,

【在 s*****r 的大作中提到】

: 你说：
: 不过，我的美国老板、同样是拥有统计PhD学历的高级统计专家，却对我提出的理论和
: 方法表示了他的赞同。这是他支持我参加今年JSM年会的主要原因。如果他不认同我的
: 东西，如果他也像你们这样认为我在胡言乱语，他绝对不会用公司的经费支持我去出席
: 会议。
: 你在ｊｓｍ注册的单位是　The Department of Preventive Medicine and Biometris,
: USUHS http://www.usuhs.mil/pmb/employees.html
: 我是非常好奇，你老板是哪个高级统计专家？他对你的东西是怎么认同的？那地方好
: 像还是有几个统计方向的人的，他们是怎么评价你的新理论的？

s*****r
发帖数: 790

【在 T*******I 的大作中提到】

: 我刚刚修改了自己的affiliation. 我所说的那个美国白人统计专家以前是GW大学统计
: 系的教授，现在受聘于一家专门提供统计服务的公司。他面试我的时候和我讨论了我的
: 方法论。但现在我又主动离开了那家公司回到了USUHS。我离开的时候他两次拥抱了我
: 说我的离开使他感到很sad. 我之所以离开是因为我想帮以前的老板完成microarray的
: data分析。我认为这对于我更具挑战性。我这次参会将是这个新老板资助。
:
: Biometris,

s*****r
发帖数: 790

坦白说,我不相信"那个美国白人统计专家以前是GW大学统计系的教授"可能对你的理论
表示一点点地赞同. 如果如你所言,你这个理论这么划时代,他又是做统计的,只需要随
便应用你的理论到任何问题上,对他都是一个巨大的promotion. 当然对你也有好处。
应用你非凡的哲学思想思考一下，为什么这种利人利己的事情他不干？并且绝对是大师
级的好处。

【在 T*******I 的大作中提到】

T*******I
发帖数: 5138

那我就没办法了。我没骗过人。我在他那里工作了将近两个月（只差一个星期满两个月
），是我自己主动离开的，离开的原因是多方面的，但最主要的考量是想将自权重定义
及其方法应用到microarray data分析中，因为在我离开前老板为他工作前，我就已经
在这个问题上作出过艰苦的思考过程。自权重的最终定义是在这个新老板这里工作期间
完成的（即4月16日最终修订完成我在JSM的abstract）。完成后才决定返回前老板那里
继续microarray的数据分析。这是真的。我想在这个领域挑战自己。如果以前离开前老
板时是因为没有找到正确的方法而放弃了这个挑战，那么现在我觉得我有了新的机会。
我觉得我在分段回归分析领域已经基本完成了自己的使命，我本可以在那里去推广应用
，但我想迎接新挑战。争论和/或应用是别人的事情，与我无关。
那位前GW的统计学教授在面试我的时候对我对最优化和强制连续性的批判表示了完全的
赞成，并且对三分迭代法很欣赏。正因为如此，他才决定要了我。否则，他干吗不像大
家一样认为我是个疯子？

【在 s*****r 的大作中提到】

: 坦白说,我不相信"那个美国白人统计专家以前是GW大学统计系的教授"可能对你的理论
: 表示一点点地赞同. 如果如你所言,你这个理论这么划时代,他又是做统计的,只需要随
: 便应用你的理论到任何问题上,对他都是一个巨大的promotion. 当然对你也有好处。
: 应用你非凡的哲学思想思考一下，为什么这种利人利己的事情他不干？并且绝对是大师
: 级的好处。

s*****r
发帖数: 790

要不我们打个赌吧。
１）那个人是统计学的教授。
２）他读过你的理论
３）认为你的理论是划时代的统计学理论
如果以上三条成立，我给你$100（真的美元）．如果不成立，你在版上公开声明，并把
你自己吹嘘自己的ｗｉｋｉ删掉。如何？
我相信只要你愿意，版上愿意与你赌的人还有。你可以小发一笔，并且真正扩大了影响。

【在 T*******I 的大作中提到】

: 那我就没办法了。我没骗过人。我在他那里工作了将近两个月（只差一个星期满两个月
: ），是我自己主动离开的，离开的原因是多方面的，但最主要的考量是想将自权重定义
: 及其方法应用到microarray data分析中，因为在我离开前老板为他工作前，我就已经
: 在这个问题上作出过艰苦的思考过程。自权重的最终定义是在这个新老板这里工作期间
: 完成的（即4月16日最终修订完成我在JSM的abstract）。完成后才决定返回前老板那里
: 继续microarray的数据分析。这是真的。我想在这个领域挑战自己。如果以前离开前老
: 板时是因为没有找到正确的方法而放弃了这个挑战，那么现在我觉得我有了新的机会。
: 我觉得我在分段回归分析领域已经基本完成了自己的使命，我本可以在那里去推广应用
: ，但我想迎接新挑战。争论和/或应用是别人的事情，与我无关。
: 那位前GW的统计学教授在面试我的时候对我对最优化和强制连续性的批判表示了完全的

T*******I
发帖数: 5138

你觉得科学的讨论是必须依赖打赌才能辨明是非的？你只需如实回答我的“孬种”一文
的最后问的那几个问题，如果你的答案与那位美国白人统计学教授一样，那么，你就不
会在此反复纠缠这个问题了。
我无意和你玩小孩子似的闹剧。你要想自己解脱，就去回答那几个问题。就当我在问你
：What are they? 而不是在问你：它们是否是随机变量？

响。

【在 s*****r 的大作中提到】

: 要不我们打个赌吧。
: １）那个人是统计学的教授。
: ２）他读过你的理论
: ３）认为你的理论是划时代的统计学理论
: 如果以上三条成立，我给你$100（真的美元）．如果不成立，你在版上公开声明，并把
: 你自己吹嘘自己的ｗｉｋｉ删掉。如何？
: 我相信只要你愿意，版上愿意与你赌的人还有。你可以小发一笔，并且真正扩大了影响。

g********r
发帖数: 8017

老大，microarray data到处都是公开的数据。GEO里面几十万片的数据。其中不乏大规
模质量非常好的数据组。用得着为了数据就换工作么？

【在 T*******I 的大作中提到】

s*****r
发帖数: 790

你那位白人教授的答案是什么？你把他的答案贴出来看看？
不是依赖打赌辩是非，是给你一点实际的好处让你学习。
这个赌，在地球上，我还不知道我能怎么输，除了作弊。

【在 T*******I 的大作中提到】

: 你觉得科学的讨论是必须依赖打赌才能辨明是非的？你只需如实回答我的“孬种”一文
: 的最后问的那几个问题，如果你的答案与那位美国白人统计学教授一样，那么，你就不
: 会在此反复纠缠这个问题了。
: 我无意和你玩小孩子似的闹剧。你要想自己解脱，就去回答那几个问题。就当我在问你
: ：What are they? 而不是在问你：它们是否是随机变量？
:
: 响。

T*******I
发帖数: 5138

那就请你给个link，或直接给一个数据库。我来独立地try。我原本打算和目前的老板
共同做的。如果我能得到开放式数据，我可以一个人干。

【在 g********r 的大作中提到】

: 老大，microarray data到处都是公开的数据。GEO里面几十万片的数据。其中不乏大规
: 模质量非常好的数据组。用得着为了数据就换工作么？

相关主题
● 陈大师的两大硬伤和两大法宝	● A New Horizon of Statistics@Youtube
● 如何处理这样的missing value？	● 陈大师不是民科
● 长篇消遣：以科学理性为利剑，以艺术激情为锋芒	● 我说老陈，咱别玩儿虚的了。你给说明一下这个简单的例子
进入Statistics版参与讨论

g********r
发帖数: 8017

google "GEO"

【在 T*******I 的大作中提到】

: 那就请你给个link，或直接给一个数据库。我来独立地try。我原本打算和目前的老板
: 共同做的。如果我能得到开放式数据，我可以一个人干。

T*******I
发帖数: 5138

他的答案与我的一样，而我早已贴出来了。版上很多人都知道啊。

【在 s*****r 的大作中提到】

: 你那位白人教授的答案是什么？你把他的答案贴出来看看？
: 不是依赖打赌辩是非，是给你一点实际的好处让你学习。
: 这个赌，在地球上，我还不知道我能怎么输，除了作弊。

s*****r
发帖数: 790

你说有谁相信吧。一个统计学教授，和你的答案一样。你真是说笑话都不好笑呀。

【在 T*******I 的大作中提到】

: 他的答案与我的一样，而我早已贴出来了。版上很多人都知道啊。

T*******I
发帖数: 5138

ok, 那么你去回答好了：它们是什么？你能否用最小合并残差选定临界模型？你如果回
答不了，就不要在此斗嘴皮子了。我不会奉陪到底。这没有意义。

【在 s*****r 的大作中提到】

: 你说有谁相信吧。一个统计学教授，和你的答案一样。你真是说笑话都不好笑呀。

s********n
发帖数: 69

我赌5000美元。陈大师，你只要提供那个教授的资料就可以了。我自己打电话去问，而
且会把录音放在这里。

A*******s
发帖数: 3942

老陈经常臆想的，以前在板上都是这样对我打招呼的--
“精算兄，你在板上的辩论从来都没赢过我，你怎么还敢说我不懂统计？”
很好玩

【在 s*****r 的大作中提到】

: 你说有谁相信吧。一个统计学教授，和你的答案一样。你真是说笑话都不好笑呀。

s********n
发帖数: 69

神经就神经了，还到维基上去胡扯，误导大家，真受不了。

T*******I
发帖数: 5138

No way.
如果你真有心打这个赌，就请你去回答那几个问题。我早已邀请过你了。如果你依然不
去回答，恕不奉陪。你就在自己的脑袋里跟自己打赌好了。

【在 s********n 的大作中提到】

: 我赌5000美元。陈大师，你只要提供那个教授的资料就可以了。我自己打电话去问，而
: 且会把录音放在这里。

s*****r
发帖数: 790

你这学校是政府出资吧？难怪政府赤字那么大。
我很好奇你这个新老板是谁。说实话，你所参与的任何工作，只要统计相关，我都表示
怀疑。

【在 T*******I 的大作中提到】

A*******s
发帖数: 3942

给你再多的data都没有用，你只会拼命地overfit一个sample。

【在 T*******I 的大作中提到】

: 那就请你给个link，或直接给一个数据库。我来独立地try。我原本打算和目前的老板
: 共同做的。如果我能得到开放式数据，我可以一个人干。

相关主题
● 陈大师为什么不回答我的问题呢？	● logistic, overfit了怎么办？
● 陈大师的意思我终于有点领会了	● Re: 关于肖手术的最新review (转载)
● 请教:随机变量的分布函数问题	● 如果你不是孬种数学背景的统计学家，请接受挑战
进入Statistics版参与讨论

s*****r
发帖数: 790

奇怪。他是一个faculty, 以前的信息很多都是公开的。你给个名字好了，大家自己找
联系方式。你也不用承担什么责任。如果他现在做consulting, 他也不会介意和统计界
的人多接触。
你就当在找peer reviewer好了，这次这个是对你工作非常赞赏的，通过率应该很高吧。

【在 T*******I 的大作中提到】

: No way.
: 如果你真有心打这个赌，就请你去回答那几个问题。我早已邀请过你了。如果你依然不
: 去回答，恕不奉陪。你就在自己的脑袋里跟自己打赌好了。

T*******I
发帖数: 5138

我给自己老板做的工作都是按照现行的标准方法做的，程序都是可复查的，结果是可重
复的。我从来没有将自己的未正式发表的方法用在老板的研究项目上。除非他同意我们
进行方法学的探索和开发，我才会使用他的数据。我自己的方法论研究都是用的开放式
数据库。
算了，我不再回答你的任何问题了，你的思想已经严重脱轨了。尽管我尊重你的学识，
但请你也尊重我的人品和能力。

【在 s*****r 的大作中提到】

: 你这学校是政府出资吧？难怪政府赤字那么大。
: 我很好奇你这个新老板是谁。说实话，你所参与的任何工作，只要统计相关，我都表示
: 怀疑。

w****a
发帖数: 114

我说我说。。。。。。
别太过了吧。。还是算了吧，何必呢。
我真的觉得算了吧，何必较真呢？
$100, 还$5,000，你们这是怎么了？

T*******I
发帖数: 5138

他们这样做已经超乎寻常地脱离学术讨论的轨道了。事情极其简单，回答我提的那几个
简单问题就够了。装什么鸟？

【在 w****a 的大作中提到】

: 我说我说。。。。。。
: 别太过了吧。。还是算了吧，何必呢。
: 我真的觉得算了吧，何必较真呢？
: $100, 还$5,000，你们这是怎么了？

s*****r
发帖数: 790

菩萨心肠，雷霆手段呀。哈哈

【在 w****a 的大作中提到】

: 我说我说。。。。。。
: 别太过了吧。。还是算了吧，何必呢。
: 我真的觉得算了吧，何必较真呢？
: $100, 还$5,000，你们这是怎么了？

w****a
发帖数: 114

没有菩萨心肠，雷霆手段倒是真的。
真的没有必要，何必呢？

【在 s*****r 的大作中提到】

: 菩萨心肠，雷霆手段呀。哈哈

l********w
发帖数: 253

说说那个教授是谁吧，这样也好堵住众人口啊。

T*******I
发帖数: 5138

没有必要吧。如果我需要此人推荐时，那应该是正式场合下。谁会理这种鸟场合？

【在 l********w 的大作中提到】

: 说说那个教授是谁吧，这样也好堵住众人口啊。

s*****r
发帖数: 790

我觉得还真是菩萨心肠，雷霆手段算不上。
你看看这么多人苦口婆心，为了什么？还不是为了拯救一个失足的有梦想的孩子？

【在 w****a 的大作中提到】

: 没有菩萨心肠，雷霆手段倒是真的。
: 真的没有必要，何必呢？

w****a
发帖数: 114

可不，毕竟好人多嘛。

【在 s*****r 的大作中提到】

: 我觉得还真是菩萨心肠，雷霆手段算不上。
: 你看看这么多人苦口婆心，为了什么？还不是为了拯救一个失足的有梦想的孩子？

相关主题
● 陈来错地方了	● 恭请luckyjet (tejykcul)回答二个问题
● let's settle this once and for all	● 答水泡泡：陈立功是谁教出来的？
● 统计学的新地平线——陈立功与他的自权重曲线	● Great Confucius
进入Statistics版参与讨论

s*****r
发帖数: 790

你什么时候需要此人推荐？你觉得什么场合他可能给你做推荐？
ＪＳＭ很多人都去，他去么？他会去听你划时代的演讲么？他会ｓｕｐｐｏｒｔ你么？

【在 T*******I 的大作中提到】

: 没有必要吧。如果我需要此人推荐时，那应该是正式场合下。谁会理这种鸟场合？

T*******I
发帖数: 5138

你愿意把这种纯私人事务公开乱讲吗？

？

【在 s*****r 的大作中提到】

: 你什么时候需要此人推荐？你觉得什么场合他可能给你做推荐？
: ＪＳＭ很多人都去，他去么？他会去听你划时代的演讲么？他会ｓｕｐｐｏｒｔ你么？

l********w
发帖数: 253

老陈不应该觉得这位教授的信息需要保密吧，你在网上都敢用真实姓名，自然不需要为
了自己保密。而学术界人士信息都是公开的，说出他的名字不算泄露隐私吧。

T*******I
发帖数: 5138

你对我不想让你知道的事情很来劲，却对我提出要你回答的问题却视而不见。建议你还是先回答我的那些问题以显示自己讨论问题和予人尊重的诚意，既然想和我对话，那就先将两人之间可谈的部分谈完了再说。否则，请你靠边站。

【在 l********w 的大作中提到】

: 老陈不应该觉得这位教授的信息需要保密吧，你在网上都敢用真实姓名，自然不需要为
: 了自己保密。而学术界人士信息都是公开的，说出他的名字不算泄露隐私吧。

l********w
发帖数: 253

老陈，之前不断有同学让你回答关于概率论基本概念的问题，你为什么不回答而继续跟
他们辩论呢？我看不懂你的问题，要如何回答？不回答就要靠边站，你这不是双重标准
是什么？

T*******I
发帖数: 5138

你是真看不懂还是故意装14？要不我把问题重复在这里：
给定一个两分法的样本（假定X是自变量而Y是因变量，两段都是简单线性模型，且临界
点是在X上）。现行算法及分段模型组的基本表述如下：
hat\y_1 = a1+b1X if X<=t
hat\y_2 = a2+b2X if X>t
ID X Y M CR
1 x1 y1 m1 cr1
2 x2 y2 m2 cr2
3 x3 y3 m3 cr3
4 x4 y4 m4 cr4
5 x5 y5 m5 cr5
6 x6 y6 m6 cr6
7 x7 y7 m7* cr7 min(.)
8 x8 y8 m8 cr8
9 x9 y9 m9 cr9
0 x0 y0 m0 cr0
我对上述方法进行了如下改造：
hat\y_1 = a1+b1X if X<=t_bar (t: Threshold)
hat\y_2 = a2+b2X if X>=t_bar
ID X=T Y R M CR CRR=W
1 x1=t1 y1 r m1 cr1 w1=|r-cr1|/r
2 x2=t2 y2 r m2 cr2 w2=|r-cr2|/r
3 x3=t3 y3 r m3 cr3 w3=|r-cr3|/r
4 x4=t4 y4 r m4 cr4 w4=|r-cr4|/r
5 x5=t5 y5 r m5 cr5 w5=|r-cr5|/r
6 x6=t6 y6 r m6 cr6 w6=|r-cr6|/r
7 x7=t7 y7 r m7 cr7 w7=|r-cr7|/r
8 x8=t8 y8 r m8 cr8 w8=|r-cr8|/r
9 x9=t9 y9 r m9 cr9 w9=|r-cr9|/r
0 x0=t0 y0 r m0 cr0 w0=|r-cr0|/r
请问，我的分析逻辑和算法错在哪？显然，任何一个受过统计学常识训练的人都会赞成
这个分析逻辑和算法。现在，请你回答以下几个问题：
1）X, M, R, CR以及CRR等是否是随机变量？
2）min(CR)与m7之间的对应是一个随机对应还是一个期望对应？
3）我们可否用最优化来决定临界模型的期望？换句话说，对应于min(CR)的临界模型是
稳定的因而是可以被期望的模型吗？
4）所谓的“概率收敛”在CR上会收敛到min(CR)处吗？
我的答案是：1）是；2）否；3）否；4）它应该会收敛到一个理论上的min(CR)，但决不会
收敛到一个由样本数据计算出来的min(CR)。
回答还是不回答你看着办吧。恕不奉陪。

【在 l********w 的大作中提到】

: 老陈，之前不断有同学让你回答关于概率论基本概念的问题，你为什么不回答而继续跟
: 他们辩论呢？我看不懂你的问题，要如何回答？不回答就要靠边站，你这不是双重标准
: 是什么？

T*******I
发帖数: 5138

你的数学祖师爷迪卡尔要你不要相信任何既定的理论，要你放下你从他人那里学到的全部知识，然后进行自己的独立思考。你为什么不照他说的做呢？
我从来没有断言自己的是100%正确，而是说它们是我自己独立思考的结果且在这种意义下达到了其自身的尽可能完美。我也从未要求他人接受它们，仅仅只是试图用一个开放式的渠道表达它们。如果你认为它们不对，你可以去批驳，也可以不鸟它们。干吗跟我如此这般呢？难道这里是你私人的领地？难道这里不允许发布或讨论一个学术思想？你是脑袋发贱了还是怎么着了?
有谁敢声称自己发表的文章中所说的话是100%正确？即使你在统计学里发表过100篇papers，你敢声称自己的东西是100%正确吗？大家都不过是在探索这个巨大而无限的不可知世界而已。

【在 l********w 的大作中提到】

c*****r
发帖数: 2608

GW大学统计系的哪个白人教授，说来听听，俺可能知道

l********w
发帖数: 253

你的四个问题，只有第一个问题可以确定的回答：是。第二个问题里面的“随机对应”
和“期望对应”都是你发明的新概念，在你的定义不能被人看懂的情况下，你让人如何
回答。最后说一句，你认为现在通行的回归是用一条确定性的曲线去描述数据，这你就
错了，你知道回归曲线的每一个参数都只是一个估计，是具有confidence interval的
吗？

【在 T*******I 的大作中提到】

: 你是真看不懂还是故意装14？要不我把问题重复在这里：
: 给定一个两分法的样本（假定X是自变量而Y是因变量，两段都是简单线性模型，且临界
: 点是在X上）。现行算法及分段模型组的基本表述如下：
: hat\y_1 = a1+b1X if X<=t
: hat\y_2 = a2+b2X if X>t
: ID X Y M CR
: 1 x1 y1 m1 cr1
: 2 x2 y2 m2 cr2
: 3 x3 y3 m3 cr3
: 4 x4 y4 m4 cr4

T*******I
发帖数: 5138

You cannot answer Q2 and Q3 because you are lack of necessary concepts. This
is your problem but not mine.
Since you cannot answer the Q2 and Q3, let me try to ask you in another way:
What is the property of the min(CR) and m7? Are they just random point measures, or expected measures for CR and M, respectively?
"最后说一句，你认为现在通行的回归是用一条确定性的曲线去描述数据，这你就错了"
You misunderstood me.
"你知道回归曲线的每一个参数都只是一个估计" There is no 参数 in a sample, and
the population 回归曲线 is unknown. A 参数 does not have a confidence
interval since we even don't know it.
Your basic conceptual system is messed up completely.
However, you are the first one who answered the Q1, and your answer is right. Thanks.

【在 l********w 的大作中提到】

:
: 你的四个问题，只有第一个问题可以确定的回答：是。第二个问题里面的“随机对应”
: 和“期望对应”都是你发明的新概念，在你的定义不能被人看懂的情况下，你让人如何
: 回答。最后说一句，你认为现在通行的回归是用一条确定性的曲线去描述数据，这你就
: 错了，你知道回归曲线的每一个参数都只是一个估计，是具有confidence interval的
: 吗？

相关主题
● Great Confucius	● 如何处理这样的missing value？
● 居然还有人试图和陈大师讨论统计问题	● 长篇消遣：以科学理性为利剑，以艺术激情为锋芒
● 陈大师的两大硬伤和两大法宝	● A New Horizon of Statistics@Youtube
进入Statistics版参与讨论

g********r
发帖数: 8017

请陈大师讲解一下什么叫装14？

【在 T*******I 的大作中提到】

q*****q
发帖数: 158

Master Chen, can I have a question? Do you know what is point measure in
statistics?
Do not always say its other's problem but not yours. You claim that you are
such a great statistician and you want to be accepted, so you should give
people correct concepts, convince people and allow people to talk about
their comments.

This
way:
measures, or expected measures for CR and M, respectively?
了"
and

【在 T*******I 的大作中提到】

: You cannot answer Q2 and Q3 because you are lack of necessary concepts. This
: is your problem but not mine.
: Since you cannot answer the Q2 and Q3, let me try to ask you in another way:
: What is the property of the min(CR) and m7? Are they just random point measures, or expected measures for CR and M, respectively?
: "最后说一句，你认为现在通行的回归是用一条确定性的曲线去描述数据，这你就错了"
: You misunderstood me.
: "你知道回归曲线的每一个参数都只是一个估计" There is no 参数 in a sample, and
: the population 回归曲线 is unknown. A 参数 does not have a confidence
: interval since we even don't know it.
: Your basic conceptual system is messed up completely.

w***n
发帖数: 1084

陈大师明显不知道。陈大师对measure的理解就是拿尺子测一下。
以后这种明知故问的问题不要拿出来问。

are

【在 q*****q 的大作中提到】

: Master Chen, can I have a question? Do you know what is point measure in
: statistics?
: Do not always say its other's problem but not yours. You claim that you are
: such a great statistician and you want to be accepted, so you should give
: people correct concepts, convince people and allow people to talk about
: their comments.
:
: This
: way:
: measures, or expected measures for CR and M, respectively?

T*******I
发帖数: 5138

You should be able to figure it out since you are so smart. Tyr it again. If
still not, ask again.

【在 g********r 的大作中提到】

: 请陈大师讲解一下什么叫装14？

g********r
发帖数: 8017

请陈大师讲解一下什么叫装14？

If

【在 T*******I 的大作中提到】

: You should be able to figure it out since you are so smart. Tyr it again. If
: still not, ask again.

d******e
发帖数: 7844

陈大师干嘛要学测度？学完之后发现自己所谓的研究都是垃圾（不过我十分怀疑陈大师
能不能学明白）？你这不是想让陈大师自毁民科之路么？

【在 w***n 的大作中提到】

: 陈大师明显不知道。陈大师对measure的理解就是拿尺子测一下。
: 以后这种明知故问的问题不要拿出来问。
:
: are

T*******I
发帖数: 5138

in your conceptual system, a statistic is a point measure. That is right.
In my conceptual system, any random point of a random variable is a random point measure.
Wooooops, in your conceptual system, a random point value x_i is a random variable. So, there is no such a "random point measure" I used above in your
conceptual system.
If you all guys still cannot understand, please go to the "再向版上开一枪". That is my conceptual system

are

【在 q*****q 的大作中提到】

d******e
发帖数: 7844

陈大师再顺便解释解释你世界里的随机变量给大家看看

your

【在 T*******I 的大作中提到】

: in your conceptual system, a statistic is a point measure. That is right.
: In my conceptual system, any random point of a random variable is a random point measure.
: Wooooops, in your conceptual system, a random point value x_i is a random variable. So, there is no such a "random point measure" I used above in your
: conceptual system.
: If you all guys still cannot understand, please go to the "再向版上开一枪". That is my conceptual system
:
: are

q*****q
发帖数: 158

You can guess again or google or wiki...

your

【在 T*******I 的大作中提到】

T*******I
发帖数: 5138

Ok, I would like to do so.
In my conceptual system, only X can be called random variable if it has n
random point measures or random constants x_i, so the x_i can not be called
random variable again.
Since the X and x_i are different, they cannot be messed up in the conceptual system.

【在 d******e 的大作中提到】

: 陈大师再顺便解释解释你世界里的随机变量给大家看看
:
: your

相关主题
● 陈大师不是民科	● 陈大师的意思我终于有点领会了
● 我说老陈，咱别玩儿虚的了。你给说明一下这个简单的例子	● 请教:随机变量的分布函数问题
● 陈大师为什么不回答我的问题呢？	● logistic, overfit了怎么办？
进入Statistics版参与讨论

d******e
发帖数: 7844

大师给个例子吧。

called
conceptual system.

【在 T*******I 的大作中提到】

: Ok, I would like to do so.
: In my conceptual system, only X can be called random variable if it has n
: random point measures or random constants x_i, so the x_i can not be called
: random variable again.
: Since the X and x_i are different, they cannot be messed up in the conceptual system.

T*******I
发帖数: 5138

Please go to the "再向版上开一枪". That is my conceptual system.

【在 d******e 的大作中提到】

: 大师给个例子吧。
:
: called
: conceptual system.

g********r
发帖数: 8017

请陈大师讲解一下什么叫装14？

【在 T*******I 的大作中提到】

: Please go to the "再向版上开一枪". That is my conceptual system.

T*******I
发帖数: 5138

1 sounds like yao;
4 sounds like si.

【在 g********r 的大作中提到】

: 请陈大师讲解一下什么叫装14？

g********r
发帖数: 8017

请大师讲解一下什么叫“装要死”？

【在 T*******I 的大作中提到】

: 1 sounds like yao;
: 4 sounds like si.

T*******I
发帖数: 5138

You sould understand. Don't 装 14, please.

【在 g********r 的大作中提到】

: 请大师讲解一下什么叫“装要死”？

g********r
发帖数: 8017

大师总是创个新词，就说别人should understand。别人哪有大师冰雪聪明啊？偏偏不
懂。

【在 T*******I 的大作中提到】

: You sould understand. Don't 装 14, please.

d******e
发帖数: 7844

随机变量这种关键概念，需要好好解释解释的。
你来解释解释，比如一个0-1分布，观测到1的概率为0.2，观测到的数据为
010100011110100010101001000101110010。
你如何把上面的情况对应到你的概念里？

【在 T*******I 的大作中提到】

: Please go to the "再向版上开一枪". That is my conceptual system.

T*******I
发帖数: 5138

Don't 装 14, please.

【在 g********r 的大作中提到】

: 大师总是创个新词，就说别人should understand。别人哪有大师冰雪聪明啊？偏偏不
: 懂。

g********r
发帖数: 8017

我是真的不懂啊。不管“装14”还是“装要死”我都google了。没人用过。
完全大师首创。我等驽钝，不能理解也是正常的。

【在 T*******I 的大作中提到】

: Don't 装 14, please.

相关主题
● Re: 关于肖手术的最新review (转载)	● let's settle this once and for all
● 如果你不是孬种数学背景的统计学家，请接受挑战	● 统计学的新地平线——陈立功与他的自权重曲线
● 陈来错地方了	● 恭请luckyjet (tejykcul)回答二个问题
进入Statistics版参与讨论

T*******I
发帖数: 5138

Yes, you are right, I am creative. I won't just follow others.

【在 g********r 的大作中提到】

: 我是真的不懂啊。不管“装14”还是“装要死”我都google了。没人用过。
: 完全大师首创。我等驽钝，不能理解也是正常的。

d******e
发帖数: 7844

一部分民间 “科学家” 之所以用自己浅陋不堪的 “理论” 去挑战现代科学，还往
往能挑战得神气十足、老气横秋、乃至盛气凌人，其中很重要的一点就是他们是彻
底地 “轻装上阵”，他们不仅扔掉了现代科学的数学框架，也扔掉了现代科学背后
庞大的实验基础。所以他们可以声称自己的一个没有任何定量结果，没有任何精密实
验支持的 “理论” 超越或推翻了一个有坚实实验基础的科学理论。连科学是人类描
述自然的一种努力 - 从而必须尊重实验观测 - 这样基本的原则都可以视而不见，现
代科学在他们手中自然就变得可以任意宰割了。但是离开了这两者 (数学框架和实验
基础)，科学就退回到了伽利略之前的时代，这事实上也就是绝大多数民间 “科学家
” 所能达到的最高水准 (甚至于连这样的水准也已经是一种高估，因为即使在伽利略
之前就已经有不少的学者，比如哥白尼，甚至包括托勒密，用相当观测化和数学化
的方式来构筑理论了)。民间 “科学家” 们如果意识不到科普以及他们建立在科普之
上的知识体系的局限性，只怕永远也超越不了这一水准。

【在 T*******I 的大作中提到】

: Yes, you are right, I am creative. I won't just follow others.

g********r
发帖数: 8017

那你总得给个定义吧？要不下次谁不懂，又被大师鄙视了多冤枉啊。

【在 T*******I 的大作中提到】

: Yes, you are right, I am creative. I won't just follow others.

T*******I
发帖数: 5138

Actually you have figured it out. You are right.

【在 g********r 的大作中提到】

: 那你总得给个定义吧？要不下次谁不懂，又被大师鄙视了多冤枉啊。

g********r
发帖数: 8017

我没有figure out啊。大师明示。

【在 T*******I 的大作中提到】

: Actually you have figured it out. You are right.

T*******I
发帖数: 5138

Who wrote this: 装要死? You or me?

【在 g********r 的大作中提到】

: 我没有figure out啊。大师明示。

s*****r
发帖数: 790

==========================
what is the "n"? do you mean you can count how many of your all possible
random point measures? (I know n can be infinite).
let me ask you a question: assume your random variable X takes values in the
interval(0,1). But for any value the probability is 0. Is it possible? why?
called
conceptual system.

【在 T*******I 的大作中提到】

g********r
发帖数: 8017

“装要死”在大师得行文中比喻什么呢？
大师说“你是真看不懂还是故意装14？要不我把问题重复在这里：”

【在 T*******I 的大作中提到】

: Who wrote this: 装要死? You or me?

T*******I
发帖数: 5138

No. The n is sample size and should never be infinite. Statistics never
treat an infinite sample; otherwise, it is a joke.
If the X, here it is measured in a continuous space, always take the value 0, it is a constant and might be empty or meaningless in Statistics.
Please be awared, I discussed over a sample but not over a population since only the sample can give us some known information thus we can discuss over it, but the population is totally unknown thus we cannot discuss over it.

【在 s*****r 的大作中提到】

:
: ==========================
: what is the "n"? do you mean you can count how many of your all possible
: random point measures? (I know n can be infinite).
: let me ask you a question: assume your random variable X takes values in the
: interval(0,1). But for any value the probability is 0. Is it possible? why?
: called
: conceptual system.

d******e
发帖数: 7844

看来大师不能区分random variable和random sample。

0

【在 T*******I 的大作中提到】

: No. The n is sample size and should never be infinite. Statistics never
: treat an infinite sample; otherwise, it is a joke.
: If the X, here it is measured in a continuous space, always take the value 0, it is a constant and might be empty or meaningless in Statistics.
: Please be awared, I discussed over a sample but not over a population since only the sample can give us some known information thus we can discuss over it, but the population is totally unknown thus we cannot discuss over it.

相关主题
● 恭请luckyjet (tejykcul)回答二个问题	● 居然还有人试图和陈大师讨论统计问题
● 答水泡泡：陈立功是谁教出来的？	● 陈大师的两大硬伤和两大法宝
● Great Confucius	● 如何处理这样的missing value？
进入Statistics版参与讨论

s*****r
发帖数: 790

0
===========================
who said it always takes the value 0? I said it takes any value with 0
probability.
I don't think you understand the difference between a rv and its realization.
since only the sample can give use some known information thus we can
discuss over it, but the population is totally unknown thus we cannot
discuss over it.

【在 T*******I 的大作中提到】

y*****y
发帖数: 98

你们.....累不?

T*******I
发帖数: 5138

Are you kidding or absurd? That a X takes "any value" with 0 probability means it takes nothing thus the set of X is empty. Is it worth to discuss such a "variable" in Statistics? You might discuss it in mathematics with your subjective assumption, but Statistics is not a kind of math.
As for the difference between rv and its realization: Do you mean a rv is not in a real world but just in your mind? This is a joke.

【在 s*****r 的大作中提到】

:
: 0
: ===========================
: who said it always takes the value 0? I said it takes any value with 0
: probability.
: I don't think you understand the difference between a rv and its realization.
: since only the sample can give use some known information thus we can
: discuss over it, but the population is totally unknown thus we cannot
: discuss over it.

s*****r
发帖数: 790

what your reply is really, authentic joke. I can't help laughing at you.
you know a random variable that follows standard normal distribution, right?
what is the probability it takes any specific value?
it is really a shameless act for you speak at JSM. that is gonna be a
big joke.

means it takes nothing thus the set of X is empty. Is it worth to discuss
such a "variable" in Statistics? You might discuss it in mathematics with
your subjective assumption, but Statistics is not a kind of math.
not in a real world but just in your mind? This is a joke.

【在 T*******I 的大作中提到】

: Are you kidding or absurd? That a X takes "any value" with 0 probability means it takes nothing thus the set of X is empty. Is it worth to discuss such a "variable" in Statistics? You might discuss it in mathematics with your subjective assumption, but Statistics is not a kind of math.
: As for the difference between rv and its realization: Do you mean a rv is not in a real world but just in your mind? This is a joke.

l***o
发帖数: 5337

淡定，淡定。你又不是现在才知道 ‘This is a joke’的。

right?
be a
discuss
with

【在 s*****r 的大作中提到】

: what your reply is really, authentic joke. I can't help laughing at you.
: you know a random variable that follows standard normal distribution, right?
: what is the probability it takes any specific value?
: it is really a shameless act for you speak at JSM. that is gonna be a
: big joke.
:
: means it takes nothing thus the set of X is empty. Is it worth to discuss
: such a "variable" in Statistics? You might discuss it in mathematics with
: your subjective assumption, but Statistics is not a kind of math.
: not in a real world but just in your mind? This is a joke.

T*******I
发帖数: 5138

Who told you that "a random variable (that??? a linguistic issue??)follows standard normal distribution"? The reald world or somebody or a theory?

【在 s*****r 的大作中提到】

l***o
发帖数: 5337

要想给他讲他错在什么地方，简直无从下嘴。大家可能都有体会：要给其他领域的人
（完全不懂统计）讲清楚统计概念或方法不难，但这次显然是个例外。。。

right?
be a
discuss
with

【在 s*****r 的大作中提到】

l***o
发帖数: 5337

这个。。。太经典了。。。

issue??)follows standard normal distribution"? The reald world or somebody
or a theory?

【在 T*******I 的大作中提到】

: Who told you that "a random variable (that??? a linguistic issue??)follows standard normal distribution"? The reald world or somebody or a theory?

d*******e
发帖数: 1649

淡定，jsm有个把民科很正常。物理里面aps meeting上面也有美国的民科，我以前老板
经常借此说明refer入会的必要性。

right?
a

【在 s*****r 的大作中提到】

s*****r
发帖数: 790

the problem is the chair will have to introduce the speakers, and I would
feel embarrassed. haha.
it would be fun to watch this. unfortunately I won't attend this year.
Please share when you have the chance.

【在 d*******e 的大作中提到】

: 淡定，jsm有个把民科很正常。物理里面aps meeting上面也有美国的民科，我以前老板
: 经常借此说明refer入会的必要性。
:
: right?
: a

相关主题
● 长篇消遣：以科学理性为利剑，以艺术激情为锋芒	● 我说老陈，咱别玩儿虚的了。你给说明一下这个简单的例子
● A New Horizon of Statistics@Youtube	● 陈大师为什么不回答我的问题呢？
● 陈大师不是民科	● 陈大师的意思我终于有点领会了
进入Statistics版参与讨论

T*******I
发帖数: 5138

I see. You are right. But what I tried to express is different from yours.
I think you might mean a complete probability space is [0, 1], so 0 cannot
be ignored.

right?
a

【在 s*****r 的大作中提到】

A*******s
发帖数: 3942

oh my god. i didn't know that u r completely ignorant of pdf...

means it takes nothing thus the set of X is empty. Is it worth to discuss
such a "variable" in Statistics? You might discuss it in mathematics with
your subjective assumption, but Statistics is not a kind of math.
not in a real world but just in your mind? This is a joke.

【在 T*******I 的大作中提到】

s*****r
发帖数: 790

no. you mean complete by inclusive? too far from right.

【在 T*******I 的大作中提到】

: I see. You are right. But what I tried to express is different from yours.
: I think you might mean a complete probability space is [0, 1], so 0 cannot
: be ignored.
:
: right?
: a

s*****r
发帖数: 790

never underestimate master chen.
can you think of a more basic concept?

【在 A*******s 的大作中提到】

: oh my god. i didn't know that u r completely ignorant of pdf...
:
: means it takes nothing thus the set of X is empty. Is it worth to discuss
: such a "variable" in Statistics? You might discuss it in mathematics with
: your subjective assumption, but Statistics is not a kind of math.
: not in a real world but just in your mind? This is a joke.

T*******I
发帖数: 5138

You designed a trap for me with an unclear concept. You should sense that
what I expressed is different from yours. So, please use clear concept
without any confusion when you talking.
What I said is of a random varianle in a real random sample. And what you
talked about is a theoretical random variable with its pdf.

【在 s*****r 的大作中提到】

: no. you mean complete by inclusive? too far from right.

s*****r
发帖数: 790

thank you by saying it is not clear for you.
I should feel shameful if it is clear in your system.

【在 T*******I 的大作中提到】

: You designed a trap for me with an unclear concept. You should sense that
: what I expressed is different from yours. So, please use clear concept
: without any confusion when you talking.
: What I said is of a random varianle in a real random sample. And what you
: talked about is a theoretical random variable with its pdf.

d******e
发帖数: 7844

哈哈哈，陈大师说别人的concept是unclear的

【在 T*******I 的大作中提到】

T*******I
发帖数: 5138

Anyhow, 我希望大家能够理解的是，我所思考的概念系统是从实际样本中抽象出来的。尽管我试图厘清所有相关要素间的差别和联系，从而使得其中没有任何混淆，但我也没有断言说我的就是正确的。我只是说这是一个尝试。
另外，我认为它们应该是在概率论形成之前的一个概念系统。所以，如果大家要用概率论中的既定概念系统考验我的话，我承认我是没有能力和大家讨论的，因为它们已经被完全数学化了，而我是学医学出生的。希望你们能够意识到这样做是不对等的。
如果有人能从我的概念系统中受到启发而不是全盘否定，或许他/她能将两个概念系统通过自己的改造将它们最终有效地连接起来。如果真的能够这样，那么，我也就心满意足了；如果不能，我也没有能力做到，故更不会坚持。
我坚信，我们是先有样本才需要概率论而不是先有概率论才有样本由此导出。因此，由样本中抽象出的概念（=随机事件1）必然先于概率论的诞生（=随机事件2）。这是我坚信不疑的观点。正因为如此，统计学的基本概念系统首先是从样本中抽象出来，而不是先在概率论中产生再回到统计学中的。因此，我希望大家不要把上述两个随机事件的发生顺序搞颠倒了。

【在 s*****r 的大作中提到】

: thank you by saying it is not clear for you.
: I should feel shameful if it is clear in your system.

s*****r
发帖数: 790

you don't know nothing about the statistics.
we never care about the properties of the samples. because all the
properties about the sample is fixed by the sample. we care the properties
of the population where the sample comes from. we want to infer that from
the sample.

。尽管我试图厘清所有相关要素间的差别和联系，从而使得其中没有任何混淆，但我也
没有断言说我的就是正确的。我只是说这是一个尝试。
率论中的既定概念系统考验我的话，我承认我是没有能力和大家讨论的，因为它们已经
被完全数学化了，而我是学医学出生的。希望你们能够意识到这样做是不对等的。
统通过自己的改造将它们最终有效地连接起来。如果真的能够这样，那么，我也就心满
意足了；如果不能，我也没有能力做到，故更不会坚持。
由样本中抽象出的概念必然先于概率论的诞生。这是我坚信不疑的观点。正因为如此，
统计学的基本概念系统首先是从样本中抽象出来，而不是先在概率论中产生再回到统计
学中的。

【在 T*******I 的大作中提到】

: Anyhow, 我希望大家能够理解的是，我所思考的概念系统是从实际样本中抽象出来的。尽管我试图厘清所有相关要素间的差别和联系，从而使得其中没有任何混淆，但我也没有断言说我的就是正确的。我只是说这是一个尝试。
: 另外，我认为它们应该是在概率论形成之前的一个概念系统。所以，如果大家要用概率论中的既定概念系统考验我的话，我承认我是没有能力和大家讨论的，因为它们已经被完全数学化了，而我是学医学出生的。希望你们能够意识到这样做是不对等的。
: 如果有人能从我的概念系统中受到启发而不是全盘否定，或许他/她能将两个概念系统通过自己的改造将它们最终有效地连接起来。如果真的能够这样，那么，我也就心满意足了；如果不能，我也没有能力做到，故更不会坚持。
: 我坚信，我们是先有样本才需要概率论而不是先有概率论才有样本由此导出。因此，由样本中抽象出的概念（=随机事件1）必然先于概率论的诞生（=随机事件2）。这是我坚信不疑的观点。正因为如此，统计学的基本概念系统首先是从样本中抽象出来，而不是先在概率论中产生再回到统计学中的。因此，我希望大家不要把上述两个随机事件的发生顺序搞颠倒了。

l********w
发帖数: 253

这是说到点子上了，大师认为不需要用cross-validation去验证他的方法就是因为他认
为只要overfitting他的sample就对了。

【在 s*****r 的大作中提到】

: you don't know nothing about the statistics.
: we never care about the properties of the samples. because all the
: properties about the sample is fixed by the sample. we care the properties
: of the population where the sample comes from. we want to infer that from
: the sample.
:
: 。尽管我试图厘清所有相关要素间的差别和联系，从而使得其中没有任何混淆，但我也
: 没有断言说我的就是正确的。我只是说这是一个尝试。
: 率论中的既定概念系统考验我的话，我承认我是没有能力和大家讨论的，因为它们已经
: 被完全数学化了，而我是学医学出生的。希望你们能够意识到这样做是不对等的。

相关主题
● 请教:随机变量的分布函数问题	● 如果你不是孬种数学背景的统计学家，请接受挑战
● logistic, overfit了怎么办？	● 陈来错地方了
● Re: 关于肖手术的最新review (转载)	● let's settle this once and for all
进入Statistics版参与讨论

T*******I
发帖数: 5138

I guess you should say "you know nothing about the statistics."
Anyhow, I don't agree with your judgment on me.
You say, you never care about the properties of the samples. This is a serious mistake, in my opinion. The sample is the most important concept in Statistics and it is the object that Statistics will treat. How dar you say like this. If you don't know the properties of a sample, you will never know what it is. If you don't know what the object you are treating is, how can you have your jobs done on a right track?
In addition, a population is unknown to anyone, which means no one knows its
properties, so how can you say you can deal with the properties of a
population? For me, there might be an ultimate obstacle on this.

【在 s*****r 的大作中提到】

l***o
发帖数: 5337

唉，还得在教大师一句英语。
shinder说的是美国口语中的正常表达法。当然大师完全有能力重新定义惯用语。

in
what
you
its

【在 T*******I 的大作中提到】

: I guess you should say "you know nothing about the statistics."
: Anyhow, I don't agree with your judgment on me.
: You say, you never care about the properties of the samples. This is a serious mistake, in my opinion. The sample is the most important concept in Statistics and it is the object that Statistics will treat. How dar you say like this. If you don't know the properties of a sample, you will never know what it is. If you don't know what the object you are treating is, how can you have your jobs done on a right track?
: In addition, a population is unknown to anyone, which means no one knows its
: properties, so how can you say you can deal with the properties of a
: population? For me, there might be an ultimate obstacle on this.

l***o
发帖数: 5337

大师啊，你在陈氏领域里可能是对的，by definition。但在statistics领域里，
你连自己该干什么都没搞清楚。
按你的逻辑，世界上到底有没有overfitting的问题？如果你能理解什么是overfitting
的话。。。

concept in
say
never what
you
knows its

【在 T*******I 的大作中提到】

A*******s
发帖数: 3942

人先有十个手指头然后才发展出数学。你数数你手指头给我解个二元一次方程组看看？

。尽管我试图厘清所有相关要素间的差别和联系，从而使得其中没有任何混淆，但我也
没有断言说我的就是正确的。我只是说这是一个尝试。
率论中的既定概念系统考验我的话，我承认我是没有能力和大家讨论的，因为它们已经
被完全数学化了，而我是学医学出生的。希望你们能够意识到这样做是不对等的。
统通过自己的改造将它们最终有效地连接起来。如果真的能够这样，那么，我也就心满
意足了；如果不能，我也没有能力做到，故更不会坚持。
由样本中抽象出的概念（=随机事件1）必然先于概率论的诞生（=随机事件2）。这是我
坚信不疑的观点。正因为如此，统计学的基本概念系统首先是从样本中抽象出来，而不
是先在概率论中产生再回到统计学中的。因此，我希望大家不要把上述两个随机事件的
发生顺序搞颠倒了。

【在 T*******I 的大作中提到】

s*****r
发帖数: 790

you are completely wrong. I said if you have a sample, you know ALL the
properties of the sample, not you don't know the properties of the sample.
There is nothing further you need to do since you know everything about the
sample.

in
what
its

【在 T*******I 的大作中提到】

T*******I
发帖数: 5138

这个overfitting的问题确实纠缠我。让我问你一个问题：对任何一个连续型随机变量的期望估计，例如，对一个服从正态分布的连续型随机变量计算其算术平均数，那么，这个均数是overfitting的吗？我可能是孤陋寡闻，以前从未听说过。如果你回答说“是的”，那么，我的分段回归分析的方法论就存在这个问题。如果你的回答是“否“，那么，我的方法论就不存在这个问题。等你回答我的这个问题后我再详细解释给你听。
老实说，我第一次听说overfitting是在2006年重新开始三分法的算法构建时才读到有关文献的。AIC被认为是控制overfitting的一个手段。通过非仔细地阅读我所从事的领域的文献，发现很多overfitting是由于最优化导致。但我的方法论与最优完全无关，我估计的是样本的期望临界点，即是用全部样本估计的一个充分的期望估计，没有任何样本信息的损失，正如我们用一个正态随机变量的全部观察值计算其算术均数一样。

【在 l***o 的大作中提到】

: 大师啊，你在陈氏领域里可能是对的，by definition。但在statistics领域里，
: 你连自己该干什么都没搞清楚。
: 按你的逻辑，世界上到底有没有overfitting的问题？如果你能理解什么是overfitting
: 的话。。。
:
: concept in
: say
: never what
: you
: knows its

y**t
发帖数: 205

If I had read this post earlier, I won't waste my time on your paper.

serious mistake, in my opinion. The sample is the most important concept in
Statistics and it is the object that Statistics will treat. How dar you say
like this. If you don't know the properties of a sample, you will never know
what it is. If you don't know what the object you are treating is, how can
you have your jobs done on a right track?
its

【在 T*******I 的大作中提到】

T*******I
发帖数: 5138

你说的是计算技术的问题。我们这里讨论的是基本概念体系的问题。

【在 A*******s 的大作中提到】

: 人先有十个手指头然后才发展出数学。你数数你手指头给我解个二元一次方程组看看？
:
: 。尽管我试图厘清所有相关要素间的差别和联系，从而使得其中没有任何混淆，但我也
: 没有断言说我的就是正确的。我只是说这是一个尝试。
: 率论中的既定概念系统考验我的话，我承认我是没有能力和大家讨论的，因为它们已经
: 被完全数学化了，而我是学医学出生的。希望你们能够意识到这样做是不对等的。
: 统通过自己的改造将它们最终有效地连接起来。如果真的能够这样，那么，我也就心满
: 意足了；如果不能，我也没有能力做到，故更不会坚持。
: 由样本中抽象出的概念（=随机事件1）必然先于概率论的诞生（=随机事件2）。这是我
: 坚信不疑的观点。正因为如此，统计学的基本概念系统首先是从样本中抽象出来，而不

T*******I
发帖数: 5138

看起来我们说的依然不是同一个“主题”。我说的是我从样本这个统计学处理的基本单元中抽象出来的基本概念系统，即什么是样本，它包含什么基本要素，它与总体之间的关系是怎样的，等等，而不是指的定义在其上的统计量的properties.

the

【在 s*****r 的大作中提到】

: you are completely wrong. I said if you have a sample, you know ALL the
: properties of the sample, not you don't know the properties of the sample.
: There is nothing further you need to do since you know everything about the
: sample.
:
: in
: what
: its

y******6
发帖数: 47

100

感慨下,最近诸事不易,万念俱焚,觉得要走极端解脱.但是看到大家这样生气勃勃的讨论
着争辩着科普着,突然眼前一亮,原来还是活着有意思.洗洗睡吧!

相关主题
● 统计学的新地平线——陈立功与他的自权重曲线	● Great Confucius
● 恭请luckyjet (tejykcul)回答二个问题	● 居然还有人试图和陈大师讨论统计问题
● 答水泡泡：陈立功是谁教出来的？	● 陈大师的两大硬伤和两大法宝
进入Statistics版参与讨论

l***o
发帖数: 5337

101

大师，一般人在谈overfitting的时候，指的是复杂model带来的问题，不是用均值
去估算mean。对均值估算mean的分析由大数定理给出。
但如果你一定要用overfitting的概念往你的问题上套，我想你可以认为，如果有一个
明显（由其他信息决定）的outlier，而你在求mean时不把它去掉，就会出现
overfitting的问题（怎么这么别扭啊）。就是说，当试图估计population时你一头
扎到你的样本里死活也不出来，完全无视它的随机性（这个词对你深了点）。
我承认我出于娱乐目的看了几天mitbbs统计版，从大师身上找到了些自己水平的优越感。
游戏到此为止了，准备多干正经事。在此奉劝大师一句：以您老的水平（不是说懂不懂
数学什么的，而是逻辑能力和学习能力），不要去试图开山立派，而是要多工作，对给你
工作的人有感恩的心（我认识好几个能力不错的统计人现在处于半饥饿状态，他们至少
。。。）。
曾经真的想过去JSM开开心，现在觉得自己的想法真没出息。。。

【在 T*******I 的大作中提到】

: 这个overfitting的问题确实纠缠我。让我问你一个问题：对任何一个连续型随机变量的期望估计，例如，对一个服从正态分布的连续型随机变量计算其算术平均数，那么，这个均数是overfitting的吗？我可能是孤陋寡闻，以前从未听说过。如果你回答说“是的”，那么，我的分段回归分析的方法论就存在这个问题。如果你的回答是“否“，那么，我的方法论就不存在这个问题。等你回答我的这个问题后我再详细解释给你听。
: 老实说，我第一次听说overfitting是在2006年重新开始三分法的算法构建时才读到有关文献的。AIC被认为是控制overfitting的一个手段。通过非仔细地阅读我所从事的领域的文献，发现很多overfitting是由于最优化导致。但我的方法论与最优完全无关，我估计的是样本的期望临界点，即是用全部样本估计的一个充分的期望估计，没有任何样本信息的损失，正如我们用一个正态随机变量的全部观察值计算其算术均数一样。

s*****r
发帖数: 790

102

你就说样本和总体之间什么关系吧.
样本包括总体还是是总体的一个真子集?

单元中抽象出来的基本概念系统，即什么是样本，它包含什么基本要素，它与总体之间
的关系是怎样的，等等，而不是指的定义在其上的统计量的properties.

【在 T*******I 的大作中提到】

: 看起来我们说的依然不是同一个“主题”。我说的是我从样本这个统计学处理的基本单元中抽象出来的基本概念系统，即什么是样本，它包含什么基本要素，它与总体之间的关系是怎样的，等等，而不是指的定义在其上的统计量的properties.
:
: the

T*******I
发帖数: 5138

103

老实说，我第一次听说overfitting是在2006年重新开始三分法的算法构建时才读到有
关文献的。AIC被认为是控制overfitting的一个手段。通过非仔细地阅读我所从事的领
域的文献，发现很多overfitting是由于最优化导致。但我的方法论与最优完全无关，
我估计的是样本的期望临界点，即是用全部样本估计的一个充分的期望估计，没有任何
样本信息的损失，正如我们用一个正态随机变量的全部观察值计算其算术均数一样。
当一个outlier出现在样本中时，用我的方法，它的权重会接近于0。如果你真正看懂了
我所设计的三分迭代搜索方法以及权重的定义的话，你就会明白这一点。
我觉得我是在遵循概率论的基本概念系统（虽然我不是透彻地理解它）建立自己的算法
，这就是力图为每个随机临界点在全样本空间里（即使用全部实测样本点对每个临界点
进行搜索，亦即，每个实测样本点对期望临界点的贡献全部考虑进来了，没有任何损失
）构建一个可测空间、定义权重及其可测性、计算加权期望估计未知临界点。遗憾的是
，在其他人的方法里找不到这样的分析逻辑和算法。他们根本不考虑临界点的可测空间。

感。
给你
至少

【在 l***o 的大作中提到】

: 大师，一般人在谈overfitting的时候，指的是复杂model带来的问题，不是用均值
: 去估算mean。对均值估算mean的分析由大数定理给出。
: 但如果你一定要用overfitting的概念往你的问题上套，我想你可以认为，如果有一个
: 明显（由其他信息决定）的outlier，而你在求mean时不把它去掉，就会出现
: overfitting的问题（怎么这么别扭啊）。就是说，当试图估计population时你一头
: 扎到你的样本里死活也不出来，完全无视它的随机性（这个词对你深了点）。
: 我承认我出于娱乐目的看了几天mitbbs统计版，从大师身上找到了些自己水平的优越感。
: 游戏到此为止了，准备多干正经事。在此奉劝大师一句：以您老的水平（不是说懂不懂
: 数学什么的，而是逻辑能力和学习能力），不要去试图开山立派，而是要多工作，对给你
: 工作的人有感恩的心（我认识好几个能力不错的统计人现在处于半饥饿状态，他们至少

T*******I
发帖数: 5138

104

要我说，一个样本是总体的一个随机真子集，因此，可以认为样本中所包含的全部信息都是随机确定的。尽管如此，我们不能说定义在其上的样本统计量对于总体参数的估计而言就是确定的，而是非确定的，因为对总体的同等条件抽样的结果会出现统计量的随机变异性，从而我们不能将任一随机样本的统计量的性质看成的确定不变的。
最优化的一个错误就在于以在样本基础上构建和计算的optimizer的最小或最大值作为一个决策准则。这个准则是不成立的，因为这个决策中的对应关系对于总体而言是非确定的，就好比身高和体重之间，我们不能用最高或最矮身高去确定体重的期望估计。这是根本不可能的。
你在前面说到样本中的信息都是fixed的。这个观点是片面的且容易在方法论的构建中导致错误。也许最优化就是由这个观点导致的。我曾与一位著名的美国统计学家讨论过这个问题，是他提醒我注意这个问题的。
在我看来，随机对应应该是一个非常重要的对应关系，需要严谨地定义。我尝试了一下。如果我们早就有这个概念的定义的话，最优化可能就不会在统计学里大行其道。

【在 s*****r 的大作中提到】

: 你就说样本和总体之间什么关系吧.
: 样本包括总体还是是总体的一个真子集?
:
: 单元中抽象出来的基本概念系统，即什么是样本，它包含什么基本要素，它与总体之间
: 的关系是怎样的，等等，而不是指的定义在其上的统计量的properties.

s*****r
发帖数: 790

105

这么说,你的样本多取几次就可以取到总体中所有可能的值了?
当你用统计解决问题的时候,你有几个样本?那个样本和总体的关系如何?

【在 T*******I 的大作中提到】

: 要我说，一个样本是总体的一个随机真子集，因此，可以认为样本中所包含的全部信息都是随机确定的。尽管如此，我们不能说定义在其上的样本统计量对于总体参数的估计而言就是确定的，而是非确定的，因为对总体的同等条件抽样的结果会出现统计量的随机变异性，从而我们不能将任一随机样本的统计量的性质看成的确定不变的。
: 最优化的一个错误就在于以在样本基础上构建和计算的optimizer的最小或最大值作为一个决策准则。这个准则是不成立的，因为这个决策中的对应关系对于总体而言是非确定的，就好比身高和体重之间，我们不能用最高或最矮身高去确定体重的期望估计。这是根本不可能的。
: 你在前面说到样本中的信息都是fixed的。这个观点是片面的且容易在方法论的构建中导致错误。也许最优化就是由这个观点导致的。我曾与一位著名的美国统计学家讨论过这个问题，是他提醒我注意这个问题的。
: 在我看来，随机对应应该是一个非常重要的对应关系，需要严谨地定义。我尝试了一下。如果我们早就有这个概念的定义的话，最优化可能就不会在统计学里大行其道。

T*******I
发帖数: 5138

106

你的第一句话是幼稚的。总体具有无限性，无论你的sample size有多大，也不论你抽
几次样，所有样本的总和相对于总体而言都趋近于0，但永远不等于0。
一般而言，统计是以一次抽样来经济、高效、省时地对总体作出一个随机估计。这个样
本与总体之间的关系是一个代表与被代表的关系，全集与随机子集之间的关系，是最大
与最小之间的关系，等等。
多次反复抽样不是统计学应该推崇或鼓励的。
在统计学里，任何时候我们都不可能将讨论直接focus在总体上。否则，我们将在认识论上面临一个终极的逻辑障碍。我们永远只能focus在样本上，但推断的思路却是导向那个未知的总体。

【在 s*****r 的大作中提到】

: 这么说,你的样本多取几次就可以取到总体中所有可能的值了?
: 当你用统计解决问题的时候,你有几个样本?那个样本和总体的关系如何?

s*****r
发帖数: 790

107

所以你认识到你的样本是有限的,而总体是无限的. 那么你说实际问题中感兴趣的是样
本的属性的,还是总体的属性? 总体的属性你是不知道的,总是有个体你不知道,你怎么
能从样本中知道? 这个你不知道的个体可以和你的样本非常不一样,怎么办?

【在 T*******I 的大作中提到】

: 你的第一句话是幼稚的。总体具有无限性，无论你的sample size有多大，也不论你抽
: 几次样，所有样本的总和相对于总体而言都趋近于0，但永远不等于0。
: 一般而言，统计是以一次抽样来经济、高效、省时地对总体作出一个随机估计。这个样
: 本与总体之间的关系是一个代表与被代表的关系，全集与随机子集之间的关系，是最大
: 与最小之间的关系，等等。
: 多次反复抽样不是统计学应该推崇或鼓励的。
: 在统计学里，任何时候我们都不可能将讨论直接focus在总体上。否则，我们将在认识论上面临一个终极的逻辑障碍。我们永远只能focus在样本上，但推断的思路却是导向那个未知的总体。

T*******I
发帖数: 5138

108

我们在实际中感兴趣的永远只能是如何在样本上定义具有某种属性的统计量，进而由该
统计量去推断总体中的同名属性。
但是，一个样本含有什么，能够提供给你什么，这一切决定了你对总体的认识的全部局
限性。样本没有包含什么，不能给你什么，你就不能杜撰一个没有的东西。
“总体的属性你是不知道的,总是有个体你不知道,你怎么能从样本中知道?”我们不能
由样本信息去推断总体中某个个体的信息。这是没有根据的。样本统计量是一个高度综
合性、归纳性的属性，不针对总体中的某个个体。

【在 s*****r 的大作中提到】

: 所以你认识到你的样本是有限的,而总体是无限的. 那么你说实际问题中感兴趣的是样
: 本的属性的,还是总体的属性? 总体的属性你是不知道的,总是有个体你不知道,你怎么
: 能从样本中知道? 这个你不知道的个体可以和你的样本非常不一样,怎么办?

s*****r
发帖数: 790

109

所以你知道你从样本中得到的总体属性的局限性.
假设有两个你,同时做同样的事情,你们得到的样本不一样,你觉得你得到的对总体的估
计会一样么?

【在 T*******I 的大作中提到】

: 我们在实际中感兴趣的永远只能是如何在样本上定义具有某种属性的统计量，进而由该
: 统计量去推断总体中的同名属性。
: 但是，一个样本含有什么，能够提供给你什么，这一切决定了你对总体的认识的全部局
: 限性。样本没有包含什么，不能给你什么，你就不能杜撰一个没有的东西。
: “总体的属性你是不知道的,总是有个体你不知道,你怎么能从样本中知道?”我们不能
: 由样本信息去推断总体中某个个体的信息。这是没有根据的。样本统计量是一个高度综
: 合性、归纳性的属性，不针对总体中的某个个体。

T*******I
发帖数: 5138

110

这个应该属于常识性问题吧？如果两次工作对象是同一个总体，相互间的差异应该主要
是随机的抽样误差，因为总体中的个体有变异性。

【在 s*****r 的大作中提到】

: 所以你知道你从样本中得到的总体属性的局限性.
: 假设有两个你,同时做同样的事情,你们得到的样本不一样,你觉得你得到的对总体的估
: 计会一样么?

相关主题
● 陈大师的两大硬伤和两大法宝	● A New Horizon of Statistics@Youtube
● 如何处理这样的missing value？	● 陈大师不是民科
● 长篇消遣：以科学理性为利剑，以艺术激情为锋芒	● 我说老陈，咱别玩儿虚的了。你给说明一下这个简单的例子
进入Statistics版参与讨论

s*****r
发帖数: 790

111

现在你知道为什么要cross validation了么？

【在 T*******I 的大作中提到】

: 这个应该属于常识性问题吧？如果两次工作对象是同一个总体，相互间的差异应该主要
: 是随机的抽样误差，因为总体中的个体有变异性。

d******e
发帖数: 7844

112

哈哈。大师啊，在variable数量远远大于sample size的情况下做线性回归，我们可以
很容易的找到一组系数使得residual全为0，这是不是意味着我们找到真实的模型了啊？

【在 T*******I 的大作中提到】

: 老实说，我第一次听说overfitting是在2006年重新开始三分法的算法构建时才读到有
: 关文献的。AIC被认为是控制overfitting的一个手段。通过非仔细地阅读我所从事的领
: 域的文献，发现很多overfitting是由于最优化导致。但我的方法论与最优完全无关，
: 我估计的是样本的期望临界点，即是用全部样本估计的一个充分的期望估计，没有任何
: 样本信息的损失，正如我们用一个正态随机变量的全部观察值计算其算术均数一样。
: 当一个outlier出现在样本中时，用我的方法，它的权重会接近于0。如果你真正看懂了
: 我所设计的三分迭代搜索方法以及权重的定义的话，你就会明白这一点。
: 我觉得我是在遵循概率论的基本概念系统（虽然我不是透彻地理解它）建立自己的算法
: ，这就是力图为每个随机临界点在全样本空间里（即使用全部实测样本点对每个临界点
: 进行搜索，亦即，每个实测样本点对期望临界点的贡献全部考虑进来了，没有任何损失

A*******s
发帖数: 3942

113

你太坏了，大师刚刚翻完了中文版的一元微积分，听了你这句话又得去翻中文版的线性
代数了。

啊？

【在 d******e 的大作中提到】

: 哈哈。大师啊，在variable数量远远大于sample size的情况下做线性回归，我们可以
: 很容易的找到一组系数使得residual全为0，这是不是意味着我们找到真实的模型了啊？

T*******I
发帖数: 5138

114

这样吧。我们讨论一个抽象的样本。看看你的cross validation应该如何实现。
假设我手里只有150人的学生总评成绩和几个影响因素。我做三分回归分析。分段前，
我用逐步回归法在全部样本基础上建了一个多因素模型。然后以该模型为基本结构进行
三分法的数据迭代。如果总评成绩服从正态分布，我可以断定两个临界点应该以均数为
对称分布。于是以均数为界在两边各假设存在一个临界点。将全部数据排序后同步由远
端向中心方向开始搜索，每迭代一次就建一组三分模型。所以，如果sample size=150,
迭代次数可以达到75次，从而得到75个权重测量结果，每个权重对应于一对被迭代的点
。显然，搜索的过程就是为每一侧的临界点构建了一个可测空间，例如，低段临界点的
可测空间是[min(X), mean(X)]，其中包含75个原始观察值；而高段的则是[mean(X),
max(X)]，也包含着75个原始观察值。于是，以权重和这两组75个观察值计算每一侧的
临界点的期望估计。从而将原始样本分解为三个子空间，最后在每个子空间内建一个临
界模型。于是，原来搜索临界点时的临界模型都是随机的“点”模型，不是我们需要的
，它们的作用仅仅是作为权重测量的工具。因此，你看到了，这里临界点的测量相当于
计算一个连续型随机变量的期望。
如果要做cross validation,我该如何确立训练样本以及validation样本？

【在 s*****r 的大作中提到】

: 现在你知道为什么要cross validation了么？

A*******s
发帖数: 3942

115

虽然大师在之前的讨论中也频繁使用CV一词，但结合大师的大胆作风和讨论的上下文，
我谨慎地猜测大师尚未知道what is CV。所以你问why CV，太强人所难了。

【在 s*****r 的大作中提到】

: 现在你知道为什么要cross validation了么？

A*******s
发帖数: 3942

116

我靠，我说对了！

,
,

【在 T*******I 的大作中提到】

: 这样吧。我们讨论一个抽象的样本。看看你的cross validation应该如何实现。
: 假设我手里只有150人的学生总评成绩和几个影响因素。我做三分回归分析。分段前，
: 我用逐步回归法在全部样本基础上建了一个多因素模型。然后以该模型为基本结构进行
: 三分法的数据迭代。如果总评成绩服从正态分布，我可以断定两个临界点应该以均数为
: 对称分布。于是以均数为界在两边各假设存在一个临界点。将全部数据排序后同步由远
: 端向中心方向开始搜索，每迭代一次就建一组三分模型。所以，如果sample size=150,
: 迭代次数可以达到75次，从而得到75个权重测量结果，每个权重对应于一对被迭代的点
: 。显然，搜索的过程就是为每一侧的临界点构建了一个可测空间，例如，低段临界点的
: 可测空间是[min(X), mean(X)]，其中包含75个原始观察值；而高段的则是[mean(X),
: max(X)]，也包含着75个原始观察值。于是，以权重和这两组75个观察值计算每一侧的

d******e
发帖数: 7844

117

看来大师只懂最基本的最小二乘，而且只用过线性模型，还是低维数据。
大师的统计知识水平，大概相当于一个高中生，如果考虑到大师逻辑上的混乱程度，勉
强相当于初中的水平。

【在 A*******s 的大作中提到】

: 我靠，我说对了！
:
: ,
: ,

s*****r
发帖数: 790

118

好，现在有另一个你，也有150数据。
你在这个数据上得到的结果可以用在那个数据上么？

150,
,

【在 T*******I 的大作中提到】

s*****r
发帖数: 790

119

我知道。这不是还想治病救人么？

【在 A*******s 的大作中提到】

: 我靠，我说对了！
:
: ,
: ,

T*******I
发帖数: 5138

120

我说过我没有进一步的样本数据了。我只抽了这一次样。

【在 s*****r 的大作中提到】

: 好，现在有另一个你，也有150数据。
: 你在这个数据上得到的结果可以用在那个数据上么？
:
: 150,
: ,

相关主题
● 陈大师为什么不回答我的问题呢？	● logistic, overfit了怎么办？
● 陈大师的意思我终于有点领会了	● Re: 关于肖手术的最新review (转载)
● 请教:随机变量的分布函数问题	● 如果你不是孬种数学背景的统计学家，请接受挑战
进入Statistics版参与讨论

A*******s
发帖数: 3942

121

老陈，很久以前大家就和你说要做cross validation或者validation了吧，把你扯淡的
一半功夫抽出来google一下，都够你再拿一个统计本科学位了。

【在 T*******I 的大作中提到】

: 我说过我没有进一步的样本数据了。我只抽了这一次样。

s*****r
发帖数: 790

122

你就这么信任你从这一个样本里得到的关于总体的估计？你怎么知道你这个估计相对于
总体是一个好的估计？如果过一段时间你又有了新的数据，怎么办？你的估计对那些数
据有用么？

【在 T*******I 的大作中提到】

: 我说过我没有进一步的样本数据了。我只抽了这一次样。

T*******I
发帖数: 5138

123

我其实早已看过。那个里面说，要在原始样本基础上随机抽样建一个训练样本，建立一
组训练模型，然后用剩下的样本对这个模型做CV。所以，按照这个逻辑，我将有做不完
的CV。

【在 A*******s 的大作中提到】

: 老陈，很久以前大家就和你说要做cross validation或者validation了吧，把你扯淡的
: 一半功夫抽出来google一下，都够你再拿一个统计本科学位了。

y**t
发帖数: 205

124

如果我也有150个数据，用了你的方法，但得到和你不一样的结果。那谁的结果正确？

【在 T*******I 的大作中提到】

: 我说过我没有进一步的样本数据了。我只抽了这一次样。

T*******I
发帖数: 5138

125

这不是信任不信任的问题，而是样本能够给你什么的问题。如果你从原始样本中抽取一
个子集建训练模型，那么，这个随机子集模型所含有的样本信息已经比原是样本减少了
，从而模型的信度就降低了。

【在 s*****r 的大作中提到】

: 你就这么信任你从这一个样本里得到的关于总体的估计？你怎么知道你这个估计相对于
: 总体是一个好的估计？如果过一段时间你又有了新的数据，怎么办？你的估计对那些数
: 据有用么？

w***n
发帖数: 1084

126

ft，恰恰相反。validation会让你的模型更可靠。
陈大师你知道只要模型足够复杂，任何数据都能够fit这个道理吗？

【在 T*******I 的大作中提到】

: 这不是信任不信任的问题，而是样本能够给你什么的问题。如果你从原始样本中抽取一
: 个子集建训练模型，那么，这个随机子集模型所含有的样本信息已经比原是样本减少了
: ，从而模型的信度就降低了。

l***o
发帖数: 5337

127

我本来都说过我不在掺和了，但还是忍不住再感叹一句：天啊!
现在真的不再插话了。

【在 T*******I 的大作中提到】

A*******s
发帖数: 3942

128

大师不懂线代，大师只懂后现代...

【在 w***n 的大作中提到】

: ft，恰恰相反。validation会让你的模型更可靠。
: 陈大师你知道只要模型足够复杂，任何数据都能够fit这个道理吗？

A*******s
发帖数: 3942

129

打回去重看吧

【在 T*******I 的大作中提到】

: 我其实早已看过。那个里面说，要在原始样本基础上随机抽样建一个训练样本，建立一
: 组训练模型，然后用剩下的样本对这个模型做CV。所以，按照这个逻辑，我将有做不完
: 的CV。

d******e
发帖数: 7844

130

大师为什么不回答我这个问题啊？

啊？

【在 d******e 的大作中提到】

相关主题
● 陈来错地方了	● 恭请luckyjet (tejykcul)回答二个问题
● let's settle this once and for all	● 答水泡泡：陈立功是谁教出来的？
● 统计学的新地平线——陈立功与他的自权重曲线	● Great Confucius
进入Statistics版参与讨论

d******e
发帖数: 7844

131

哈哈，看来他不知道

【在 w***n 的大作中提到】

: ft，恰恰相反。validation会让你的模型更可靠。
: 陈大师你知道只要模型足够复杂，任何数据都能够fit这个道理吗？

w***n
发帖数: 1084

132

陈大师你是不是以前没听说过盲人摸象的故事。这和数学也好，统计也好都没关系。道
理是一样的。

T*******I
发帖数: 5138

133

首先让我试图搞清楚你的话中所包含的用词的含义，以便排除任何可能的confusion。
“如果我也有150个数据，用了你的方法”：请问，这里的“方法”是什么意思？是指
我拟合模型的逻辑和算法，还是我用样本建立的模型？
1）如果你指的是我拟合模型的逻辑和算法，那么
“但得到和你不一样的结果。”中所指的就应该是你用了和我一样的模型拟合的逻辑和
算法在你的样本数据的基础上也得到了一个模型，且你认为这个模型与我的不一样（也
许是一样的，你需要检验两个模型间的差异显著性，不能没有概率根据而空口说白话）。
如果是这样，那么，“谁的结果正确？”就是指的两个模型谁优谁劣。这个问题不能单
纯只从模型间的差异性来看，首先需要考察两人的原始样本所来源的总体的定义是否一
致，采样方法是有相同，数据收集中有没有系统误差甚至人为的记录错误，等等。最后
，如果两个模型的比较结果显示它们之间的差异有显著性，那么，不排除两个样本所代
表的总体中的关系确有可能存在差异显著性。这就是统计检验能够带给我们的意义。
2）如果你指的是我用样本建立的模型，那么
“但得到和你不一样的结果。”中指的就应该是用你的数据对我的模型作验证，即将你
的样本中的每一个随机个体的相关变量代入我的模型，计算其预测误差，看看我的模型
对你的数据中的每一个个体的预测结果如何，误差分布怎样。
如果是这样，那么，“谁的结果正确？”就不好说了。你需要回到1）用我的逻辑和算
法建一个同类模型，然后比较两者间的差异显著性。

【在 y**t 的大作中提到】

: 如果我也有150个数据，用了你的方法，但得到和你不一样的结果。那谁的结果正确？

T*******I
发帖数: 5138

134

你觉得如果他人问你同样的问题，你有必要回答吗？我觉得没必要，因为那已经不是统
计模型了，而是一个确定性，而确定性与统计无关。

【在 d******e 的大作中提到】

: 大师为什么不回答我这个问题啊？
:
: 啊？

T*******I
发帖数: 5138

135

我看过了，基本逻辑就是那样。
请允许我问你一个问题，什么是overfitting? 这个overfitting指的是谁对谁？是
training model 对 training dataset，还是training model 对 validation dataset
? 根据wiki上的陈述，似乎指的是后一种情形。
“Suppose we have a model with one or more unknown parameters, and a data
set to which the model can be fit (the training data set). The fitting
process optimizes the model parameters to make the model fit the training
data as well as possible. If we then take an independent sample of
validation data from the same population as the training data, it will
generally turn out that the model does not fit the validation data as well
as it fits the training data. This is called overfitting, and is
particularly likely to happen when the size of the training data set is
small, or when the number of parameters in the model is large.”
根据CV的基本逻辑，这个CV任务永远没完没了，以至无穷，因为原始dataset在你手上
，电脑可以帮你无休止地重复抽样建训练模型然后做CV，而每一个训练模型都会带给你
不同的validationd的误差分布。当然，推崇这个东西的人会说，让我们人为地规定一
个终点，就做10次吧，或100次。
统计学原本是试图以一次抽样实现对未知的一个随机认识，这个认识包含的经验事实越
多越好。所以，我所关心的是另一个问题，即training样本本身只是原始样本的一个随
机子集，因而由它建立的training模型的所有统计量与由全部样本建立的模型的统计量
相比一定是一个不充分的统计量。那些推崇CV的人们是如何解决这个问题的？

【在 A*******s 的大作中提到】

: 打回去重看吧

T*******I
发帖数: 5138

136

那要看你怎么让你的模型复杂。要说复杂，没有比样本数据集本身更复杂的模型了。这个dataset本身就是一个模型。你可以得到0 residuals，因为在每一个sample ID的名下就是一
个vector，在这个vector里，所有随机变量间的关系都是确定的，且没有任何residual。但这样的模型根本不是我们所要的，否则还要统计学干吗？

【在 w***n 的大作中提到】

: ft，恰恰相反。validation会让你的模型更可靠。
: 陈大师你知道只要模型足够复杂，任何数据都能够fit这个道理吗？

s*****r
发帖数: 790

137

put it simple, using your example before, you can't even be sure whether you
should include the covariate x in your model. you think you should and get
a significant estimate, what if it is just by chance?
Let me give you an example:
you are a NIU professor in a university and you are teaching a class of 200
students who graduated from 2 high schools, approximately same number of
male and female, and from each school.
Now it is final time and you give the exam. you have one good TA to grade
the exams for you. the TA is supposed to finish grading in two days and you
can let half the students get A and half get B. Your department only needs
the cut-off grade by the third day. You TA finishes grading 100 exams on
the first day but becomes very sick on the second day and couldn't work for
three days. Now you have 100 scores but you need to give a cut-off score to
your department soon.
Further on, there are 100 other similar classes awaiting for your cut-off
score, but you can give it in one week,i.e, you can see all your 200 scores.
what do you do? Hope this problem can help you understand overfitting and
cross-validation.
Here are some information you found:
1) there 100 exams are randomly selected
2) approximately 55 boys and 45 girls.
3) boys SEEM to have scores a little lower than girls
4) students from high school 1 SEEM better than school 2
5) boys from high school 1 SEEM a little better than girls from school 2
6) only 30 students graduated from high school 1
7) during the whole semester you do not feel there are BIG difference
between boys and girls and the two high schools.

）。

【在 T*******I 的大作中提到】

: 首先让我试图搞清楚你的话中所包含的用词的含义，以便排除任何可能的confusion。
: “如果我也有150个数据，用了你的方法”：请问，这里的“方法”是什么意思？是指
: 我拟合模型的逻辑和算法，还是我用样本建立的模型？
: 1）如果你指的是我拟合模型的逻辑和算法，那么
: “但得到和你不一样的结果。”中所指的就应该是你用了和我一样的模型拟合的逻辑和
: 算法在你的样本数据的基础上也得到了一个模型，且你认为这个模型与我的不一样（也
: 许是一样的，你需要检验两个模型间的差异显著性，不能没有概率根据而空口说白话）。
: 如果是这样，那么，“谁的结果正确？”就是指的两个模型谁优谁劣。这个问题不能单
: 纯只从模型间的差异性来看，首先需要考察两人的原始样本所来源的总体的定义是否一
: 致，采样方法是有相同，数据收集中有没有系统误差甚至人为的记录错误，等等。最后

d******e
发帖数: 7844

138

哈哈，n<
【在 T*******I 的大作中提到】

: 你觉得如果他人问你同样的问题，你有必要回答吗？我觉得没必要，因为那已经不是统
: 计模型了，而是一个确定性，而确定性与统计无关。

A*******s
发帖数: 3942

139

CV is not for model fitting, period.
go back and read it again. sorry u failed.

dataset

【在 T*******I 的大作中提到】

: 我看过了，基本逻辑就是那样。
: 请允许我问你一个问题，什么是overfitting? 这个overfitting指的是谁对谁？是
: training model 对 training dataset，还是training model 对 validation dataset
: ? 根据wiki上的陈述，似乎指的是后一种情形。
: “Suppose we have a model with one or more unknown parameters, and a data
: set to which the model can be fit (the training data set). The fitting
: process optimizes the model parameters to make the model fit the training
: data as well as possible. If we then take an independent sample of
: validation data from the same population as the training data, it will
: generally turn out that the model does not fit the validation data as well

T*******I
发帖数: 5138

140

我有辙。当然，你又不会认同。认为我那是拍脑袋想出来的。嗯，其实，每一个统计方
法都是拍脑袋想出来的，没有一个是从什么数学定理推导出来的。

【在 d******e 的大作中提到】

: 哈哈，n<

相关主题
● Great Confucius	● 如何处理这样的missing value？
● 居然还有人试图和陈大师讨论统计问题	● 长篇消遣：以科学理性为利剑，以艺术激情为锋芒
● 陈大师的两大硬伤和两大法宝	● A New Horizon of Statistics@Youtube
进入Statistics版参与讨论

d******e
发帖数: 7844

141

那你来解释解释啊。反正你这个破三分法这里就没人认同，你不一样咋呼的不亦乐乎？
按你逻辑，p>>n，那么residual已经是0了，我们没必要再fit了啊，呵呵。

【在 T*******I 的大作中提到】

: 我有辙。当然，你又不会认同。认为我那是拍脑袋想出来的。嗯，其实，每一个统计方
: 法都是拍脑袋想出来的，没有一个是从什么数学定理推导出来的。

A*******s
发帖数: 3942

142

master chen plans to challenge microarray data... Bravo! how brave he is
given the fact he knows nothing about high dimensional data.

【在 d******e 的大作中提到】

: 那你来解释解释啊。反正你这个破三分法这里就没人认同，你不一样咋呼的不亦乐乎？
: 按你逻辑，p>>n，那么residual已经是0了，我们没必要再fit了啊，呵呵。

T*******I
发帖数: 5138

143

你一定想要钻入我的脑袋才会知道我在怎样想。遗憾的是，我的脑袋太小了，再也装不
下你的脑袋了。所以，你还是在外面等着看热闹好了。

【在 d******e 的大作中提到】

s*****r
发帖数: 790

144

why don't try my question above?

【在 T*******I 的大作中提到】

: 你一定想要钻入我的脑袋才会知道我在怎样想。遗憾的是，我的脑袋太小了，再也装不
: 下你的脑袋了。所以，你还是在外面等着看热闹好了。

T*******I
发帖数: 5138

145

你这段陈述里没提什么问题啊。仅仅隐含了一些提问的要素。我很难一下全部归纳出来
。所以无法回答你。
关于overfitting和validation的问题，我的基本态度依然是那样的。在我建议的三分
回归分析法中，每个临界点是一个加权的期望估计，意味着只有对应着这个期望的临界
点集合的三分模型才是期望的三分模型。它是在全样本空间的基础上得到的一个充分估
计。
如果说由LOESS法中的locally weighting得到的永远是一套非充分的统计量，那么，这
样的临界模型是需要被validated的，但我的方法给出的结果不是这样的。
正如我问过精算兄的那个问题：推崇CV的人如何从逻辑上解释一个非充分的统计模型（
即training model）与一个充分统计模型（即全样本模型）间的差异，为什么我们要化
大气力对一个非充分的统计模型做validation? 而不直接建一个充分的统计模型？这个
问题怎么解释？
其实，在你提出的下面的例子中，TA给分和教授因TA无法履行职责不得不自己给分是可
以定义出两个不同的“总体”的。

you
you
should include the covariate x in your model. you think you should and get
a significant estimate, what if it is just by chance?
Let me give you an example and it is perfect for your theory:
you are a NIU professor in a university and you are teaching a class of 200
students who graduated from 2 high schools, approximately same number of
male and female, and from each school.
Now it is final time and you give the exam. you have one good TA to grade
the exams for you. the TA is supposed to finish grading in two days and you
can let half the students get A and half get B. Your department only needs
the cut-off grade by the third day. You TA finishes grading 100 exams on
the first day but becomes very sick on the second day and couldn't work for
three days. Now you have 100 scores but you need to give a cut-off score to
your department soon.
Further on, there are 100 other similar classes awaiting for your cut-off
score, but you can give it in one week,i.e, you can see all your 200 scores.
what do you do? Hope this problem can help you understand overfitting and
cross-validation.
Here are some information you found:
1) there 100 exams are randomly selected
2) approximately 55 boys and 45 girls.
3) boys SEEM to have scores a little lower than girls
4) students from high school 1 SEEM better than school 2
5) boys from high school 1 SEEM a little better than girls from school 2
6) only 30 students graduated from high school 1
7) during the whole semester you do not feel there are BIG difference
between boys and girls and the two high schools.

【在 s*****r 的大作中提到】

: put it simple, using your example before, you can't even be sure whether you
: should include the covariate x in your model. you think you should and get
: a significant estimate, what if it is just by chance?
: Let me give you an example:
: you are a NIU professor in a university and you are teaching a class of 200
: students who graduated from 2 high schools, approximately same number of
: male and female, and from each school.
: Now it is final time and you give the exam. you have one good TA to grade
: the exams for you. the TA is supposed to finish grading in two days and you
: can let half the students get A and half get B. Your department only needs

A*******s
发帖数: 3942

146

老陈，我说了一万遍了，我再说一遍。
CV与model fitting没啥关系的，它只是拿来估计generalized error的一个手段。你完
全可以build model based on the whole sample，CV的目的是告诉你，如果你碰到另
外一个sample from the same population，你这个model的error有多少，有没有
overfitting。
另外我说老陈，我觉得你又把sufficient statistic的含义弄错了，不要乱用。

【在 T*******I 的大作中提到】

: 你这段陈述里没提什么问题啊。仅仅隐含了一些提问的要素。我很难一下全部归纳出来
: 。所以无法回答你。
: 关于overfitting和validation的问题，我的基本态度依然是那样的。在我建议的三分
: 回归分析法中，每个临界点是一个加权的期望估计，意味着只有对应着这个期望的临界
: 点集合的三分模型才是期望的三分模型。它是在全样本空间的基础上得到的一个充分估
: 计。
: 如果说由LOESS法中的locally weighting得到的永远是一套非充分的统计量，那么，这
: 样的临界模型是需要被validated的，但我的方法给出的结果不是这样的。
: 正如我问过精算兄的那个问题：推崇CV的人如何从逻辑上解释一个非充分的统计模型（
: 即training model）与一个充分统计模型（即全样本模型）间的差异，为什么我们要化

l***o
发帖数: 5337

147

唉，大师要是有点良心，真该给精算寄张gift card什么的。。。
我当年学统计的时候怎么没个头脑清晰的高手这么指点我呢？都是我拼命敲自己
的脑袋想明白的。。。

【在 A*******s 的大作中提到】

: 老陈，我说了一万遍了，我再说一遍。
: CV与model fitting没啥关系的，它只是拿来估计generalized error的一个手段。你完
: 全可以build model based on the whole sample，CV的目的是告诉你，如果你碰到另
: 外一个sample from the same population，你这个model的error有多少，有没有
: overfitting。
: 另外我说老陈，我觉得你又把sufficient statistic的含义弄错了，不要乱用。

T*******I
发帖数: 5138

148

精算兄，谢谢你的执著的诚意。
我记得以前学统计的时候在一本数理统计书上讲过充分统计量的概念，例如用全样本计
算的算术均数就是一个充分统计量。所以，我就以为凡是用全样本构建的统计量就应该
可以被认为是一个充分统计量。如果我的理解上有错，请指正。多谢了。
至于CV，看来我真的需要进一步深入了解。待有了心得再和你交流。

【在 A*******s 的大作中提到】

A*******s
发帖数: 3942

149

老陈你要是这个态度，我觉得版上没人会嘲笑你。
我不清楚你的算法，不了解你的这个statistic是否sufficient。凡是用全样本构建的
统计量不一定是sufficient的，得证明，我猜你肯定没证就是了。

【在 T*******I 的大作中提到】

: 精算兄，谢谢你的执著的诚意。
: 我记得以前学统计的时候在一本数理统计书上讲过充分统计量的概念，例如用全样本计
: 算的算术均数就是一个充分统计量。所以，我就以为凡是用全样本构建的统计量就应该
: 可以被认为是一个充分统计量。如果我的理解上有错，请指正。多谢了。
: 至于CV，看来我真的需要进一步深入了解。待有了心得再和你交流。

s*****r
发帖数: 790

150

it is such a simple question. I didn't request your complete answer, just
your thought.
basically, you have to fit the data in the first 100 scores, by your method,
there will be overfitting. and you have to check your result in the other
100 scores, this is a validation. finally, it is the generalization to the
larger population.
Three fundamental concepts (I don't think it is statistics only) here:
overfitting, validation, and generalizeability.

【在 T*******I 的大作中提到】

相关主题
● 陈大师不是民科	● 陈大师的意思我终于有点领会了
● 我说老陈，咱别玩儿虚的了。你给说明一下这个简单的例子	● 请教:随机变量的分布函数问题
● 陈大师为什么不回答我的问题呢？	● logistic, overfit了怎么办？
进入Statistics版参与讨论

T*******I
发帖数: 5138

151

Very much apprecaite. I have gotten some sense.

method,

【在 s*****r 的大作中提到】

: it is such a simple question. I didn't request your complete answer, just
: your thought.
: basically, you have to fit the data in the first 100 scores, by your method,
: there will be overfitting. and you have to check your result in the other
: 100 scores, this is a validation. finally, it is the generalization to the
: larger population.
: Three fundamental concepts (I don't think it is statistics only) here:
: overfitting, validation, and generalizeability.

(共1页)

进入Statistics版参与讨论

相关主题
● Re: 关于肖手术的最新review (转载)	● 居然还有人试图和陈大师讨论统计问题
● 如果你不是孬种数学背景的统计学家，请接受挑战	● 陈大师的两大硬伤和两大法宝
● 陈来错地方了	● 如何处理这样的missing value？
● let's settle this once and for all	● 长篇消遣：以科学理性为利剑，以艺术激情为锋芒
● 统计学的新地平线——陈立功与他的自权重曲线	● A New Horizon of Statistics@Youtube
● 恭请luckyjet (tejykcul)回答二个问题	● 陈大师不是民科
● 答水泡泡：陈立功是谁教出来的？	● 我说老陈，咱别玩儿虚的了。你给说明一下这个简单的例子
● Great Confucius	● 陈大师为什么不回答我的问题呢？

相关话题的讨论汇总
话题: your话题: statistics话题: 样本话题: 模型话题: sample

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天