由买买提看人间百态

topics

全部话题 - 话题: 变量
1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)
w*********g
发帖数: 30882
1
丰田一绝 - 28万行代码竟有1万多全局变量,庞大的bug培养基地
来源: 日理万机 于 2013-11-07 05:22:57 [档案] [博客] [旧帖] [给我悄悄话] 本文
已被阅读:249次 字体:调大/调小/重置 | 加入书签 | 打印 | 所有跟帖 | 加跟贴 |
查看当前最热讨论主题
More Sharing Services
转贴自:http://club.tgfcer.com/thread-6817371-1-1.html 网友Kuzuryuusen的文章
抗日的理论基础 -事后诸葛-
----------------------------
【第一部分】背景简介
前几年闹得沸沸扬扬的丰田刹不住事件最近又有新进展。十月底俄克拉荷马的一次庭审
,2007年一辆2005年凯美瑞暴冲(Unintended Acceleration,UA)致一死一伤事件中
丰田被判有责。引起广泛关注的是庭审中主要证人Michael Barr的证词让陪审团同意丰
田的动力系统软件存在巨大漏洞可能导致此类事件。这是丰田在同类事件中第一次被判
有责。庭审过后丰田马上同意支付300万美元进入调解程... 阅读全帖
z****n
发帖数: 67
2
对下面这个data set我想实现的是针对每一行检查相应的变量var1 到变量var6。 如果
值在0 到
50之间的话,就把每一个相应的变量名称存在一个macro variable,并且以空格隔开。
所以最终
我要的结果是:
根据第1行有个macro variable叫做list1, 在list1里面存有变量var6
根据第2行有个macro variable叫做list2, 在list2里面存有变量var5 var6
根据第3行有个macro variable叫做list3, 在list3里面存有变量var4 var6
根据第4行有个macro variable叫做list4, 在list4里面是空的
并且每一行的新建的宏变量名,都要以该行的行序数结尾,比如1到4行,宏变量名相应
的为list1到list4
关键难点在于实际工作中我有300多个变量,所以必须一开始就把满足条件的变量名存在宏变量里
面,因为宏变量不会有长度的问题。如果先建立一个string变量存储那些满足条件的变量名,然后
再放到宏变量里面结果会有问题。因为string变量的长度会不够(SAS字符变量最大长度是200
l*****o
发帖数: 61
3
来自主题: Statistics版 - 重新安排变量的问题
现在的数据表格是农场,年,地块,变量1,变量2, 变量3...如下格式:
农场 年 地块 变量1 变量2 变量3
1 2004 1 corn y 180
1 2004 2 corn y 176
1 2004 3 soy y 120
1 2004 4 wheat n 190
1 2004 5 soy n 160
1 2005 1 wheat y 138
1 2005 2 corn n 199
1 2005 3 corn y 200
1 2005 4 soy n 170
1 2005 5 soy y 183
1 2006 1 corn n 120
1 2006 1 wheat y 139
1 2006 2 corn n 17... 阅读全帖
h*i
发帖数: 3446
4
来自主题: Programming版 - 关于变量
数学的变量与计算机语言的变量不同。数学的变量更抽象,是真的变量。而计算机语言
的变量是假的,其实还是属性,是某个内存地址或者寄存器的属性。
一个非程序员A,第一次编程,看到变量,会很疑惑,比如我当年,“这是什么东西的
的变量啊”, variable for what? 后来明白了,原来就是一个地址可以存不同的东西啊
,明白了。指针?这不是很明显么,就是地址啊,有什么难的?
另一个非程序员B,第一次编程,看到变量,说,哦,我知道,数学上小学就学了的,
变量就是数学上的变量啊,懂了。结果看到指针,panic了,数学上没有指针啊,what
the fuck is a pointer?
人和人的思维方式不一样,从对数学的态度可以看出。有的人,比如冯诺伊曼,说“
You don't need to *understand* mathematics, you just get used to it". 这种人
就是上面的非程序员B。这些人成为数学家的话,一般会成为分析学家。中国培养出的
职业数学家,大多是分析学家,比如张益唐之类,解决问题能力很强,一般不自己发明
理论。
另外一些人,比如Groth... 阅读全帖
n******g
发帖数: 2201
5
来自主题: Programming版 - 单变量xgboost模型好的吓人,求解
你的变量大概是target 的别名 比如用每分钟速度预测时速 当然很准
[在 magliner (magliner) 的大作中提到:]
:最近闭门造车,不接电话,不回电邮,不上网, 死几百咧,造了个模型,先用线性逻
:辑回归,试来试去,性能不理想,AUC大概63% . 这也没什么奇怪的,并不是给你一堆
:数,就能造个模型出来。 反正试来试去,就这一个变量可用,, 假定为A, AUC = 63%
:然后我就用xgboost, 我的妈,AUC一下上升到95%, 96%,97%, 98%, 因为编程太弱
:,我的土方法是:一个变量一个变量试, 都是manual work, 每次只跑一个变量,记
录重要结果,保存在excel里。 最终结果是:仅用A变量,AUC = 95%, 在此基础上加上
一点别的变量, AUC 很快飞涨到97%, 98%
:我知道这种基于树的模型容易过度拟合, 就特意找了好几年前的老数据(真实数据)
测试。 测试的AUC性能一点都不下降, 和原来的差距小于1%. 所以不能说是过度拟合。
:现在问题来了,我想来想去不明白为什么这个变量用在xgb有这么高的AUC? 不明白xg... 阅读全帖
b2
发帖数: 427
6
我的数据是这样的
state date 221个待分析的变量
...
所有221个变量全是数值型的。
我是想在一个程序里面对221个变量分析得出在每个州内每个变量开始记录的起始,结
束时间以及中间缺失的次数,好分析其缺失可能带来的影响。每个变量是单独分析的,
这样每个变量

三个结果,startdate,enddate and #of missing.
因为这221个变量名称都很不同,所以我想是否可以用数组替代这些变量的名字,然后
用宏依次对每

变量分析。然后在merge by state,startdate,enddate and #of missing
不知道应该怎么将数组与宏联系?下面的可行么?
谢谢!
data _null_;set a;
array v (221) 221变量名称;
do i=1 to 221;
自定义宏(i)
end;
run;
T*******I
发帖数: 5138
7
如果嫌敲一个个变量名麻烦,一个简单的办法是将实际变量名改为变量名序列X1, X2,
X3...., XM。为此,你需要建立一个专门的变量名数据集记录这个对应关系。可用以下
语句
data newset;
set oldset;
renmane xhy = X1
zdgf = X2
......
vmn = Xm;
run;
变量名数据集可以用proc contents来获得,然后输出到excel中,它将在第1列,在excel的第二列的第一行输入X001(如果你的最大变量个数在三位数以内的话), 然后单击该格,向下拖拉直至你要的个数,excel会自动生成一个序列
X001
X002
....
X999
上述操作是为原始数据库中的变量没有label时而设计的。如果嫌上述操作麻烦,可以用下面的code:
data newset;
set oldset;
X1 = xhy;
X2 = zdgf;
......
Xm = vmn;
drop o... 阅读全帖
T*******I
发帖数: 5138
8
关于随机变量与概率论之间的一个关系
2012/08/02日记
随机变量是统计学和概率中最重要的概念。在整个数理统计学领域有一种说法是,
概率论是统计学的基础,而测度论是概率论的基础,由此,统计学被称为了一门纯粹的
数学分支学科。换句话说,这意味着一个非数学背景出生的人将没有可能性在统计学的
方法论领域做出有实质意义的贡献。他们将不会被那些数学背景的统计学家们放在眼里。
概率论以纯数学的语言对随机变量作了一种数学意义上的抽象而又严格的定义和解
释:一个随机变量是定义在其概率空间上的一个可测函数。这个概念的定义在非数学背
景的统计学家们看来是一个无法被直观理解或晦涩的陈述。
其实,我们应该知道,一个随机变量并非存在于概率论中,而是存在于现实世界里
,而现实世界是一个直观且容易被一般人类的智力所理解的存在。概率论不过是在基于
某种关于现实世界中随机变量的基本认识的基础上给出的一种理论性的解释。一旦关于
随机变量的基本认识得到深化和发展,概率论中关于它的理论性解释也就应该会被改变
。因此,当一个人谈论关于随机变量是什么... 阅读全帖
m******r
发帖数: 1033
9
来自主题: Programming版 - 单变量xgboost模型好的吓人,求解
最近闭门造车,不接电话,不回电邮,不上网, 死几百咧,造了个模型,先用线性逻
辑回归,试来试去,性能不理想,AUC大概63% . 这也没什么奇怪的,并不是给你一堆
数,就能造个模型出来。 反正试来试去,就这一个变量可用,, 假定为A, AUC = 63%
然后我就用xgboost, 我的妈,AUC一下上升到95%, 96%,97%, 98%, 因为编程太弱
,我的土方法是:一个变量一个变量试, 都是manual work, 每次只跑一个变量,记录
重要结果,保存在excel里。 最终结果是:仅用A变量,AUC = 95%, 在此基础上加上一
点别的变量, AUC 很快飞涨到97%, 98%
我知道这种基于树的模型容易过度拟合, 就特意找了好几年前的老数据(真实数据)测
试。 测试的AUC性能一点都不下降, 和原来的差距小于1%. 所以不能说是过度拟合。
现在问题来了,我想来想去不明白为什么这个变量用在xgb有这么高的AUC? 不明白xgb
施了什么法术?向业务部门也很难解释,做个简单的tabulation, 能依稀看出一些
trend (这到能说明 线性回归下此变量达到AUC = 63... 阅读全帖
t**g
发帖数: 1164
10
1。比如一个C++文件像这样:
int i=10;
i++; //ERROR
int array[5]={1, 2, 3, 4, 5}; //ok
array[3]=6; //ERROR
class C {
void f() {
int i;
i++; //ok
}
}
int main() {
int i;
i++; //ok
}
那么i就是编译期变量了么?
为什么第一个i++操作不可以呢?
为什么第二个(把变量扔到class的函数体里头)
和第三个(把变量扔到main函数里头)
却又可以呢?
2。是不是编译期和运行期的区别就在于main函数?
main()函数里的变量都是运行期变量
main()函数外的变量都是编译期变量?
3。为什么上面的array[3]=6赋值语句出错?
一直困扰我的问题,看了不少资料,还是不甚理解,请大虾们指教,多谢!
h*i
发帖数: 3446
11
来自主题: Programming版 - 关于变量
数学的变量是纯粹的变量,是变量的字面意思,“可以变化的量”,其值是可以真正不
确定的, 因为它不依赖于具体
实现。数学变量当然不是primitive data type, 比如一个数学变量可以是整个范畴,
一个流型,等等各种复杂的数学东东,这些玩意一点不primitive。
计算机上的变量总是有实现的,primitive的也好,复杂的也好,都有具体的实现,所
以,其值总是确定的。而字面意思的变量在冯纽曼计算机中是不存在的,一个量在一个
时候总是固定的,一个bit不可能既是1又是0,或者既非1又非0,这是不可能的。
量子计算机如何我不懂,不好说。
z****e
发帖数: 54598
12
来自主题: Programming版 - 关于变量
其实我是第二种
那楼一开始就有问题
其实一开始就应该承认变量的存在
而不是为了自圆其说,否认变量
这就是问题,所以被追问之后
就开始羞恼成怒
你去看coltzhao的回答
两个帖子就结束了
因为immutable是一个relative concept
所以谁真懂谁假懂,一目了然
当然皇帝的新衣还是可以忽悠不少人的
给你个summary
fp并没有否认变量
我说不承认变量,是因为immutable
而immutable是有scope的,之所以这么做
是因为为了复用func,所以需要对输入要求统一的数据结构
class的结构太过于灵活,如果输入class,会造成func跟class绑定
一旦class修改,就会造成func跟着修改
结果灾难,所以最后你干脆别用class得了,这样便于你复用func
所以一开始,楼主就掉入了一个陷阱,而为了自圆其说
不停滴扯蛋,什么数学上不需要变量,我小时候学习变量需要妈妈教
for loop一般美国人理解起来很困难,这都是为了爬出那个坑而编造的谎言
所以越看越好笑,更好笑的是居然有人帮腔,这不是搞吗
真明白fp的就直接告诉你,fp没有否认变量的存在
然后顺... 阅读全帖
o******e
发帖数: 1001
13
来自主题: EE版 - 问一个Matlab变量问题
如果我在主程序里定义了一个变量,但是不把这个变量传给一个函数文件,哪个函数文件
怎样才能引用那个变量? 也就是说,如何在主程序里定义一个变量使所有的函数文件都
能共享这个变量?是不是可以用workspace变量?但是如何定义workspace变量呢? 谢谢!
W**********E
发帖数: 242
14
比方说, binary logistic regression model, 如果只有1个变量X1,很好做出一个y
轴为log_odds的restricted cubic spline(RCS)图来表示x1与log odds的
functional form.
但是通常加入其它的变量或confounders后,x1的几个rcs变量系数也会变,但画出这种
调整其它变量的rcs图好像很麻烦,因为不但只有x1的值还有其它变量的值如何确定。
有谁用图形表示过矫正其它变量后的某变量的RCS图?
谢谢,
i********w
发帖数: 2223
15
来自主题: MartialArts版 - 请教:随机变量的分布函数问题
【 以下文字转载自 Statistics 讨论区 】
发信人: icebergzjw (喝多感觉真好), 信区: Statistics
标 题: 请教:随机变量的分布函数问题
发信站: BBS 未名空间站 (Fri Feb 26 16:22:07 2010, 美东)
有一个随机变量 (例如 20xx年电汽车电池的大小).
在目前没有什么有用相关信息的情况下(只知道随机变量应属于(0,+inf)), 我需要为它
假设一个看似合理的分布函数.
请问有什么推荐么?
1)我想用正态分布,但是不满足随机变量范围.请问有没有什么modified normal
distribution 符合这个要求吗?
2)Log-normal倒是符合随机变量的要求,可是我没有办法解释为什么选log-normal,不选
其他的
分布函数.(我现在也不知道还有哪些常用的分布函数,它的随机变量是(0,+inf)的).
多谢!
r******2
发帖数: 754
16
通常来说,python会自动寻找变量,如果在local有这个变量,就用local变量。即使有
一个相同的global变量,这个local变量也会hide global。
如果你的memo是global变量,应该说fib(n)会自动调用的。
g****t
发帖数: 31659
17
来自主题: Programming版 - 单变量xgboost模型好的吓人,求解
还得考虑你分钟级别数据的variance啊。不是光速度就够了。


: 你的变量大概是target 的别名 比如用每分钟速度预测时速 当然很准

: [在 magliner (magliner) 的大作中提到:]

: :最近闭门造车,不接电话,不回电邮,不上网, 死几百咧,造了个模型,先用
线性逻

: :辑回归,试来试去,性能不理想,AUC大概63% . 这也没什么奇怪的,并不是给
你一堆

: :数,就能造个模型出来。 反正试来试去,就这一个变量可用,, 假定为A, AUC
= 63%

: :然后我就用xgboost, 我的妈,AUC一下上升到95%, 96%,97%, 98%, 因为编
程太弱

: :,我的土方法是:一个变量一个变量试, 都是manual work, 每次只跑一个变
量,记

: 录重要结果,保存在excel里。 最终结果是:仅用A变量,AUC = 95%, 在此基础
上加上

: 一点别的变量, AUC 很快飞涨到97%, 98%

: :我知道这种基于树的模型容易过度拟合, 就特意找了好几年前... 阅读全帖
i********w
发帖数: 2223
18
来自主题: Mathematics版 - 请教:随机变量的分布函数问题
【 以下文字转载自 Statistics 讨论区 】
发信人: icebergzjw (喝多感觉真好), 信区: Statistics
标 题: 请教:随机变量的分布函数问题
发信站: BBS 未名空间站 (Fri Feb 26 16:22:07 2010, 美东)
有一个随机变量 (例如 20xx年电汽车电池的大小).
在目前没有什么有用相关信息的情况下(只知道随机变量应属于(0,+inf)), 我需要为它
假设一个看似合理的分布函数.
请问有什么推荐么?
1)我想用正态分布,但是不满足随机变量范围.请问有没有什么modified normal
distribution 符合这个要求吗?
2)Log-normal倒是符合随机变量的要求,可是我没有办法解释为什么选log-normal,不选
其他的
分布函数.(我现在也不知道还有哪些常用的分布函数,它的随机变量是(0,+inf)的).
多谢!
c*m
发帖数: 1599
19
http://www.chinaequip.gov.cn/2015-04/17/c_134158527.htm
中国航天科工三院31所在被称为“自控专业禁区”的H∞鲁棒多变量控制方面取得重大
突破,将在本月进行正式地面试验验证,标志着我国H∞鲁棒多变量控制第一次成功应
用于航天发动机。
航天发动机控制技术的终极目标就是将被控对象的能力发挥到极限,这是航天发动机的
灵魂所在。早在2011年,科工三院31所着手开展“H∞鲁棒多变量控制在航天发动机领
域”的理论验证。通过3年多努力,31所控制团队重新在数学层面上深入剖析了H∞鲁棒
多变量控制理论并找到其与航天发动机动力控制的完美切合点。
“这次H∞鲁棒多变量控制的工程化应用是一次原始创新,相信在不久的将来,我们的
航天发动机就能真正拥有中国魂。”31所研制团队的负责人兴奋地说。
米帝是不是又要抓一批无辜华人“间谍”了?黄猴子不靠偷,还能自主突破技术?肯定
又是偷米国的。
w****h
发帖数: 212
20
【 以下文字转载自 CS 讨论区 】
发信人: wmbyhh (wmbyhh), 信区: CS
标 题: Matlab函数变量问题,需要循环产生、添加到变量列中,该如何实现?
发信站: BBS 未名空间站 (Tue Feb 26 22:44:28 2008)
请问,Matlab的函数变量如果开始不确定,需要循环产生、添加到变量中,该如何实现。
就是说,开始input_para=null
for i=1:N (N不确定可变)
{input_para}={input_para, vi};
Addevent(input_para);
end
最后依次执行Addevent(v1);
Addevent(v1,v2);
Addevent(v1,v2,v3);
...............
Addevent(v1,v2,...vn)
z****e
发帖数: 2024
21
来自主题: Programming版 - C++ 全局变量是怎么回事?
global != static
对,global变量, main 可以使用,同一个文件内的函数也可以使用.
其他源文件,如果想使用这个global,就 extern 声明一下,然后链接的时候把该
global 所在目标文件连上。
static就只能在当前编译单元,也就是当前源文件使用,其他源文件调用的同名变量都是不相同的实例。所以如果你头文件里声明static变量,然后两个源文件又给出该变量不同的定义,则,两个源文件自己用自己的变量,相互独立。所以不建议这样做。
b***i
发帖数: 3043
22
来自主题: Programming版 - C++ 全局变量是怎么回事?
我的一点想法,
C语言中函数内部static, 就是把变量放在静态数据区,auto则放在栈上。
然后,全局变量也放在静态数据区,才能被所有函数访问。
我就想,这个也在静态数据区,static就是静态的意思,为什么全局变量不用static声
明。而是规定static 只能在本文件内部访问?一个static 两个用法,是不是多此一举?

都是不相同的实例。所以如果你头文件里声明static变量,然后两个源文件又给出该变
量不同的定义,则,两个源文件自己用自己的变量,相互独立。所以不建议这样做。
a*****e
发帖数: 1700
23
这个例子只能说明 mutable by default 需要遵守一定规则 (使用 non-escaping 局部
变量)才能安全,想用它来例证 mutable by default 好?逻辑上讲不通。
为什么我说 non-escaping,因为如果使用 closure 捕捉局部变量成为环境变量,就
escape 了它们原先的定义域,mutation 会导致意想不到的状况,和使用全局 mutable
变量类似。
m******r
发帖数: 1033
24
其实还是老问题,如何处理categorical variable, 以前以为我学明白了,最近又有些
迷惑(尤其最近学R),所以上来问问。
比如美国54个州,某产品在个州均有销售。那么建模的时候,应该处理state这个变量
? 最简单的办法当然是根据经验(或者用WOE(weight_of_evidence))把一些州合在一起
。 比如纽约新泽西,弗吉尼亚DC, 或者中部几个州,密苏里,iowa, arkansas, 不过
这种方法完全依靠经验,不科学。
one_hot_encoding(就是dummy variable)我看也不科学。 54个州,不管你用one_hot
_encoding生成54个变量, 还是用哑变量生成53个变量, 软件计算的时候, 选变量还
是从54个州里面选一个州。 一个粗糙的办法,我看应该是试验所有可能分组. 比如:
54个州选一个州
54个州选两个州
...
54个州选27个州
这样一来,共有51+1275+20825...+2.9592E+14 = 1.60345E15种组合。
当然, 这是个天文数字。
一个折中方法,就是凭经验,把54个州合并成10个大州,... 阅读全帖
C*****a
发帖数: 17
25
来自主题: Statistics版 - 如何度量两组变量的相似度?
假设有两组变量,每组变量里面既包含分类变量也包含数值变量,如何度量这两组变量
的相似度啊?谢了!
i********w
发帖数: 2223
26
来自主题: Statistics版 - 请教:随机变量的分布函数问题
有一个随机变量 (例如 20xx年电汽车电池的大小).
在目前没有什么有用相关信息的情况下(只知道随机变量应属于(0,+inf)), 我需要为它
假设一个看似合理的分布函数.
请问有什么推荐么?
1)我想用正态分布,但是不满足随机变量范围.请问有没有什么modified normal
distribution 符合这个要求吗?
2)Log-normal倒是符合随机变量的要求,可是我没有办法解释为什么选log-normal,不选
其他的
分布函数.(我现在也不知道还有哪些常用的分布函数,它的随机变量是(0,+inf)的).
多谢!
A*******s
发帖数: 3942
27
涉及变量名的改变的基本上是两种思路,一种是用transpose将变量名变成变量然后改
变,一种是用proc sql's dictionary.table读入变量名到macro variables,然后再用
proc sql或者data step改名。lz的这个问题我觉得用proc transpose更简单些。
data test;
a=1;
b=3;
c=6;
d=3;
e=8;
f=9;
run;
proc transpose data=test out=test1;
run;
data test1;
set test1;
_Name_=cats('col_',put(_N_,$10.));
run;
proc transpose data=test1 out=test2(drop=_Name_);
run;
e******e
发帖数: 410
28
有X1 to X5 5个变量,想建立一个新变量Y。
第一个record:如果X1 to X5 里面X3 最大,那么Y的值就是X3的变量名(也就是X3)
又比如说第二个record:如果X1 to X5 里面X1最大,那么Y的值就是X1的变量名(就就
是X1)。
有哪位同学知道应该怎么建立这个变量Y嘛?
多谢多谢。
t********m
发帖数: 939
29
如果excel文件中有很多变量,比如说有几百个变量,有些变量对分析有用,有些变量
对分析没用,将该excel文件import进excel时,有没有什么办法只选择那些将要用到的
变量?还是说只能全部输入后,再用keep语句来实现?请大牛指点,谢谢!
t********m
发帖数: 939
30
有多少个变量啊?变量少的话,做个logistic regression不就知道哪些变量起决定性
的作用了么?变量很多的话,估计要先做个变量间的correlation吧。希望有大牛能出
来给讲解讲解。
r********n
发帖数: 6979
31
我知道可以用decision tree
这个好像对变量没有硬性的要求
不过如果在别的model里面
有没有什么方法可以让两种变量并存
比方在linear regression model里面怎么办?
而且categorical变量里面
有些时候变量只是代表不同而已
之间没有“距离”的概念
比方说, 一个变量是颜色, 红色,绿色,黄色
好像不能简单的变成0,1,2
这种情况应该怎么办?
p****e
发帖数: 165
32
谁给说说到底如何在一堆变量中找到the biggest contributing factor? 这在实际工
作中应用太广了,各个business domain都适用,比如以下领域:
Sales: how can we find which factors most affect product sales?
Inventory: how can we find which factors impact product availability?
Engineering: how can identify root causes behind manufacturing defects?
Human resources: how can we identify what causes high performers to leave?
总体来说就是有一堆可能的变量都可能作用于一个target变量,最后要找出几个最重要
的变量来做reporting或者建model. 有以下几种方法候选,大家说说哪些在实际中比较
常用?以及用什么工具实现?
1. correlation matrix, 一... 阅读全帖
m*n
发帖数: 695
33
SNP 的genotyping 分析, genotyping 有三型: 比如AA, AG, GG. 因此分为三组:1,
2,3。 然后做logistic repression, 一开始没有把genotyping 这个分类变量选个哑
变量( 选个reference)。 此时p 小于0.05. 但是当我选则一个哑变量( 比如选3 作
为reference)( 这个对于多分类变量是必须的吧?),总的genotyping, AA, AG 均
没有统计学意义?
为何会出现这样的不同的结果呢?应该是一致的吧?
请高手指点啊!!!
谢谢!!!
m*n
发帖数: 695
34
SNP 的genotyping 分析, genotyping 有三型: 比如AA, AG, GG. 因此分为三组:1,
2,3。 然后做logistic repression, 一开始没有把genotyping 这个分类变量选个哑
变量( 选个reference)。 此时p 小于0.05. 但是当我选则一个哑变量( 比如选3 作
为reference)( 这个对于多分类变量是必须的吧?),总的genotyping, AA, AG 均
没有统计学意义?
为何会出现这样的不同的结果呢?应该是一致的吧?
请高手指点啊!!!
谢谢!!!
m*n
发帖数: 695
35
非常抱歉,我刚刚看到您的回复。 好久没人回我的问题, 我以为没人理, 就没再跟
踪。
非常感谢您的指点! 谢谢!!!
我定义SNP 的 三个 genotype 为1,2,3, 均为nominal ,按您说的,如果不定义哑变
量, spss 也是把这个分类变量当作连续变量来分析?
那SNP分析时, 我要不要做哑变量呢? 或是两种方法都做, 分别解释allelic
effect 和genotypic effect?
楼下还有”石头”前辈说的additive model, 要不要设哑变量?additive model 解释
的是 allelic effect 还是 genotypic effect?
SNP 和统计我都是新手, 烦请您再点拨点拨。

allelic
q******r
发帖数: 6542
36
☆─────────────────────────────────────☆
handsomex (潇潇细雨) 于 (Thu Mar 24 23:05:47 2011, 美东) 提到:
有什么好的度量吗?
☆─────────────────────────────────────☆
benbenma (猪猪) 于 (Thu Mar 24 23:34:13 2011, 美东) 提到:
regression?就是那个啥r2的东东?
☆─────────────────────────────────────☆
handsomex (潇潇细雨) 于 (Thu Mar 24 23:40:23 2011, 美东) 提到:
这是什么啊?
☆─────────────────────────────────────☆
benbenma (猪猪) 于 (Thu Mar 24 23:42:47 2011, 美东) 提到:
统计分析啊?
☆─────────────────────────────────────☆
handsomex (潇潇细雨) 于 ... 阅读全帖
w*******e
发帖数: 285
37
我的理解是function内部的变量都进stack,普通function执行完了就被清除,静态函数
的变量一直在stack里面直到程序终结。heap是放静态变量和全局变量的地方,动态分
配的内存也放在stack当中,如果不release就会有泄漏,直到程序终结。
请问这是对的吗?
w***g
发帖数: 5958
38
不知道静态变量和全局变量的地方是不是叫heap,但是静态变量和全局变量大小固定,
不存在内存管理问题。也可以理解这些固定的东西在heap底部。动态分配的内存是放在
heap中的。
x***d
发帖数: 227
39
e.g,我有一个变量 order = 1:100
我想得到 100个变量,每个变量有不同数值,
变量的名字定义为: design_order = order;
也就是想得到:
design_1 = 1;
design_2 = 2;
......
design_100 = 100;
请问如生成 design_1, ..., design_100
多谢
z****e
发帖数: 702
40
来自主题: Mathematics版 - 独立随机变量的问题:
对于((0,1],B(0,1],P)的随机变量Y=w(1-w),
找出和σ(Y)独立的随机变量Z。
我觉得因为Y偶对称,所以和σ(Y)独立的就是奇对称的所有随机变量,
这里就是:满足 Z(w)+Z(1-w)=0的全体随机变量。
不知道这样是对的么?
h*******e
发帖数: 68
41
☆─────────────────────────────────────☆
cavine747 (痒痒挠) 于 (Sun Mar 4 14:23:54 2007) 提到:
proc iml;
a=2;
b=3;
c=a+b;
/*以上没有问题。接下来想把c的值在log life里面输出*/
%let d=%eval(c);
%put &d;
quit;
系统提示出错:
ERROR: A character operand was found in the %EVAL function or %IF condition
where a numeric
operand is required. The condition was: c
我想应该我C的值先传递给一个宏变量,然后就可以用%put输出了。
请问我该如何把这个非宏变量(C)的值传递给一个宏变量呢?
谢谢。
☆─────────────────────────────────────☆
papertigra (长工胖头猪) 于 (Sun Mar 4 16:14:48 2007) 提到:
%l
p*****o
发帖数: 543
42
如果我有一个DATA SET A,不知道里面有多少变量,也不知道变量的名字。
请问有没有办法讲变量的名称改为:COL1,COL2,COL3,...COLN?
谢谢!!
a******n
发帖数: 11246
43

值,怎么找每个变量里面的outlier?
用两个减号:第一个变量名--最后一个变量名
如:input Y X1 A2 B3 D;
......
model Y=X1--D;
k*****u
发帖数: 1688
44
多谢楼上的几位帮忙。 我昨天晚上仔细看了一下data,因变量y是连续的数值型变量,
自变量有几个是连续的,但是绝大部分自变量都是categorical的,我这么想不知道对
不对:
1:把categorical的自变量变成dummy variable,这样的话可以做linear regression
。 也可以用向前,向后,逐步的办法选择变量。有一个问题是,万一变量选择的时候
,某个dummu variable有一些显著,一些不显著,那怎么解释?
2:就把categorical的x作为离散的,然后用proc mixed作为一个混合模型,某些x有很
多值的就作为一个random effect。不知道proc mixed里面做variable selection用什
么办法?好像没有forward这种类似的命令。还有,在这里面那些连续的x能直接放进来
么?还是怎么办? 谢谢了
多谢各位!
H**********f
发帖数: 2978
45
你说的很不清楚
感觉你说的最开始的办法应该是把SNP当成了连续变量(虽然只取1,2,3)检验allelic
effect,1个自由度
后来加个哑变量应该就是把SNP当成分类变量检验genotypic effect,2个自由度
SNP效应的实际模型一般比较符合第一个模型,这时2df检验损失效能。
H**********f
发帖数: 2978
46
你说的很不清楚
感觉你说的最开始的办法应该是把SNP当成了连续变量(虽然只取1,2,3)检验allelic
effect,1个自由度
后来加个哑变量应该就是把SNP当成分类变量检验genotypic effect,2个自由度
SNP效应的实际模型一般比较符合第一个模型,这时2df检验损失效能。
H**********f
发帖数: 2978
47
nominal应该就是categorical,所以你做的应该就是2df genotypic test。之后应该以
频率比较高的那个genotype比如AA作为reference,AG和GG弄成2个哑变量做回归,这样
可以看AG和GG各自对应AA的odds ratio,就能看出SNP效应的模式了。
应该也做一下(allelic) additive model,一般的复杂性状(疾病)相关SNP都比较
符合这个模型。把SNP当成连续变量,AA,AG,GG取值0,1,2,没有哑变量。这个模型可
以看allele G相对于allele A的odds ratio。
以上做完之后如果发现有明显的显隐性,可以用显隐性模型,上面石头提到了
h*****n
发帖数: 209
48
【 以下文字转载自 Programming 讨论区 】
发信人: hanuman (神猴), 信区: Programming
标 题: 程序中的各个变量/数组的内存地址是否会混在一起?
发信站: BBS 未名空间站 (Sun Dec 19 01:03:09 2010, 美东)
比如说一个C程序内有很多int型的变量,还有一些int 或 char的数组,
有时候我发现这些变量的内存地址有可能和这些数组的地址混在一起了,这样就导致了
一些莫名其妙的bug。
不知道这是由于compiler的问题,还是程序本身没设计好。
我想版上的高手应该也经历过类似的问题。那么如何预防这种bug呢?
b*******t
发帖数: 79
49
变量是函数的变量还是全局的呢
函数的变量放在stack,有可能stack overflow. 你最好debug跟踪下
GCC和VC8在stack放了canary word(VC编译的/GS选项)
R******d
发帖数: 1436
50
来自主题: Database版 - 请问数据表里筛选变量名的写法
数据表里有很多变量,比如:
a a_1 b b_2 c c_1 .....
现在想把变量a b挑出来生成一个新的表,其余的变量不要了。请问sql里应该怎么写。
多谢了
1 2 3 4 5 6 7 8 9 10 下页 末页 (共10页)