一道药厂computational biology的面试题 - DataSciences版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

DataSciences版 - 一道药厂computational biology的面试题

相关主题
● 请问这样的数据应该用什么样的模型适合。	● 借版面问个machine learning的问题
● 请教一个用R做cox regression的问题	● feature selection的方法求教
● 刚入行新人的两个问题	● 问一个关于clustering analysis的问题
● 一道面试题，向本版求教一下。	● 问个feature selection的问题
● 问一道面试题	● model selection problem
● f.t."我不会编程"	● 有没有大牛来classifiy一下 PCA用法吗？
● 工作中遇到的一个现象，问问大家怎么解释 (转载)	● 问个time series forecasting的问题 (转载)
● 报面筋求实习合租 (转载)	● 做credit risk scorecard的朋友们，请进来，有问题求教 (转载)

相关话题的讨论汇总
话题: gene话题: 基因话题: expression话题: responder话题: 病人

进入DataSciences版参与讨论

1

(共1页)

m******c 发帖数: 830	1 最近电面了一个大药厂的职位。这道题不知怎么答好。有两组病人，用同一种药治疗，其中一组病人的效果好，而另外一组的疗效不好。现有每个病人的RNAseq数据，也就是两万多个基因的表达值数据(normalized)，这个值得范围可能是０－１００，非随机，非线性分布，但总体的均值为１. 问用什么样的机器学习的方法或统计方法来找出一组基因，也就是两万多个基因中的一小部分，其表达值可以用于病人对于该治疗的预测？多谢指教。 Two patient cohorts, all treated with the same drug. One cohort are the responders, who has response to the treatment and the other one are non- responders who does not respond to the treatment. RNAseq was performed and we have the normalized gene expression values of the 20,000 genes for each of the patients. The expression value ranges from 0-100 with total average of 1. The question is how to find out a gene set (a small portion of the 20,000 gene) and use their combined (maybe weighted) gene expression value to predict if a patient is either a responder or non-responder to the drug treatment. It's a binary prediction. Hope this clear.
s***n 发帖数: 678	2 每个基因都有数据，还是只有一大批的基因的平均值？
m******c 发帖数: 830	3 每个基因都有数据,所以每个病人有20，000个数值。
U**K 发帖数: 58	4 1）可以试试看lasso,应该很多x (gene expression value）的系数会是0，剩下的小部分x做预测。 2）很多machine-learning 的方法也可以吧。比如random forest 预测binary ( responder vs non-responder), 用 variable importance plot取rank 高的若干x.
c*******e 发帖数: 8624	5 直觉就是lasso regression啊，调节一下lambda，大部分系数都归零了。 and 【在 m******c 的大作中提到】 : 最近电面了一个大药厂的职位。这道题不知怎么答好。 : 有两组病人，用同一种药治疗，其中一组病人的效果好，而另外一组的疗效不好。现有 : 每个病人的RNAseq数据，也就是两万多个基因的表达值数据(normalized)，这个值得范 : 围可能是０－１００，非随机，非线性分布，但总体的均值为１. 问用什么样的机器 : 学习的方法或统计方法来找出一组基因，也就是两万多个基因中的一小部分，其表达值 : 可以用于病人对于该治疗的预测？ : 多谢指教。 : Two patient cohorts, all treated with the same drug. One cohort are the : responders, who has response to the treatment and the other one are non- : responders who does not respond to the treatment. RNAseq was performed and
H**********f 发帖数: 2978	6 这是个variable selection问题。这题应该没有标准答案，就看你能不能说出个123，所以你得对这方面有所了解，但不见得上来就会做。你要说出一些关键词比如variable selection，一些常见的可以做variable selection的分类方法比如forward/backward selection，lasso regression，svm等，一些判断分类器好坏的办法比如AIC／BIC， cross-validation。如果深究这个问题： https://en.wikipedia.org/wiki/Feature_selection 办法很多，还有不少专门针对gene expression的方法。 and 【在 m******c 的大作中提到】 : 最近电面了一个大药厂的职位。这道题不知怎么答好。 : 有两组病人，用同一种药治疗，其中一组病人的效果好，而另外一组的疗效不好。现有 : 每个病人的RNAseq数据，也就是两万多个基因的表达值数据(normalized)，这个值得范 : 围可能是０－１００，非随机，非线性分布，但总体的均值为１. 问用什么样的机器 : 学习的方法或统计方法来找出一组基因，也就是两万多个基因中的一小部分，其表达值 : 可以用于病人对于该治疗的预测？ : 多谢指教。 : Two patient cohorts, all treated with the same drug. One cohort are the : responders, who has response to the treatment and the other one are non- : responders who does not respond to the treatment. RNAseq was performed and
a***s 发帖数: 130	7 gene set enrichment analysis?
H**********f 发帖数: 2978	8 GSEA确实经常用于基因表达分析，但不是一回事。GSEA看哪些个gene set整体（主要是 pathway）和实验组有关，不用于预测，主要是千老（比如我）解释生物学意义，灌文章。楼主的问题，就是要选一组marker，不一定在一个pathway，目标就是预测准确，不要生物学意义【在 a***s 的大作中提到】 : gene set enrichment analysis?
z****t 发帖数: 5	9 上面凡是回答用机器学习类方法的都是对rna-seq数据一点不行的，rna-seq数据是典型的hdlss数据（高维小样本）。学术界主流还是用统计方法寻找差异化表达的基因。然后通过rank的方法，选取一部分top的feature来建立预测模型。我估计生信圈里做rna- seq的都明白怎么做。
y*******1 发帖数: 164	10 1. 用ttest或者ANOVA之类的，对效果好组和效果不好组的每一个基因进行比较，当然还要考虑multiple testing的问题，大概能找到几百个或者更少的基因 2. 用这些选取的基因来train logistic regression或者其他的machine learning model，具体的上面已经提到很多了总之要点就是feature selection，不可能用20，000个基因训练模型，noise太多，只能选取到几十个或者几个基因（也是就是biomarker）。另外就是计算学习的问题，也需要考虑cross validation之类的问题。
H**********f 发帖数: 2978	11 机器学习里很多都可以解决p>>n，例如上面说的lasso，random forest，svm。只要样本量足够cross-validation（比如5-fold）就没问题。如果样本量太小确实不行，很多生物千老实验室甚至只做2 vs 2 samples，那样的话还需要结合Baysian方法找差异表达基因（例如https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1431571/），或者做 GSEA那种。主流生物界都不做预测，所以一般也不用机器学习。 rna- 【在 z****t 的大作中提到】 : 上面凡是回答用机器学习类方法的都是对rna-seq数据一点不行的，rna-seq数据是典型 : 的hdlss数据（高维小样本）。学术界主流还是用统计方法寻找差异化表达的基因。然 : 后通过rank的方法，选取一部分top的feature来建立预测模型。我估计生信圈里做rna- : seq的都明白怎么做。

1

(共1页)

进入DataSciences版参与讨论

相关主题
● 做credit risk scorecard的朋友们，请进来，有问题求教 (转载)	● 问一道面试题
● 这类问题咋回答	● f.t."我不会编程"
● 评估feature的预测能力	● 工作中遇到的一个现象，问问大家怎么解释 (转载)
● Twitter Data Scientist 电面题目	● 报面筋求实习合租 (转载)
● 请问这样的数据应该用什么样的模型适合。	● 借版面问个machine learning的问题
● 请教一个用R做cox regression的问题	● feature selection的方法求教
● 刚入行新人的两个问题	● 问一个关于clustering analysis的问题
● 一道面试题，向本版求教一下。	● 问个feature selection的问题

相关话题的讨论汇总
话题: gene话题: 基因话题: expression话题: responder话题: 病人

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)