t-SNE和PCA哪个好？为什么？ - Biology版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Biology版 - t-SNE和PCA哪个好？为什么？

相关主题
● 奇怪的PCA和基因表达的分析结果	● Re: help,pls
● PCA explained variance 太低怎么办?	● This may be useful for you!: ClustalW
● 请出几道题，用来鉴别一个人是否生物博后	● Re: 想问做电生理的大牛一个问题
● 做biology的看不起做测序、bioinfo和结构的？	● 简单地说说生物医学里的统计应用吧
● 怎么知道PRC1 complex中都含有那些蛋白啊？	● 请教microarray的数据分析
● 胡乱选的基因比发表出来的“cancer marker”能更准确的预测癌	● 请教搞Phage的同学～
● free pc s/w for biologists.	● 高手帮忙！！问一个统计分析NMR的问题。
● blast	● 帮朋友发的招聘信息 Scientist I, Biology

相关话题的讨论汇总
话题: pca话题: similarity话题: tsne话题: retain话题: sne

进入Biology版参与讨论

(共1页)

j*********g
发帖数: 463

h********6
发帖数: 135

t-SNE is better for non-linear data set.

c********e
发帖数: 598

What types of bio data are non-linear?

【在 h********6 的大作中提到】

: t-SNE is better for non-linear data set.

s******s
发帖数: 13035

这个完全两种东西。PCA是linear transformation, 如果plot出来
两个点之间的相似程度和他们的距离相关。t-SNE主要是为了低维
可视化设计的，做cluster一般比PCA漂亮多了，但是除非两个点
很近，否则你没法根据距离做啥可靠的结论。

【在 j*********g 的大作中提到】

: rt

c********e
发帖数: 598

pca?两个点之间的相似程度和他们的距离相关?? Not always.
PCA subspace is to maximize the retained sample variance, rather than
keeping
similarity.

【在 s******s 的大作中提到】

: 这个完全两种东西。PCA是linear transformation, 如果plot出来
: 两个点之间的相似程度和他们的距离相关。t-SNE主要是为了低维
: 可视化设计的，做cluster一般比PCA漂亮多了，但是除非两个点
: 很近，否则你没法根据距离做啥可靠的结论。

s******s
发帖数: 13035

PCA本来就是欧几里得距离similarity matrix做eigenanalysis，naturally
capture点之间相似性信息。
你去仔细想一想，其实retain sample variance和retain dissimilarity差不
多是一个意思

【在 c********e 的大作中提到】

:
: pca?两个点之间的相似程度和他们的距离相关?? Not always.
: PCA subspace is to maximize the retained sample variance, rather than
: keeping
: similarity.

c********e
发帖数: 598

retain dissimilarity (PCA) is different than retain similarity (tSNE).

【在 s******s 的大作中提到】

: PCA本来就是欧几里得距离similarity matrix做eigenanalysis，naturally
: capture点之间相似性信息。
: 你去仔细想一想，其实retain sample variance和retain dissimilarity差不
: 多是一个意思

s******s
发帖数: 13035

PCA retains similarity in terms of distance
tSNE retains similarity in terms of probability
我已经说了，distance matrix做eigenanalysis, distance当然相关，和你
说retain variance并不是非此即彼的关系
至于similarity还是dissimilarity, PCA里面叫similarity matrix, PCoA里面叫
dissimilarity matrix, 叫法不一样而已。

【在 c********e 的大作中提到】

:
: retain dissimilarity (PCA) is different than retain similarity (tSNE).

c********e
发帖数: 598

Firstly,tSNE probability is calculated based on the euclidean distance.
Secondly, for biological data, retain sample variance does not mean '
naturally capture'. You have to assume linear structure, eigenvalues are
actually inflated loadings, a modern version probabilistic PCA might be
better (to solve contaminated error variance).
Thirdly, PCA is not able to directly measure true relationship of high
dimensional data without helping with other ML technique.

r**********e
发帖数: 587

请问各位生物信息前辈，都是转到了data science吗？
我觉得我们从bioinfor过度到data science是很自然的。但大家都说data sci的坑远远
不如CS SDE的多
所以还不如直接转CS，毕竟对于转行的人，先入坑是最重要的
一方面要练machine learning这些python，一方面又要补课学java，怕贪心忙不过来

【在 j*********g 的大作中提到】

: rt

相关主题
● 胡乱选的基因比发表出来的“cancer marker”能更准确的预测癌	● Re: help,pls
● free pc s/w for biologists.	● This may be useful for you!: ClustalW
● blast	● Re: 想问做电生理的大牛一个问题
进入Biology版参与讨论

c********e
发帖数: 598

java is enough.
You need to know C to work in the field of machine learning.

A*****n
发帖数: 243

哪个图画出来好看用哪个：）
即使是用tSNE画图，也还是最好先用PCA降维，顺便观察数据结构。

【在 j*********g 的大作中提到】

: rt

c********e
发帖数: 598

Why it is better use linear methods to reduce dimension first, followed by
non-linear?

【在 A*****n 的大作中提到】

: 哪个图画出来好看用哪个：）
: 即使是用tSNE画图，也还是最好先用PCA降维，顺便观察数据结构。

A*****n
发帖数: 243

当数据维数很高的时候，比如3万多个基因，尤其其中还有一些co-linear的特征，使用
PCA以及SVD有助于将数据维数降到一个合理范围，比如50或者100以下。这样对于距离
矩阵的计算有很大帮助，另外也有助于减少噪音对于距离计算的影响。这个时候可以试
着用PC1 to 3 先对数据进行初步的观察，看看有没有一些结构。如果PC1 to 3的total
variance实在太小，这个时候才考虑用tSNE做进一步的降维分析。当然如果象CyTOF这
种维数本来就比较低，而且基因之间差异又比较大的数据，倒是无所谓。
所有非线性的转换如果不选择合适的参数的话，结果很容易misleading，发现一些
artificial的结构。不过这种负结论很多人不爱听。
http://distill.pub/2016/misread-tsne/

【在 c********e 的大作中提到】

:
: Why it is better use linear methods to reduce dimension first, followed by
: non-linear?

c****l
发帖数: 53

这个说法有点误导人, 现在machine learning, 很多人只用python就可以搞定了, C不
是必须的

【在 c********e 的大作中提到】

: java is enough.
: You need to know C to work in the field of machine learning.

s******s
发帖数: 13035

tSNE一般动不动就是算个1000遍10000遍的找个最优解，你sure想从几万维算起？

【在 c********e 的大作中提到】

:
: Why it is better use linear methods to reduce dimension first, followed by
: non-linear?

s******s
发帖数: 13035

请教一下，有啥算PCA节省内存的软件？
我有一个10k x 500k维度的数据，在R里面算把我200G的内存都搞爆了，现在只能
subsampling才能算，不爽

total

【在 A*****n 的大作中提到】

: 当数据维数很高的时候，比如3万多个基因，尤其其中还有一些co-linear的特征，使用
: PCA以及SVD有助于将数据维数降到一个合理范围，比如50或者100以下。这样对于距离
: 矩阵的计算有很大帮助，另外也有助于减少噪音对于距离计算的影响。这个时候可以试
: 着用PC1 to 3 先对数据进行初步的观察，看看有没有一些结构。如果PC1 to 3的total
: variance实在太小，这个时候才考虑用tSNE做进一步的降维分析。当然如果象CyTOF这
: 种维数本来就比较低，而且基因之间差异又比较大的数据，倒是无所谓。
: 所有非线性的转换如果不选择合适的参数的话，结果很容易misleading，发现一些
: artificial的结构。不过这种负结论很多人不爱听。
: http://distill.pub/2016/misread-tsne/

c********e
发帖数: 598

Python scikit learn has "Incremental PCA". difficult to avoid subsampling.

【在 s******s 的大作中提到】

: 请教一下，有啥算PCA节省内存的软件？
: 我有一个10k x 500k维度的数据，在R里面算把我200G的内存都搞爆了，现在只能
: subsampling才能算，不爽
:
: total

(共1页)

进入Biology版参与讨论

相关主题
● 帮朋友发的招聘信息 Scientist I, Biology	● 怎么知道PRC1 complex中都含有那些蛋白啊？
● 我想自学R。有那位高手指点一下如何入手呢？	● 胡乱选的基因比发表出来的“cancer marker”能更准确的预测癌
● paper help	● free pc s/w for biologists.
● 学生物真有这么糟糕么？NHGRI上生物相关从业者工资	● blast
● 奇怪的PCA和基因表达的分析结果	● Re: help,pls
● PCA explained variance 太低怎么办?	● This may be useful for you!: ClustalW
● 请出几道题，用来鉴别一个人是否生物博后	● Re: 想问做电生理的大牛一个问题
● 做biology的看不起做测序、bioinfo和结构的？	● 简单地说说生物医学里的统计应用吧

相关话题的讨论汇总
话题: pca话题: similarity话题: tsne话题: retain话题: sne

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天