j*********g 发帖数: 463 | |
h********6 发帖数: 135 | 2 t-SNE is better for non-linear data set. |
c********e 发帖数: 598 | 3
What types of bio data are non-linear?
【在 h********6 的大作中提到】 : t-SNE is better for non-linear data set.
|
s******s 发帖数: 13035 | 4 这个完全两种东西。PCA是linear transformation, 如果plot出来
两个点之间的相似程度和他们的距离相关。t-SNE主要是为了低维
可视化设计的,做cluster一般比PCA漂亮多了,但是除非两个点
很近,否则你没法根据距离做啥可靠的结论。
【在 j*********g 的大作中提到】 : rt
|
c********e 发帖数: 598 | 5
pca?两个点之间的相似程度和他们的距离相关?? Not always.
PCA subspace is to maximize the retained sample variance, rather than
keeping
similarity.
【在 s******s 的大作中提到】 : 这个完全两种东西。PCA是linear transformation, 如果plot出来 : 两个点之间的相似程度和他们的距离相关。t-SNE主要是为了低维 : 可视化设计的,做cluster一般比PCA漂亮多了,但是除非两个点 : 很近,否则你没法根据距离做啥可靠的结论。
|
s******s 发帖数: 13035 | 6 PCA本来就是欧几里得距离similarity matrix做eigenanalysis,naturally
capture点之间相似性信息。
你去仔细想一想,其实retain sample variance和retain dissimilarity差不
多是一个意思
【在 c********e 的大作中提到】 : : pca?两个点之间的相似程度和他们的距离相关?? Not always. : PCA subspace is to maximize the retained sample variance, rather than : keeping : similarity.
|
c********e 发帖数: 598 | 7
retain dissimilarity (PCA) is different than retain similarity (tSNE).
【在 s******s 的大作中提到】 : PCA本来就是欧几里得距离similarity matrix做eigenanalysis,naturally : capture点之间相似性信息。 : 你去仔细想一想,其实retain sample variance和retain dissimilarity差不 : 多是一个意思
|
s******s 发帖数: 13035 | 8 PCA retains similarity in terms of distance
tSNE retains similarity in terms of probability
我已经说了,distance matrix做eigenanalysis, distance当然相关,和你
说retain variance并不是非此即彼的关系
至于similarity还是dissimilarity, PCA里面叫similarity matrix, PCoA里面叫
dissimilarity matrix, 叫法不一样而已。
【在 c********e 的大作中提到】 : : retain dissimilarity (PCA) is different than retain similarity (tSNE).
|
c********e 发帖数: 598 | 9 Firstly,tSNE probability is calculated based on the euclidean distance.
Secondly, for biological data, retain sample variance does not mean '
naturally capture'. You have to assume linear structure, eigenvalues are
actually inflated loadings, a modern version probabilistic PCA might be
better (to solve contaminated error variance).
Thirdly, PCA is not able to directly measure true relationship of high
dimensional data without helping with other ML technique. |
r**********e 发帖数: 587 | 10 请问各位生物信息前辈,都是转到了data science吗?
我觉得我们从bioinfor过度到data science是很自然的。但大家都说data sci的坑远远
不如CS SDE的多
所以还不如直接转CS,毕竟对于转行的人,先入坑是最重要的
一方面要练machine learning这些python,一方面又要补课学java,怕贪心忙不过来
【在 j*********g 的大作中提到】 : rt
|
|
|
c********e 发帖数: 598 | 11 java is enough.
You need to know C to work in the field of machine learning. |
A*****n 发帖数: 243 | 12 哪个图画出来好看用哪个:)
即使是用tSNE画图,也还是最好先用PCA降维,顺便观察数据结构。
【在 j*********g 的大作中提到】 : rt
|
c********e 发帖数: 598 | 13
Why it is better use linear methods to reduce dimension first, followed by
non-linear?
【在 A*****n 的大作中提到】 : 哪个图画出来好看用哪个:) : 即使是用tSNE画图,也还是最好先用PCA降维,顺便观察数据结构。
|
A*****n 发帖数: 243 | 14 当数据维数很高的时候,比如3万多个基因,尤其其中还有一些co-linear的特征,使用
PCA以及SVD有助于将数据维数降到一个合理范围,比如50或者100以下。这样对于距离
矩阵的计算有很大帮助,另外也有助于减少噪音对于距离计算的影响。这个时候可以试
着用PC1 to 3 先对数据进行初步的观察,看看有没有一些结构。如果PC1 to 3的total
variance实在太小,这个时候才考虑用tSNE做进一步的降维分析。当然如果象CyTOF这
种维数本来就比较低,而且基因之间差异又比较大的数据,倒是无所谓。
所有非线性的转换如果不选择合适的参数的话,结果很容易misleading,发现一些
artificial的结构。不过这种负结论很多人不爱听。
http://distill.pub/2016/misread-tsne/
【在 c********e 的大作中提到】 : : Why it is better use linear methods to reduce dimension first, followed by : non-linear?
|
c****l 发帖数: 53 | 15 这个说法有点误导人, 现在machine learning, 很多人只用python就可以搞定了, C不
是必须的
【在 c********e 的大作中提到】 : java is enough. : You need to know C to work in the field of machine learning.
|
s******s 发帖数: 13035 | 16 tSNE一般动不动就是算个1000遍10000遍的找个最优解,你sure想从几万维算起?
【在 c********e 的大作中提到】 : : Why it is better use linear methods to reduce dimension first, followed by : non-linear?
|
s******s 发帖数: 13035 | 17 请教一下,有啥算PCA节省内存的软件?
我有一个10k x 500k维度的数据,在R里面算把我200G的内存都搞爆了,现在只能
subsampling才能算,不爽
total
【在 A*****n 的大作中提到】 : 当数据维数很高的时候,比如3万多个基因,尤其其中还有一些co-linear的特征,使用 : PCA以及SVD有助于将数据维数降到一个合理范围,比如50或者100以下。这样对于距离 : 矩阵的计算有很大帮助,另外也有助于减少噪音对于距离计算的影响。这个时候可以试 : 着用PC1 to 3 先对数据进行初步的观察,看看有没有一些结构。如果PC1 to 3的total : variance实在太小,这个时候才考虑用tSNE做进一步的降维分析。当然如果象CyTOF这 : 种维数本来就比较低,而且基因之间差异又比较大的数据,倒是无所谓。 : 所有非线性的转换如果不选择合适的参数的话,结果很容易misleading,发现一些 : artificial的结构。不过这种负结论很多人不爱听。 : http://distill.pub/2016/misread-tsne/
|
c********e 发帖数: 598 | 18
Python scikit learn has "Incremental PCA". difficult to avoid subsampling.
【在 s******s 的大作中提到】 : 请教一下,有啥算PCA节省内存的软件? : 我有一个10k x 500k维度的数据,在R里面算把我200G的内存都搞爆了,现在只能 : subsampling才能算,不爽 : : total
|