显微课堂 | UMAP、t-SNE与PacMAP终极降维大对决

 

从高维到低维:

Aivia带你轻松驾驭3种数据降维技术

数据降维大揭秘:

UMAP、t-SNE与PacMAP的终极对决

       
       

降维示例

      

    左右滑动查看更多    

      

降维将数据从高维空间转换到低维空间,以简化数据解释。

  

在Aivia中的应用:通过选择不同的测量方法,帮助用户为不同类别实现清晰的决策边界,这些测量方法可以用于不同的聚类技术。

Aivia中的三种降维方法:

  • UMAP – 比t-SNE更快

  • PacMAP – 比UMAP更快,并且更好地保留高维数据的局部和全局结构

  • t-SNE – 保留局部结

关于参数和不同使用示例的详细技术说明,请参见Aivia Wiki


UMAP

UMAP(统一流形近似与投影)是一种现代降维技术,主要用于高维数据集的可视化。它的用途与t-SNE相似,但通常速度更快且能够处理更大的数据集。UMAP基于保持数据的拓扑结构的原则,通过利用黎曼几何和代数拓扑来近似数据的底层流形。通过捕捉局部和全局结构,它提供了数据簇和关系的全面视图。


UMAP的两个主要步骤

   
   

步骤1

创建一个高维图。这是一个加权图,其中一个点与其最近的邻居相连。

     
       
         

 降维UMAP图与图例1 

         

降维UMAP图与图例2

         

降维UMAP图与图例(参数快速探索)3

      

    左右滑动查看更多    

      
   

步骤2

创建一个尽可能类似于高维图的低维或二维图,生成UMAP 1和UMAP 2参数。


 


1

深入了解UMAP理论

UMAP的核心工作原理与t-SNE非常相似——两者都使用图布局算法在低维空间中排列数据。UMAP构建数据的高维图表示,然后优化一个低维图,使其在结构上尽可能相似。UMAP通过基于每个点的第n个最近邻的距离来局部选择半径,从而确保局部结构与全局结构的平衡。


2

如何(误)解读UMAP

虽然UMAP相较于t-SNE有许多优势,但它绝不是万能的——解读和理解其结果需要一定的谨慎。需要注意以下几点:

  • 超参数非常重要:选择合适的值取决于数据和你的目标。

  •  UMAP图中的簇大小毫无意义:簇之间的相对大小基本上没有意义。

  • 簇之间的距离可能毫无意义:尽管UMAP在全局位置上更好地保留了簇的位置,但它们之间的距离并不具有意义。

  • 随机噪声不总是看起来随机:特别是在n_neighbors值较低时,可能会观察到虚假的聚类。

  • 你可能需要不止一张图:由于UMAP算法是随机的,不同的运行可能产生不同的结果。

   

优点

   
  • 保留局部和全局结构:UMAP捕捉数据中的非线性关系,适用于处理复杂数据集。

  • 速度和可扩展性:UMAP在计算上更高效,适合处理大数据集。

  • 参数调优:UMAP提供了参数调优的灵活性,允许用户在保留局部和全局结构之间进权衡。

   

缺点

   
  • 可解释性:UMAP嵌入可能不如一些其他方法(如PCA)那样具有可解释性。

  • 对超参数的敏感性:UMAP的性能可能对超参数选择敏感,找到合适的参数可能需要进行实验。

  • 在高维空间中的局限性:UMAP在非常高维的空间中可能表现不佳。

  • 计算资源需求:对于极其庞大的数据集,UMAP仍然可能需要大量的计算资源。


 

图2:对Fashion MNIST数据集应用降维。10类服装物品的28x28图像被编码为784维向量,然后通过UMATt-SNE投影到3维。


t-SNE(t-随机邻域嵌入)

t-SNE(t-随机邻域嵌入)是一种流行的降维方法,用于高维数据的可视化。t-SNE通过保留数据的局部结构来工作,通常会导致簇的清晰分离。与专注于最大化方差的PCA(主成分分析)不同,t-SNE强调在降维空间中保持相似的距离接近,不相似的距离远离。然而,由于其对局部结构的强调,它有时会夸大簇,并不总是能保留数据的全局结构。此方法计算量大,尤其是对于大型数据集。

     

优点

     

1

局部结构的保留

t-SNE在保留数据的局部结构方面表现出色,使其在识别相似数据点的聚类时非常有效。

2

灵活性

与某些线性方法(如PCA)不同,它可以有效处理非线性数据结构。

3

可视化

特别适用于将高维数据可视化为二维或三维。

     

缺点

     

1

计算强度

该算法在处理大型数据集时可能会非常耗费计算资源。

2

随机性

由于算法的随机性,最终的可视化结果在不同运行之间可能会有所不同,这可能导致不一致性。

3

超参数敏感性

结果可能对困惑度(perplexity)的选择非常敏感。

4

可解释性

t-SNE图中聚类之间的距离并不总是具有有意义的解释。该算法优先保留局部结构而非全局结构。t-SNE可视化中的数据点密度不一定代表原始高维空间中的密度。

5

仅适用于可视性

虽然在可视化方面表现出色,但t-SNE嵌入可能并不总是适合作为其他机器学习算法的输入。


PaCMAP(成对控制流形近似)

PaCMAP(成对控制流形近似)是一种降维技术,作为t-SNE和UMAP等方法的替代方案被引入。该方法旨在平衡数据中局部和全局结构的保留,解决其他技术中观察到的一些挑战。它引入了成对吸引和排斥项,以在流形学习过程中控制平衡,并以其速度和处理大数据集的能力而著称,同时能够生成可解释的嵌入。

     

优点

     

1

混合方法

PacMAP结合了局部和全局结构保留的优点,旨在从t-SNE(局部)和PCA(全局)等方法中捕捉两者的最佳特性。PacMAP旨在结合t-SNE(局部结构保留)和UMAP/PCA(全局结构保留)的优势。

2

局部和全局结构保留的灵活性

该方法可以根据数据的性质和用户的目标,调整以强调局部或全局结构。

3

减少拥挤问题

该方法旨在缓解t-SNE中常见的“拥挤问题”,这种问题会导致簇被推得过远。

4

减少随机性

与t-SNE的随机性相比,PacMAP在多次运行中提供了更一致的结果。虽然有参数需要调整,但该方法设计得比t-SNE对参数变化更具鲁棒性。

     

缺点

     

1

复杂性和熟悉度

作为一种混合方法,PacMAP可能对熟悉简单、单一目标方法的用户来说更难理解。一些数据分析社区可能对PacMAP不太熟悉,导致在采用或解释时可能面临挑战。由于其较新,可能没有像t-SNE或PCA等长期存在的方法在各种应用中经过广泛验证。

2

参数敏感性

尽管设计得对参数变化更具鲁棒性,但结果仍可能因参数选择而异。根据数据的不同,如果调整不当,可能会有过度强调局部或全局结构的风险。

3

可解释性

与其他降维技术一样,解释降维后的维度仍然可能是不直观的。


Aivia赋能数据驱动的空间洞察

降维工具大解析

 


快来申请Aivia14试用吧!

 

更有免费软件Aivia community等你来探索!

 
     
       
   

Aivia14新产品发布会


参考文献:

1. Becht E, McInnes L, Healy J, Dutertre CA, Kwok IW, Ng LG, Ginhoux F, Newell EW. Dimensionality reduction for visualizing single-cell data using UMAP. Nature biotechnology. 2019 Jan;37(1):38-44.

2. Wang Y, Huang H, Rudin C, Shaposhnik Y. Understanding how dimension reduction tools work: an empirical approach to deciphering t-SNE, UMAP, TriMAP, and PaCMAP for data visualization. The Journal of Machine Learning Research. 2021 Jan 1;22(1):9129-201.

3. Van der Maaten L, Hinton G. Visualizing data using t-SNE. Journal of machine learning research. 2008 Nov 1;9(11).

4. McInnes L, Healy J, Melville J. Umap: Uniform manifold approximation and projection for dimension reduction. arXiv preprint arXiv:1802.03426. 2018 Feb 9.


   


     
     
   

     
   
   
   
   
   
   
   
 

关于徕卡显微系统


徕卡显微系统的历史最早可追溯到19世纪,作为德国著名的光学制造企业,徕卡显微成像系统拥有170余年显微镜生产历史,逐步发展成为显微成像系统行业的领先的厂商之一。徕卡显微成像系统一贯注重产品研发和最新技术应用,并保证产品质量一直走在显微镜制造行业的前列。


徕卡显微系统始终与科学界保持密切联系,不断推出为客户度身定制的显微解决方案。徕卡显微成像系统主要分为三个业务部门:生命科学与研究显微、工业显微与手术显微部门。徕卡在欧洲、亚洲与北美有7大产品研发中心与6大生产基地,在二十多个国家设有销售及服务分支机构,总部位于德国维兹拉(Wetzlar)。

 

阅读5次
关注
最新动态

相关产品

当前位置: 仪器信息网 徕卡显微系统 动态 显微课堂 | UMAP、t-SNE与PacMAP终极降维大对决

关注

拨打电话

留言咨询