显微课堂 | UMAP、t-SNE与PacMAP终极降维大对决

徕卡显微系统(上海)贸易有限公司

2024/09/13 17:53

TA的动态

从高维到低维：

Aivia带你轻松驾驭3种数据降维技术

数据降维大揭秘：

UMAP、t-SNE与PacMAP的终极对决

降维示例

左右滑动查看更多

降维将数据从高维空间转换到低维空间，以简化数据解释。

在Aivia中的应用：通过选择不同的测量方法，帮助用户为不同类别实现清晰的决策边界，这些测量方法可以用于不同的聚类技术。

Aivia中的三种降维方法：

UMAP – 比t-SNE更快

PacMAP – 比UMAP更快，并且更好地保留高维数据的局部和全局结构

t-SNE – 保留局部结构

关于参数和不同使用示例的详细技术说明，请参见Aivia Wiki。

UMAP

UMAP（统一流形近似与投影）是一种现代降维技术，主要用于高维数据集的可视化。它的用途与t-SNE相似，但通常速度更快且能够处理更大的数据集。UMAP基于保持数据的拓扑结构的原则，通过利用黎曼几何和代数拓扑来近似数据的底层流形。通过捕捉局部和全局结构，它提供了数据簇和关系的全面视图。

UMAP的两个主要步骤

步骤1

创建一个高维图。这是一个加权图，其中一个点与其最近的邻居相连。

降维UMAP图与图例1

降维UMAP图与图例2

降维UMAP图与图例（参数快速探索）3

左右滑动查看更多

步骤2

创建一个尽可能类似于高维图的低维或二维图，生成UMAP 1和UMAP 2参数。

深入了解UMAP理论

UMAP的核心工作原理与t-SNE非常相似——两者都使用图布局算法在低维空间中排列数据。UMAP构建数据的高维图表示，然后优化一个低维图，使其在结构上尽可能相似。UMAP通过基于每个点的第n个最近邻的距离来局部选择半径，从而确保局部结构与全局结构的平衡。

如何（误）解读UMAP

虽然UMAP相较于t-SNE有许多优势，但它绝不是万能的——解读和理解其结果需要一定的谨慎。需要注意以下几点：

超参数非常重要：选择合适的值取决于数据和你的目标。

UMAP图中的簇大小毫无意义：簇之间的相对大小基本上没有意义。

簇之间的距离可能毫无意义：尽管UMAP在全局位置上更好地保留了簇的位置，但它们之间的距离并不具有意义。

随机噪声不总是看起来随机：特别是在n_neighbors值较低时，可能会观察到虚假的聚类。

你可能需要不止一张图：由于UMAP算法是随机的，不同的运行可能产生不同的结果。

优点

保留局部和全局结构：UMAP捕捉数据中的非线性关系，适用于处理复杂数据集。

速度和可扩展性：UMAP在计算上更高效，适合处理大数据集。

参数调优：UMAP提供了参数调优的灵活性，允许用户在保留局部和全局结构之间进行权衡。

缺点

可解释性：UMAP嵌入可能不如一些其他方法（如PCA）那样具有可解释性。

对超参数的敏感性：UMAP的性能可能对超参数选择敏感，找到合适的参数可能需要进行实验。

在高维空间中的局限性：UMAP在非常高维的空间中可能表现不佳。

计算资源需求：对于极其庞大的数据集,UMAP仍然可能需要大量的计算资源。

图2:对Fashion MNIST数据集应用降维。10类服装物品的28x28图像被编码为784维向量，然后通过UMATt-SNE投影到3维。

t-SNE（t-随机邻域嵌入）

t-SNE（t-随机邻域嵌入）是一种流行的降维方法，用于高维数据的可视化。t-SNE通过保留数据的局部结构来工作，通常会导致簇的清晰分离。与专注于最大化方差的PCA（主成分分析）不同，t-SNE强调在降维空间中保持相似的距离接近，不相似的距离远离。然而，由于其对局部结构的强调，它有时会夸大簇，并不总是能保留数据的全局结构。此方法计算量大，尤其是对于大型数据集。

优点

局部结构的保留

t-SNE在保留数据的局部结构方面表现出色，使其在识别相似数据点的聚类时非常有效。

灵活性

与某些线性方法（如PCA）不同，它可以有效处理非线性数据结构。

可视化

特别适用于将高维数据可视化为二维或三维。

缺点

计算强度

该算法在处理大型数据集时可能会非常耗费计算资源。

随机性

由于算法的随机性，最终的可视化结果在不同运行之间可能会有所不同，这可能导致不一致性。

超参数敏感性

结果可能对困惑度（perplexity）的选择非常敏感。

可解释性

t-SNE图中聚类之间的距离并不总是具有有意义的解释。该算法优先保留局部结构而非全局结构。t-SNE可视化中的数据点密度不一定代表原始高维空间中的密度。

仅适用于可视性

虽然在可视化方面表现出色，但t-SNE嵌入可能并不总是适合作为其他机器学习算法的输入。

PaCMAP（成对控制流形近似）

PaCMAP（成对控制流形近似）是一种降维技术，作为t-SNE和UMAP等方法的替代方案被引入。该方法旨在平衡数据中局部和全局结构的保留，解决其他技术中观察到的一些挑战。它引入了成对吸引和排斥项，以在流形学习过程中控制平衡，并以其速度和处理大数据集的能力而著称，同时能够生成可解释的嵌入。

优点

混合方法

PacMAP结合了局部和全局结构保留的优点，旨在从t-SNE（局部）和PCA（全局）等方法中捕捉两者的最佳特性。PacMAP旨在结合t-SNE（局部结构保留）和UMAP/PCA（全局结构保留）的优势。

局部和全局结构保留的灵活性

该方法可以根据数据的性质和用户的目标，调整以强调局部或全局结构。

减少拥挤问题

该方法旨在缓解t-SNE中常见的“拥挤问题”，这种问题会导致簇被推得过远。

减少随机性

与t-SNE的随机性相比，PacMAP在多次运行中提供了更一致的结果。虽然有参数需要调整，但该方法设计得比t-SNE对参数变化更具鲁棒性。

缺点

复杂性和熟悉度

作为一种混合方法，PacMAP可能对熟悉简单、单一目标方法的用户来说更难理解。一些数据分析社区可能对PacMAP不太熟悉，导致在采用或解释时可能面临挑战。由于其较新，可能没有像t-SNE或PCA等长期存在的方法在各种应用中经过广泛验证。

参数敏感性

尽管设计得对参数变化更具鲁棒性，但结果仍可能因参数选择而异。根据数据的不同，如果调整不当，可能会有过度强调局部或全局结构的风险。

可解释性

与其他降维技术一样，解释降维后的维度仍然可能是不直观的。

Aivia赋能数据驱动的空间洞察

降维工具大解析

快来申请Aivia14试用吧！

更有免费软件Aivia community等你来探索！

Aivia14新产品发布会

参考文献：

1. Becht E, McInnes L, Healy J, Dutertre CA, Kwok IW, Ng LG, Ginhoux F, Newell EW. Dimensionality reduction for visualizing single-cell data using UMAP. Nature biotechnology. 2019 Jan;37(1):38-44.

2. Wang Y, Huang H, Rudin C, Shaposhnik Y. Understanding how dimension reduction tools work: an empirical approach to deciphering t-SNE, UMAP, TriMAP, and PaCMAP for data visualization. The Journal of Machine Learning Research. 2021 Jan 1;22(1):9129-201.

3. Van der Maaten L, Hinton G. Visualizing data using t-SNE. Journal of machine learning research. 2008 Nov 1;9(11).

4. McInnes L, Healy J, Melville J. Umap: Uniform manifold approximation and projection for dimension reduction. arXiv preprint arXiv:1802.03426. 2018 Feb 9.

关于徕卡显微系统

徕卡显微系统的历史最早可追溯到19世纪，作为德国著名的光学制造企业，徕卡显微成像系统拥有170余年显微镜生产历史，逐步发展成为显微成像系统行业的领先的厂商之一。徕卡显微成像系统一贯注重产品研发和最新技术应用，并保证产品质量一直走在显微镜制造行业的前列。

徕卡显微系统始终与科学界保持密切联系，不断推出为客户度身定制的显微解决方案。徕卡显微成像系统主要分为三个业务部门：生命科学与研究显微、工业显微与手术显微部门。徕卡在欧洲、亚洲与北美有7大产品研发中心与6大生产基地，在二十多个国家设有销售及服务分支机构，总部位于德国维兹拉(Wetzlar)。

阅读5次

关注

上一篇邀请函 | 徕卡与您相约第十二届半导体设备与核心部件展示会

下一篇类器官研究利器-MICA