在大型观测数据集中解码非线性信号

原文：towardsdatascience.com/decoding-nonlinear-signals-in-large-observational-datasets/

动机

在最近几十年中，全球气候监测取得了重大进展，导致新的、广泛的观测数据集的创建（Karpatne 等人，2019）。这些数据集对于通过提供对复杂物理过程的详细见解来提高数值天气预报和改进遥感反演至关重要（Alizadeh，2022）。然而，随着数据量和复杂性的增加，在观测中识别模式变得越来越具有挑战性（Zhou 等人，2021）。从这些数据集中提取关键特征可能导致我们对对流和降水等现象的理解取得重要进展，进一步加深我们对全球气候变化的了解。

在本文中，我们将通过降水这一视角来探讨这些复杂的数据模式，降水在变暖的全球温度下已被强调为一个至关重要的研究领域（IPCC，2023）。对于这个项目，我们不会依赖于随机生成或模拟的数据，而是将使用来自全球的真实观测数据，这些数据对您，我的读者，也是公开可访问的，以便您探索和实验。让这篇文章作为研究指南，从高质量数据的重要性开始，并以对所提数据的线性和非线性解释的见解结束。

如果您想跟随一些代码，请查看我们的交互式 Google Colab 笔记本。

这项分析分为三个部分，每个部分都是一篇独立发表的研究文章：

筹备一个稳健的多维数据集
分析线性嵌入
探索非线性特征

1. 微物理数据集

doi.org/10.1029/2024EA003538

当我们谈论理解降水特征时，我们真正在问什么？像雨或雪这样常见的东西能有多复杂？在暴风雨的日子里，很容易向外看并说，“它在下雨”或“它在下雪”。但那些时刻实际上发生了什么？我们能更精确吗？例如，降雨强度有多大？雨滴是大还是小？如果是下雪，雪花是什么样子？它们是蓬松的、树枝状晶体，还是由多个融合的粒子组成的大团块（例如，图 1）？如果温度接近零摄氏度（C），雪花会变得密集和泥泞吗？它们落下的速度有多快？这些差异可能会对粒子到达地面时发生的事情产生重大影响，将这些过程分类到不同的组别是非同小可的（Pettersen 等人，2021 年）。

图 1：由多个融化的雪花组成的聚雪粒子的宏观照片 — 作者摄影

理解这些过程对于更好地监测和减轻洪水、径流、冻雨和极端降水的影响至关重要，这些都是潜在的危险事件，每年与数十亿美元的相关全球损失相关（Sturm 等人，2017 年）。但是，在几分钟内，仅在几平方米的区域内就有数千个粒子落下，我们如何量化这个复杂的过程？这不仅仅是计数粒子，我们还需要捕捉到关键特征，如大小和形状。我们通常不尝试手动完成这项工作（这是一项不可能的任务，自己去试试），而是依赖遥感仪器来完成这项繁重的工作。其中一个这样的工具是美国国家航空航天局（NASA）的降水成像包（PIP），这是一种视频雨滴计，可以提供下落雨滴和雪粒子的详细观测（Pettersen 等人，2020 年），如图 2 所示。

图 2：密歇根州马凯特市外 PIP 仪器设置（相机和灯泡）的照片 — 摄影归功于克莱尔·彼得森

这个相对便宜的仪器由一个 150 瓦的卤素灯泡和一台高速摄像机（每秒捕捉 380 帧）组成，两者相距两米（King 等人，2024 年）。当粒子在灯泡和摄像机之间下落时，它们会阻挡光线，形成可以分析其大小和形状轮廓。通过跟踪多个帧中的同一粒子，PIP 软件还可以确定其下落速度（图 3）。通过关于空气中粒子运动的额外假设，PIP 数据还允许我们推导出分钟尺度的粒子尺寸分布（PSD）、下落速度和有效粒子密度分布（Newman 等人，2009 年）。这些微物理测量，当与附近地面气象观测的表面变量（如温度、相对湿度、压力和风速）相结合时，提供了观测时刻环境的全面快照。

图 3： 2021 年圣诞前夕在康涅狄格州斯托尔斯外录制的带有降雪花的 PIP 视频（1/20 全速）。由于风干扰，粒子向侧面下落 — 视频由拉里·布利文拍摄 [来源：www.youtube.com/@larrybliven832]]

在 10 年的时间跨度内，我们在 10 个不同的站点收集了超过 100 万分钟的粒子微物理观测数据，以及与之相对应的地面气象变量（图 4）。在如此长的时期内从多个区域气候中收集数据对于构建一个可靠的降水事件数据库至关重要。为确保一致性，所有微物理观测都使用相同类型的仪器，具有相同的校准设置和软件版本进行记录。然后我们进行了一个广泛的质量保证（QA）过程，以消除错误数据、纠正时间漂移以及移除任何不合理的异常值。这些经过整理的信息随后被标准化，打包成网络通用数据格式（NetCDF）文件，并通过密歇根大学的 DeepBlue 数据存储库公开提供。

您可以自由下载并探索这个数据集！有关包括的站点、QA 过程以及观测地点之间观察到的微物理差异的更多详细信息，请参阅我们发表在《地球与空间科学》杂志上的相关数据论文。

图 4：a) 测量点的位置；以及 b) 每个站点的观测覆盖情况的甘特图 — 图像由作者提供

为了描述 PSD，我们计算了一对参数（n0 和λ），代表逆指数拟合的截距和斜率（方程 1）。选择这种拟合是因为它在之前的文献中被广泛使用，以准确描述降雪 PSD（Cooper 等人，2017；Wood 和 L’Ecuyer，2021）。然而，在未来的工作中也可以考虑其他拟合（例如，伽马分布）以更好地捕捉大颗粒聚集物（Duffy 等人，2022）。

在图 5 中展示了每个站点的 n0-λ联合二维直方图，展示了在不同区域气候中发生的降水 PSD 的广泛多样性。注意一些站点显示双峰分布（OLY），而其他站点则显示非常狭窄的分布（NSA）。我们还开发了一个 Python API，用于交互和可视化这些数据，称为pipdb。请参阅readthedocs 上的我们的文档，了解如何安装和使用此包来为自己的项目使用。

图 5：每个站点的逆指数截距（n0）和斜率（λ）PSD 参数的二维联合直方图——图片由作者提供

总结来说，我们编制了一个高质量的、多维的降水微物理观测数据集，捕捉了如粒子大小分布、下降速度和有效密度等细节。这些测量值由一系列附近的表面气象变量补充，提供了关于每个分钟发生的特定降水类型的至关重要背景信息（例如，天气是暖和的还是寒冷的？）。我们为这个项目收集的变量完整列表如下表 1 所示。

表 1：DeepBlue 数据集中收集和提供的所有微物理和地表气象变量的摘要——图片由作者提供

现在，我们能用这些数据做什么呢？

2. 使用 PCA 检查线性嵌入

doi.org/10.1175/JAS-D-24-0076.1

收集了我们的数据后，是时候将其投入使用。我们首先通过主成分分析（PCA）探索线性嵌入，遵循 Dolan 等人（2019）的方法。他们的工作集中在揭示降雨滴大小分布（DSD）中的潜在特征，确定了与控制不同地点滴形成的物理过程相关的六个关键变化模式。在此基础上，我们旨在使用第一部分的自定义数据集将分析扩展到降雪事件。在这里，我不会深入探讨 PCA 的机制，因为已经有许多优秀的资源详细介绍了 TDS 的实现。

在应用 PCA 之前，我们将整个数据集分割成离散的 5 分钟间隔。这种分割使我们能够使用足够大的样本量来计算 PSD 参数。然后我们过滤这些间隔，只选择那些有效密度值低于 0.4 g/cm³的间隔（即通常与降雪相关，特征是密度较低的颗粒）。这种过滤结果是一个包含21,083 个五分钟周期的数据集，准备进行分析。对于用于拟合 PCA 的变量，我们从与降雪相关的表 1 中选择一个子集，这些变量来自 PIP。这些变量包括n0、λ、Fs、Rho、Nt 和 Sr（详细信息请见表 1）。在这里，我们只关注来自降雪谱仪的较小观测子集，因为未来的站点可能没有匹配的地面变量，而我们感兴趣的是仅从这个六维数据集中可以提取什么。

在深入分析之前，首先检查数据以确保一切如预期是很重要的。记住古老的 GIGO 格言，“垃圾输入，垃圾输出”。如果我们能减轻不良数据的影响，我们希望这样做。通过检查每个变量的值分布，我们确认它们都在预期的范围内。此外，我们审查了输入变量的协方差矩阵，以获得它们联合行为的初步见解（图 6）。例如，像 n0 和 Nt 这样的变量，它们都与存在的颗粒数量紧密相关，表现出预期的高相关性，而像有效密度（Rho）和 Nt 这样的变量则显示出较少的关系。在将输入数据缩放和归一化后，我们通过将其输入到scikit-learn 的 PCA 实现来继续操作。

图 6： PCA 输入变量的协方差矩阵热图——图片由作者提供

将 PCA 应用于输入数据，得到三个经验正交函数（EOFs），它们共同解释了数据集中 95%的变异性（图 7）。第一个 EOF 是最显著的，它解释了数据集大约 55%的方差，如图 6.a 中其广泛的分布所示。当检查每个输入变量的 EOF 值的标准化异常时，EOF1 显示出与所有输入变量之间强烈的负相关关系。第二个 EOF 解释了大约 20%的方差，分布略窄（图 6.b），并且与 Fallspeed 和 Rho（密度）输入变量关联最紧密。最后，EOF3 解释了大约 15%的方差，主要与λ和降雪速率变量相关（图 6.c）。

图 7： 2D 联合直方图显示归一化计数，a) EOF1 与 EOF2；b) EOF2 与 EOF3；c) EOF3 与 EOF1；以及 d)每个归一化输入特征的 EOF 值（请注意，每个异常的符号是任意的）——图片由作者提供

单独来看，这些 EOF 在物理意义上的解释具有挑战性。它们捕捉到了哪些潜在特征？这些嵌入在物理上是否有意义？一种简化解释的方法是关注每个分布中最极端的值，因为这些值与每个 EOF 关联最紧密。虽然这种手动聚类方法使得大部分分布接近原点仍然模糊，但它允许我们将数据分离成可以更仔细分析的独立组。通过应用σ > 2 的阈值（在图 6.a-c 中以细白虚线表示），我们可以将这个点的 3D 分布划分为六个具有相等采样体积的独立组。由于在二维空间中可视化这种分离特别具有挑战性，我们提供了一个交互式数据查看器（图 8），使用Plotly创建，以使这种区分更清晰。请随意点击下面的图片以自行探索数据。

链接

图 8：PCA EOF 嵌入的交互式 3D plotly 散点图。点根据各自的手动聚类组着色（模糊的用灰色表示）。点击以自行交互数据——图片由作者提供

在选择了最极端的 EOF 聚类后，我们现在可以在物理变量空间中绘制这些聚类，以开始解释它们。这在图 9 的不同变量空间中得到了演示：n0-λ（面板 a）、Fs-Rho（面板 b）、λ-Dm（面板 c）和 Sr-Dm（面板 d）。从图 9.a 中的红色和蓝色聚类开始（代表正负 EOF1 值），我们在 n0-λ空间中看到明显的分离。红色聚类，以高 PSD 截距和斜率为特征，表明高强度分组，暗示有许多小粒子，而蓝色聚类则表现出相反的行为。这表明可能存在强度嵌入。

在面板 b 中，紫色和浅蓝色聚类（对应正负 EOF2 值）之间有明显的分离。紫色聚类，与高速和高密度相关联，与浅蓝色聚类形成对比，后者表现出相反的特征。这种模式可能代表粒子温度/湿度嵌入，描述了雪在下落时的“粘性”。较暖、较密的粒子（如部分融化的或冻结的粒子）往往下落得更快，就像湿雪球比干雪花下落得更快一样。

最后，在面板 c 和 d 中，黄色和洋红色聚类根据 PSD 斜率和质量加权平均直径进行分离。虽然不太明显，但这表明可能与粒子大小和潜在的降雪模式有关，例如复杂浅层系统与深层系统之间的差异。

图 9：每个 PC 组的物理变量空间比较，包括：a) n0-λ，b) Fs-Rho，c) λ-Dm 和 d) Sr-Dm，使用平滑核密度近似突出显示每个 PC 组，彩色等高线表示——图片由作者提供

增强我们对这些归因的信心的另一种方法是将这些组与独立观察结果进行比较。我们可以通过交叉引用来自 PIP 的基于 PCA 的降雪分类与附近地表雷达观测（即，微雨雷达）和再分析（即，ERA5）估计来评估物理一致性。这也是我们建议不总是使用所有可用数据在降维中的原因之一，因为它限制了后来评估嵌入鲁棒性的能力。为了验证我们的方法，我们检查了密歇根州马凯特（MQT）的一系列案例研究，以了解这些分类的匹配程度。例如，在图 10 中，我们观察到从强降雪（红色）到部分融化的混合相雪花（雨夹雪）的转变，当温度短暂上升到零度以上（面板 h）时，然后随着当天晚些时候温度下降到零度以下，又回到强降雪。这也与我们观察到的反射率（面板 a）的变化一致，我们可以在面板 i 的 n0-λ图中看到这种转变。

图 10：2018-12-02 在 MQT 的辅助观测下的 PC 组 2 和 4。单日 PC 组在顶部图面板中以 5 分钟的时间步长突出显示，与同位素的 a) MRR 反射率（Ze）观测；b) ERA5 大气温度（T）估计（零度等温线用黑色虚线突出显示）；c) MRR 多普勒速度（DV）观测；d) ERA5 大气相对湿度（RH）估计；e) MRR 光谱宽度（SW）观测；f) ERA5 大气垂直速度（ω）估计；g) PCA 的 EOF1，EOF2 和 EOF3 值；h) 2 米空气温度的表面气象观测用黑色表示，湿度用灰色表示，压力（P）用棕色表示；i)每个 PIP 观测在 n0-λ空间中以灰色表示的模糊点，红色表示 PC 组 2，紫色表示 PC 组 4（黑色圆圈代表所有站点上的其他点）。虚线黑色线表示树枝状生长区的位置——图片由作者提供

在我们的 PCA 分析和与同位素观测的一致性基础上，我们还创建了图 11，该图总结了通过 PCA 识别出的主要线性嵌入在不同物理变量空间中的分布。这些分类提供了关键的微物理洞察，可以增强先验数据集，最终提高最先进模型和降雪检索的准确性。

图 11：在 a) n0-λ空间和 b) Fs-Rho 空间中由 PCA 导出的降雪属性概念模型。黑色点代表所有站点所有 PIP 观测值，彩色轮廓描绘了从平滑核密度近似中产生的每个 PC 组。每个推断出的物理属性都在每个轮廓上用白色标注——图片由作者提供

然而，由于 PCA 仅限于线性嵌入，这引发了一个重要问题：在这个数据集中是否存在我们尚未探索的非线性模式？ 此外，如果我们将这种分析扩展到雪之外，包括其他类型的降水，可能会出现哪些新的见解？

让我们在下一节中解决这些问题！

3. 使用 UMAP 进行非线性降维

doi.org/10.1126/sciadv.adu0162

为了检查更复杂、非线性的嵌入，我们需要考虑一种不同类型的无监督学习，这种学习放松了 PCA 等技术线性的假设。这使我们来到了流形学习这一概念。流形学习的理念是，高维数据通常位于原始数据空间中一个较低维度的、弯曲的流形上（McInnes et al., 2020）。通过映射这个流形，我们可以揭示线性方法可能错过的潜在结构和关系。像 t-SNE、UMAP、VAEs 或 Isomap 这样的技术可以揭示这些复杂的模式，提供对数据集潜在特征的更细致的理解。作为即将到来的内容的提示，参见图 12。如前所述，我不会深入探讨这些方法的实现细节，因为这已经在 TDS 上多次介绍过这里。

图 12：我们的降水数据集的 3D UMAP 嵌入图——图片由作者提供

此外，我们这次希望使用我们整个数据集，包括降尘仪观测数据和同位表面气象变量，以查看额外的维度是否为区分高度复杂的物理过程提供了有用的背景。例如，如果我们知道观测时的温度和湿度，我们能否检测到不同类型的混合相降水？因此，与之前限制输入仅为仅 PIP 数据和仅降雪的章节不同，我们现在包括整个数据集的 12 个维度。这也使我们的总样本量减少到 128,233 个 5 分钟周期，分布在 7 个地点，因为并非所有地点都有运行的表面气象站来获取数据。正如这些类型问题通常的情况一样，当我们增加更多维度时，我们会遇到可怕的维度诅咒。

随着特征空间维度的增加，配置的数量可以呈指数增长，因此观察到的配置数量减少——理查德·贝尔曼

在输入数量和特征稀疏性之间的这种权衡是我们未来必须牢记的挑战。幸运的是，我们只有 12 个维度，这看起来可能很多，但与自然科学中许多其他可能拥有数千个维度的项目相比，实际上非常小（Auton 等人，2015 年）。

如前所述，我们探索了多种非线性模型来完成项目的这一阶段（见表 2）。在我们进行的任何机器学习（ML）项目中，我们更喜欢从更简单、更可解释的方法开始，然后逐渐过渡到更复杂的技术，因为更简单的方法通常更有效且易于理解。

在考虑这种策略的同时，我们首先基于第二部分的结果进行工作，再次使用 PCA 作为更大数据集（雨和雪粒子）的基线。然后，我们将 PCA 与非线性技术如 Isomap、VAEs、t-SNE 和 UMAP 进行比较。在进行了系列敏感性分析后，我们发现 UMAP 在以更计算效率的方式产生清晰的嵌入方面优于其他方法，因此成为我们讨论的重点。此外，由于 UMAP 在流形上对数据的全局分离得到改善，我们可以超越手动聚类，采用更客观的方法，如具有噪声的层次密度空间聚类（HDBSCAN），将相似案例分组在一起（McInnes 等人，2017 年）。

表 2: 项目非线性比较部分所考察的方法概述——图片由作者提供

将 UMAP 应用于这个 12 维数据集，识别出了三个主要的潜在嵌入（LE）。我们尝试了各种超参数，包括嵌入的数量，发现与 PCA 类似，前两个嵌入是最重要的。第三个嵌入也显示出某些组之间的分离，但在此第三级以上，额外的嵌入提供的分离很少，因此被排除在分析之外（尽管这些可能在未来的工作中更值得研究）。下面图 13 中展示了前两个 LE，以及来自密歇根州马凯特的案例研究示例，展示了 24 小时内的离散数据点。

图 13：由 UMAP+HDBSCAN 得到的降水过程簇概述。a) 所有站点所有观测值的 UMAP 坐标（灰色点），叠加了用彩色 HDBSCAN 导出的密度簇（质心以白色圆圈表示），并标注了属性物理降水过程和关键总结特征。b) 显示 MQT，MI 一天内粒子习性演化的示例日。c) b) 事件的相关观测数据——图片由作者提供

立即，我们注意到与之前使用 PCA 进行以降雪为重点的研究相比，有几个关键差异。随着降雨和混合相数据的加入，第一和第二个经验正交函数（EOF1 和 EOF2）现在已经交换了位置。主要嵌入现在编码了关于粒子相的信息，而不是强度。强度转移到第二个潜在嵌入（LE2），仍然很重要，但现在是次要的。第三个 LE 似乎仍然与粒子大小和形状有关，尤其是在流形中的降雪部分。

将 HDBSCAN 应用于由 UMAP 生成的流形组，产生了九个不同的簇，以及一个模糊的簇（图 13.a）。与 PCA 相比，簇之间的分离更加清晰，这些组似乎代表了从降雪到混合相再到不同强度水平的降雨的不同的物理降水过程。有趣的是，模糊点和图中节点之间的连接形成了粒子习性演化的不同路径。这一发现特别引人入胜，因为它概述了清晰的粒子进化路径，展示了在适当的气象条件下，雨滴如何转化为冰晶。

该现象的一个真实世界示例如图 13.b 所示，于 2023 年 2 月 15 日在 Marquette 观察到。每个彩色环代表一天中个体的（5 分钟）数据点，箭头指示时间的方向。在图 13.c 中，我们将辅助雷达观测与地表温度叠加。直到大约 12:00 UTC，在约 1 公里的地方可以看到明显的亮带，这表明融化层温度足够高，使得雪融化成雨。这一时期被我们的 UMAP+HDBSCAN（UH）聚类方法正确分类为降雨。然后，大约在 17:00 UTC，温度迅速下降至冰点以下，导致将粒子分类为混合相，最终为降雪。这些类型的测试对于确保你的流形形状在物理上是有意义的至关重要。

如果你想要自己探索这个流形，检查不同的站点，看看各种变量如何映射到嵌入中，请查看我们的交互式数据分析工具，或点击下面的图 14。

(http://frasertheking.com/interactive/)

图 14：UMAP LE 嵌入的交互式 3D plotly 散点图。点根据各自的 HDBSCAN 簇组着色（模糊的用黑色表示）。点击以自行交互数据——图片由作者提供

当你探索上述工具时，你会注意到将各种输入特征映射到流形嵌入中会产生平滑的梯度。这些梯度表明数据的一般全局结构可能以有意义的方式被捕捉，为嵌入编码的内容提供了宝贵的见解。

使用 UMAP 与 PCA（PCA 应用于与 UMAP 相同的精确数据集）的点分离进行比较，UMAP 显示出显著更好的分离，尤其是在降水相方面。虽然 PCA 可以大致区分“液体”和“固体”粒子，但它难以处理更复杂的混合相粒子。这种限制在图 15.d-e 所示的分布中很明显。PCA 通常在原点附近遭受方差过度拥挤，导致我们能够识别的簇的数量与模糊超簇的大小之间产生权衡。尽管 HDBSCAN 可以像 UMAP 一样应用于 PCA，但它只生成两个簇（雨和雪），这本身并不特别有用，并且可以通过简单的线性阈值实现。相比之下，UMAP 提供了更好的分离，导致模糊点减少 37%，与 PCA（0.51）相比，簇的轮廓分数提高了 0.14。

图 15： 使用相同数据集训练的 PCA 与 UMAP 的比较，分别显示了 a)和 b)中的 PCA 和 UMAP 组；c)显示了每种技术之间模糊点的总数；d)和 e)显示了 LE1/EOF1 和 LE2/EOF2 的 1D KDEs——图片由作者提供

正如我们之前使用 PCA 所做的那样，在使用 UMAP 进行一系列案例研究比较时，我们可以加强我们对物理聚类归属的理解。通过将这些与同位 MRR 观测结果进行比较，我们可以评估报告在 PIP 上方的对流层中的条件是否与 UH 聚类产生的归属一致，以及这些与 PCA 聚类相比如何。在下面的图 16 中，我们检查了 Marquette 的一些这些案例。

图 16： UMAP 和 PCA 分类与 MQT 三天同位表面雷达数据的案例研究比较——图片由作者提供

在第一列(a)中，我们展示了一个长期混合相事件的例子，强调 LE1，我们知道 MQT 从记录的天气报告中发生了这一事件。在上面的面板中，PCA 和 UMAP 都确定了直到 19:00 UTC 的时期为雨。然而，在此之后，PCA 分组变得稀疏且很大程度上是模糊的，而 UMAP 成功地将 19:00 UTC 之后的时期映射为混合相，区分了湿雪（绿色）和更冷的、湿滑的冰粒（紫色）。

在面板(b)中，我们突出显示了一个关注强度变化（LE2）的案例，其中条件从高强度混合相转变为低强度混合相，然后随着温度的降低又回到高强度降雪。同样，与 PCA 的稀疏结果相比，UMAP 提供了更详细和一致的分类。

最后，在面板(c)中，我们探索了一个涉及浅层系统直到 15:00 UTC 的 LE3 案例，随后是一个深对流系统在该地点上方移动，导致雪粒的大小、形状复杂性和强度增加。在这里，UMAP 也展示了事件更全面的映射。请注意，这些只是一些精选的案例研究，我们建议您查看我们的完整论文以进行多年比较。

总体而言，我们发现使用 UMAP 生成的非线性 3D 流形为降水相、强度以及粒子大小/形状提供了一个平滑且准确的近似（图 17）。当与基于密度的分层聚类相结合时，结果组是独特的，并且与独立观测结果物理上是一致的。虽然 PCA 能够捕捉到一般的嵌入结构（EOFs 1-3 大致相当于 LEs 1-3），但它难以表示数据的全局结构，因为许多这些过程本质上是非线性的。

图 17： 我们降水数据集最终 UMAP 流形的三维可视化——图片由作者提供

那么，这一切意味着什么呢？

结论

你已经到达了终点！

我意识到这已经是一篇很长的帖子，所以我会保持这一部分简短。总之，我们开发了一个高质量的多年多站点降水观测数据集，并使用这些数据应用了线性和非线性降维技术，旨在更深入地了解数据本身的结构！在所有方法中，与粒子相、降水强度以及粒子大小/形状相关的嵌入是最占主导地位的。然而，只有非线性技术能够捕捉数据的复杂全局结构，揭示了与独立观测结果吻合良好的降水组。

我们相信这些组（以及粒子过渡路径）可以用来改进当前的卫星降水反演以及数值模型微物理参数化。本着这个想法，我们构建了一个操作参数矩阵（查找空间如图 18 所示），它根据温度（T）和粒子计数（Nt）为每个组生成一个平滑的条件概率向量。请参阅相关论文以获取访问/API 细节。

图 18: UMAP+HDBSCAN 查找表直方图 在二维空间中映射 — 图像由作者提供

非线性降维技术如 UMAP 仍然相对较新，尚未广泛应用于地学领域出现的大数据集。需要注意的是，这些技术并不完美，并且根据你的问题背景存在权衡，所以请记住这一点。然而，我们的发现，首先基于 PCA，表明这些技术可以非常有效，强调了精心策划和全面观测数据库的价值，我们希望在未来几年看到更多这样的数据库。

再次感谢阅读，请在评论中告诉我们您是如何从您的大型观测数据集中学习更多知识的！

数据和代码

用于 PCA 和 UMAP 的输入为 PIP 和地表气象观测数据，可在密歇根大学 DeepBlue 数据存储库中公开下载（doi.org/10.7302/37yx-9q53）。该数据集以一系列文件夹的形式提供，每个站点和年份包含 NetCDF 文件，并遵循标准化的 CF 元数据命名约定。更多详细信息，请参阅我们的数据论文（doi.org/10.1029/2024EA003538）。ERA5 数据可从Copernicus 气候数据存储库下载。

PIP 数据预处理代码可在我们的公共 GitHub 仓库中找到（github.com/frasertheking/pip_processing），我们提供了一个名为 pipdb 的自定义 API，用于在 Python 中与粒子微物理数据交互（github.com/frasertheking/pipdb）。雪降 PCA 项目代码可在 Github 上找到（github.com/frasertheking/snowfall_pca）。此外，用于拟合 DR 方法、聚类案例、分析输入和生成图表的代码也可在另一个单独的公共 GitHub 仓库中下载（github.com/frasertheking/umap）。

参考文献

Alizadeh, O. (2022). 气候建模的进展与挑战。气候变迁，170(1)，18。doi.org/10.1007/s10584-021-03298-4

Auton, A., Abecasis, G. R., Altshuler, D. M., Durbin, R. M., Abecasis, G. R., Bentley, D. R., Chakravarti, A., Clark, A. G., Donnelly, P., Eichler, E. E., Flicek, P., Gabriel, S. B., Gibbs, R. A., Green, E. D., Hurles, M. E., Knoppers, B. M., Korbel, J. O., Lander, E. S., Lee, C., … 国家眼科研究所，N. (2015)。人类遗传变异的全球参考。自然，526(7571)，68-74。doi.org/10.1038/nature15393

Cooper, S. J., Wood, N. B., & L’Ecuyer, T. S. (2017). 从同时发生的雷达、雪花和下降速度观测中估计降雪率的变分技术。大气测量技术，10(7)，2557-2571。doi.org/10.5194/amt-10-2557-2017

Dolan, B., Fuchs, B., Rutledge, S. A., Barnes, E. A., & Thompson, E. J. (2018). 全球降水粒子大小分布的主要模式。大气科学杂志，75(5)，1453-1476。doi.org/10.1175/JAS-D-17-0242.1

Duffy, G., & Posselt, D. J. (2022)。从五个现场实验中抽取的雪花聚集体降水粒子大小分布的伽马参数化。应用气象学和气候学杂志，61(8)，1077-1085。doi.org/10.1175/JAMC-D-21-0131.1

IPCC, 2023: 气候变化 2023：综合报告。政府间气候变化专门委员会第六次评估报告工作组 I、II 和 III 的贡献[核心编写团队 H. Lee 和 J. Romero (编者)]。IPCC，日内瓦，瑞士，第 35-115 页，doi: 10.59327/IPCC/AR6-9789291691647。

Karpatne, A., Ebert-Uphoff, I., Ravela, S., Babaie, H. A., & Kumar, V. (2019). 地球科学中的机器学习：挑战与机遇。知识数据工程 Transactions，31(8)，1544-1554。doi.org/10.1109/TKDE.2018.2861006

King, F., Pettersen, C., Bliven, L. F., Cerrai, D., Chibisov, A., Cooper, S. J., L’Ecuyer, T., Kulie, M. S., Leskinen, M., Mateling, M., McMurdie, L., Moisseev, D., Nesbitt, S. W., Petersen, W. A., Rodriguez, P., Schirtzinger, C., Stuefer, M., von Lerber, A., Wingo, M. T.，… Wood, N. (2024). 来自降水成像包的全面北半球粒子微物理数据集。地球和空间科学，11(5)，e2024EA003538. doi.org/10.1029/2024EA003538

McInnes, L., Healy, J., & Astels, S. (2017). hdbscan: 层次密度聚类。开源软件杂志，2(11)，205. doi.org/10.21105/joss.00205

McInnes, L., Healy, J., & Melville, J. (2020). UMAP：统一流形近似和投影用于降维（arXiv:1802.03426）。arXiv。 doi.org/10.48550/arXiv.1802.03426

Newman, A. J., Kucera, P. A., & Bliven, L. F. (2009). 介绍雪花视频成像器（SVI）。大气和海洋技术杂志，26(2)，167-179. doi.org/10.1175/2008JTECHA1148.1

Pettersen, C., Bliven, L. F., von Lerber, A., Wood, N. B., Kulie, M. S., Mateling, M. E., Moisseev, D. N., Munchak, S. J., Petersen, W. A., & Wolff, D. B. (2020). 降水成像包：评估雪的微观和宏观特性。大气，11(8)，文章 8. doi.org/10.3390/atmos11080785

Pettersen, C., Bliven, L. F., Kulie, M. S., Wood, N. B., Shates, J. A., Anderson, J., Mateling, M. E., Petersen, W. A., von Lerber, A., & Wolff, D. B. (2021). 降水成像包：相分离能力。遥感，13(11)，文章 11. doi.org/10.3390/rs13112183

Sturm, M., Goldstein, M. A., & Parr, C. (2017). 雪中的水和生命：一个价值万亿美元的科学研究问题。水资源研究，53(5)，3534-3544. doi.org/10.1002/2017WR020840

Wood, N. B., & L’Ecuyer, T. S. (2021). 毫米波雷达反照率揭示了关于降雪的信息：以信息为中心的分析。大气测量技术，14(2)，869-888. doi.org/10.5194/amt-14-869-2021

Zhou, C., Wang, H., Wang, C., Hou, Z., Zheng, Z., Shen, S., Cheng, Q., Feng, Z., Wang, X., Lv, H., Fan, J., Hu, X., Hou, M., & Zhu, Y. (2021). 大数据时代地球科学知识图谱。科学通报：地球科学，64(7)，1105-1114. doi.org/10.1007/s11430-020-9750-4

posted @ 2026-03-28 10:22 布客飞龙V 阅读(1) 评论(0) 收藏举报

刷新页面返回顶部

龙哥盟

在大型观测数据集中解码非线性信号

在大型观测数据集中解码非线性信号

动机

1. 微物理数据集

2. 使用 PCA 检查线性嵌入

3. 使用 UMAP 进行非线性降维

结论

数据和代码

参考文献

公告