这不仅是分析,更是数据转换器!
21915 为本文评分:
暂无评分
这不仅是分析,更是数据转换器!
如何让PCA、MNF和ICA为你所用
Anonym 星期四,2014年5月22日
在地理空间工作中,我们致力于解答关于地球上事物位置及其运作方式的问题。具体的尺度与应用各异,而我们能进行的测量或获取的数据量是有限的。因此,我们的许多工作便集中于尽可能多地获取信息,并尝试让所有这些不同的数据协同工作,以期最终得到一个能清晰回答我们问题的结果。数据变换正是一套极佳的工具集,能帮助我们从海量数据中提取价值。
关于工具和分析的信息常常面向错误的受众,假定用户希望成为专家并从基本原理推导算法。分析的基础和数学推导过程对任何需要了解的人开放和可用,这固然重要。然而,更多时候,我们需要的是一份关于如何合理使用工具的清晰说明。享用晚餐时的一杯葡萄酒,你并不需要懂得如何酿造。
关于数据变换已有大量详细信息;本文旨在总结其重要部分及不同数据变换间的差异。
主成分分析(PCA) 自20世纪初便已存在。PCA假设我们拥有对所关注点的一些测量值。在图像分析中,这意味着图像中每个像素都拥有一定数量的光谱波段亮度值。在缺乏先验答案的情况下,最稳妥的猜测是“平均值”,PCA也基于此假设。其直方图应呈现经典的钟形/高斯/正态分布曲线。以下是阿拉巴马州沿海地区部分Landsat 5多光谱波段的直方图:

更进一步,将每个像素在两个波段中的亮度值绘制成散点图:

PCA观察这个散点图并思考:“当我们用一个数值就能获取大部分信息时,为何还需要两个波段来描述每个像素?”因此,一条新的坐标轴被绘制出来,它穿过平均值并沿着数据点云最长的方向延伸,然后所有像素都根据到该新轴的最短距离获得一个分数。这就是第一主成分。第二条轴垂直于第一条轴,也穿过平均值,用于捕获剩余信息。大致如下图所示:

你最终得到的主成分数量总是与你起始的波段数量相同。虽然我们无法在4维(或更多维)空间中绘图,但创建这些坐标轴的原理是一样的。以Landsat TM数据为例,我们会得到6个主成分。
投入这些努力有诸多充分的理由。首先,因为PCA尽可能多地将独立信息打包到各成分中,前几个成分包含的信息量最大。这意味着你可以用前三个PCA波段制作RGB彩色合成显示,得到的图像包含了你能在屏幕上一次性呈现的最大信息量。以我们的阿拉巴马州Landsat场景为例,我们从一个信息丰富但可能难以解读的场景:

转换为一个最大化信息量并增强图像内容视觉分离度的PCA合成图像。这是我们将前三个PCA波段放入RGB合成后得到的结果:

图像内容显示得更加清晰,因为PCA正将尽可能多的信号打包到那三个波段中。你可以在运行PCA时生成的特征值图中看到这一点:

简而言之,该图中,高特征值(y轴)意味着PCA波段(x轴)包含大量信息。这里我们看到,大约第三个成分之后,信息量就所剩无几了。这引出了PCA的第二个好处:“降低数据维度”。我们可以仅用3个精心构建的PCA波段就从6个波段的图像中获取几乎所有信息。这减少了数据处理量,特别是对于高光谱数据,能将你从数百个波段降至数十个波段。
由于大部分信息集中在头3个波段,PCA的第三个好处显现出来:去噪。那些靠后的波段主要是噪声或与噪声难以区分的微弱信号。请注意,我并没有说它们完全是噪声。它们值得一看。在我们的Landsat场景的第5和第6个PCA波段中,存在一些有趣的传感器伪影。其中包含一些信号,但在其他看起来像噪声的图像中出现了网格图案,这是传感器和处理的伪影:

PCA帮助我们尽可能多地从数据中获取信息,并使其尽可能易于查看。在进行更高级的工作时,我们可以将其用于噪声过滤或诊断传感器问题。但我们可以在PCA的基础上进一步构建,这就引出了我们的第二种数据变换。
MNF(在各种出版物中称为最小噪声分离或最大噪声分离)是连续两次PCA变换。其中一次变换基于数据统计,就像PCA一样,但另一次变换基于噪声统计。MNF运用了同样的思想,即绘制新的成分轴以最大化捕获信号的时机和方式,但在操作时兼顾了噪声信息,从而能更好地将信号推送到前几个成分,将噪声推送到后面的成分。虽然工作量更大,但出于与PCA同样的理由,这是值得的。以下是前三个MNF成分的RGB合成图像:

MNF通过进行两次变换并纳入噪声信息,改进了PCA。而独立成分分析(ICA) 则通过审视我们关于数据正态分布的假设(这要回溯到我们的第一张图)来进一步改进。我们可以看到那些曲线并非理想的正态分布。完美的钟形曲线通常不会出现。ICA考虑到了数据的这种“杂乱性”或“聚集性”。它在绘制新坐标轴时,考察了比方差更高级的统计数据。其结果对于过滤信号和噪声非常有效。同一场景,前三个ICA成分:

捕获并包含一些更微妙的信号可能会使图像比MNF结果中鲜明的颜色更难解释,但这通常对进一步处理是一种改进。
下次当你试图从图像中提取信息时,不妨尝试一下数据变换。你可以在屏幕上获得更多信息,清理噪声,减少数据量,并在后续处理中最大化结果。最重要的是,使用数据变换并不需要你是数学和统计学的专家!