空间统计
空间统计的零假设------------大多数统计检验在开始时都首先确定一个零假设。空间统计的零假设是完全空间随机性 (CSR),它或者是要素本身的完全空间随机性,或者是与这些要素关联的值的完全空间随机性。
显著性检验---------模式分析工具所返回的z 得分和p值可以让您判断出是否可以拒绝零假设。
通常,您将运行其中一种模式分析工具,同时希望 z 得分和 p 值会指明可以 拒绝零假设,因为此工具将表明:您的要素(或与要素关联的值)会表现出具有统计显著性的聚类或分散,而不是随机模式。只要在地貌中(或在空间数据中)发现聚类这样的空间结构,就证明某些基础空间过程在发挥作用,而这通常是地理学者或 GIS 分析人员最关注的方面。p 值表示概率。
对于模式分析工具来说,它是所观测到的空间模式由某一随机过程创建的概率。当 p 很小时,意味着所观测到的空间模式不太可能产生于随机过程(小概率),因此您可以拒绝零假设。
您可能会问这样的问题:要小到什么程度才算足够小?这是一个非常好的问题。请参见下面的表和论述。Z 得分只不过是标准差的倍数。例如,如果工具返回的 z 得分为 +2.5,我们就会说,结果是 2.5 倍标准差。如下所示,z 得分和 p 值都与标准正态分布相关联。在正态分布的尾部出现非常高或非常低的 z 得分(负值),这些得分与非常小的 p 值相关。当您运行要素模式分析工具并由该工具得到很小的 p 值以及非常高或非常低的 z 得分时,就表明观测到的空间模式不太可能反映出零假设 (CSR) 所表示的理论上的随机模式。要拒绝零假设,必须对所愿承受的做出错误选择(错误地拒绝零假设)的风险程度做出主观判断。因此,请先选择置信度,然后再执行空间统计。典型的置信度为 90%、95% 或 99%。在这种情况下,99% 的置信度是最保守的,这表示您不愿意拒绝零假设,除非该模式是由随机过程创建的概率确实非常小(低于 1% 的概率)。下表显示了不同置信度下的临界 p 值和临界 z 得分。
预期值与空间关系建模-------------这里的一个关键概念是,正态分布中间位置的值(例如,类似 0.19 或 -1.2 的 z 得分)代表了预期的结果。在一般统计中,预测值是所有样本的均值,在空间统计中,预测值是所有样本的加权平均值。
某特定空间位置的观测值在以对该空间位置进行预测的预期结果为中间值,其它抽样样本值在两旁的的正态分布中的位置,就是以上显著性检验的内容。在这里空间统计与常规统计是一样的。其实预期结果是抽样样本值的均值,不过,它是加权平均。那么抽样样本如何决定,如何加权,那么就是空间建模的内容。(如何计算预测值,为何要加权,是否和常规统计一样,其实还没有想明白,先这样写)
样本如何选择?-----------固定距离,带有阈值的反距离权重?或者邻接?
样本的权重值由它对预测值的贡献决定。这个贡献是样本之间的“距离”
距离的选择(用什么指标表示距离)-------这个距离,即可以是以长度,比如米为单位的距离,也可以是时间,可以是亲密程度,喜好程度等等距离。这个距离的概念和成本距离权重中的成本有类似之处。
-------------------------------------------------------------------------------------------
尺度--------------格局-------------过程
尺度-----分析的尺度,多大程度上聚集数据。如常规统计中,街道人口数,乡镇人口数,县城人口数,省域人口数。不同的尺度下,分析人口的数据特征,探索存在的格局。在不同尺度下,影响格局的过程是不同的,比如决定街道人口数格局的过程,影响省域人口数的过程是不同的。
在每个尺度下,尺度内的过程无法探索,因为数据被中和了。
-------------------------
--------------------------------------------------------------------------------------------
空间自相关计算(Global Moran's I )

Global Moran's I 统计量所依据的数学公式如上所示。该工具计算所评估属性的均值和方差。然后,将每个要素值减去均值,从而得到与均值的偏差。将所有相邻要素(例如位于指定距离范围内(这个指定范围是不是尺度的表现呢?--my注)的要素)的偏差值相乘,从而得到叉积。请注意,Global Moran's I 统计量的分子是这些叉积的和。假定要素 A 和 B 是相邻要素,并且所有要素值的均值为 10。请注意可能的叉积结果的范围:
要素值
偏差
叉积
A=50
B=40
40
30
1200
A=8
B=6
-2
-4
8
A=20
B=2
10
-8
-80
如果相邻要素的值都大于或者都小于均值,则叉积将为正。如果一个要素值小于均值而另一个要素值大于均值,则叉积将为负。在所有情况下,与均值的偏差越大,叉积结果就越大。如果数据集中的值倾向于在空间上发生聚类(高值聚集在其他高值附近;低值聚集在其他低值附近),则 Moran's I 指数将为正。如果高值排斥其他高值,而倾向于靠近低值,则该指数将为负。如果正叉积值与负叉积值相抵消,则指数将接近于零。由于分子是通过方差进行归一化,因此该指数的值将落在 -1.0 到 +1.0 的区间内(有关例外情况,请参阅下面的常见问题部分)。
------------------------
空间自相关 (Global Moran's I) 工具计算了指数值后,将计算期望指数值。然后,将期望指数值与观察指数值进行比较。在给定数据集中的要素个数和全部数据值的方差的情况下,该工具将计算 z 得分和 p 值,用来指示此差异是否具有统计学上的显著性。指数值不能直接进行解释,只能在零假设的情况下进行解释。
解释
空间自相关 (Global Moran's I) 工具是一种推论统计,这意味着分析结果始终在零假设的情况下进行解释。对于 Global Moran's I 统计量,零假设声明,所分析的属性在研究区域内的要素之间是随机分布的;换句话说,用于促进观察值模式的空间过程是随机的。假设您可以为所分析的属性选择值,然后使这些值随意落到要素上,从而让每个值落在可能的位置。此过程(选择并随意放置值)便是随机空间过程的示例。
另外随机零假设,比如要素属性值可以是潘晓婷打的台球,每个球上面都有要素属性数值,把球随意抛向地面,然后计算moran's I 指数,随机抛N次,可以得到N个moran's I指数,这样就可以得到一个正态分布曲线,有莫尔斯I均值,方差,检验样本莫尔斯I是否属于这个随机正态总体,就可以知道样本的分布是否是随机的。--------------------------关于零假设,可以跳到零假设部分。
加权的意义体现在Global Moran's I计算公式中,范围的意义体现在尺度中。
------------------------------
问题: 热点分析 (Getis-Ord Gi*) 工具的输出结果用于指示统计学上显著的热点。为什么空间自相关 (Global Moran's I) 工具的输出结果不具有统计学上的显著性?
答案:空间自相关 (Global Moran's I) 工具等全局统计量用于对数据的总体模式和趋势进行评估。如果空间模式在研究区域内保持一致,这些全局统计量最有效。局部统计量(如热点分析 (Getis-Ord Gi*) 工具)用于在相邻要素的环境下对每个要素进行评估,然后将局部情况与全局情况进行比较。举一个例子。您在计算一组值的均值或平均值时,还要计算某个全局统计量。如果所有值都接近 20,则均值也将接近 20,并且该结果可以非常好地表示/概括整个数据集。但如果一半值接近 1,而另一半值接近 100,则均值将接近 50。可能不存在任何接近 50 的数据值,因此该均值并不能很好地表示/概括整个数据集。创建数据值的直方图时,您将看到双峰分布。类似地,当所估量的空间过程在研究区域内保持一致时,使用全局空间统计量(包括空间自相关 (Global Moran's I) 工具)将最有效。这样,所得到的结果将能很好地表示/概括总体空间模式。有关详细信息,请参阅下面引用的 Getis and Ord (1992) 以及它们所提供的 SIDS 分析。
问题:高低聚类 (Getis-Ord General G) 与空间自相关 (Global Moran's I) 生成的结果为何不同?
答案:因为这些工具用于估量不同的空间模式。单击此处了解详细信息。
问题:可以针对不同研究区域将此工具生成的 z 得分或 p 值与分析结果进行比较吗?
答案:不同研究区域的结果不能进行比较。但是,如果研究区域是固定的(例如,所有分析都针对加利福尼亚的县)、输入字段具有可比性(例如,所有分析都涉及某种类型的人口计数),并且工具参数均相同(例如,距离范围或距离阈值为 5,000 米的“固定距离”并且工具均使用“行标准化”参数),此时,便可对统计学上显著的 z 得分进行比较,以了解空间聚类或空间离散的程度或更好地了解趋势随时间推移的变化情况。还可以在不断增大距离范围或距离阈值的情况下运行分析,以了解在哪个距离/比例下促进空间聚类的过程最明显。
要素及其属性值聚集与否,是高值聚集还是低值聚集,或者都有,可以通过要素制图来发现。发现了之后,必须确定统计上的显著性,那么就需要空间统计了。这和普通统计中先通过柱状图或者直方图发现处理间的差异,然后用方差分析等方法进行显著性检验是一样的。------my注
------------------------------------------------------------------------------------------------------------------
零假设
“空间统计”工具箱中的几种统计工具都是推断式空间模式分析方法,推断统计建立在概率论的基础之上。概率是对评测可能性的一种量度,它的基本原则是,所有的统计检验(直接或间接)都是概率计算,用于评估可能性在分析结果中的作用。通常,对于传统的(非空间)统计,您处理的是随机样本,并设法确定样本数据能够很好地代表(反映出)整个总体的概率。例如,您可能会问:“从票站调查得出的结果(表明候选者 A 将以微弱优势打败候选者 B)反映出最终选举结果的几率有多大?”但是对于许多空间统计方法(包括以上列出的空间自相关类型统计),您通常处理的是研究区域的所有 的可用数据(所有犯罪案件、所有的疾病案例、所有人口普查区的属性等等)。在对整个 总体计算统计数据时,得出的不再是估算值。您所掌握的是事实。因此,探讨可能性或概率不再有任何意义。那么,通常适用于研究区域中所有数据的空间模式分析工具如何才能合理地报告概率呢?答案就是,它们可以通过假设数据事实上是某个更大总体中的一部分(通过零假设)来实现这一点。请更细致地考虑这一点。
随机化零假设:在适当的情况下,“空间统计”工具箱中的工具会将随机化零假设用作统计显著性检验的基础。随机化零假设会假定对您的数据所观测到的空间模式表示的是多种 (n!) 可能的空间排列中的一种排列(排列,排列排列!看上面的台球部分)。如果您可以拾取数据值并将它们放置到研究区域中的各要素,则可能会得到这些值的某一种可能的空间排列。(请注意,拾取数据值并将它们任意放置是随机空间过程的一个示例)。随机化零假设表明的是,如果您可以无数次进行此练习(拾取数据,然后放置数据),则多数时候您所获得的模式与观测到的模式(真实数据)相比都没有明显差别。偶尔您可能会无意中将所有最高值放置到研究领域的同一角落中,但这样做的概率很小。随机化零假设表明的是,您的数据只是完全空间随机性的众多可能版本之一。数据值是固定不变的,只有它们的空间排列会发生变化。
归一化零假设:归一化零假设是一种常见的备选零假设,并不是由“空间统计”工具箱来执行。归一化零假设假定所观测到的值是通过某一随机抽样过程从无限大的呈正态分布的值总体获得的。如果使用另一个样本,您会得到不同的值,但您仍期望这些值可以用来代表更大型的分布。归一化零假设表明的是,所获得的值代表了是众多可能的值样本之一。如果您能够将观测的数据与正态曲线拟合并从该分布中随机选择值来放置到研究区域,则多数时候您所获得的值模式和值分布与观测到的模板/分布(真实数据)相比都没有明显的差别。归一化零假设表明的是,您的数据及其排列是众多可能的随机样本之一。数据值及其空间排列都不是固定不变的。归一化零假设仅适用于数据值呈正态分布的情况。
---------------------------------------------------------------------------------------------------------------------------------

浙公网安备 33010602011771号