CrimeVec—Exploring Spatial-Temporal Based Vector Representations of Urban Crime Types and Crime-Related Urban Regions
CrimeVec—Exploring Spatial-Temporal Based Vector Representations of Urban Crime Types and Crime-Related Urban Regions (CrimeVec—探索城市犯罪类型和与犯罪相关的城市区域的基于时空的向量表示)
0 Abstract
传统的犯罪类型分类依赖于层次结构,从高级类别到低级子类型。这种基于树的分类将犯罪类型视为相互独立,当它们不从同一更高级别的类别分支时,因此缺乏类别间的语义关系。然后,该问题延伸到城市地区的犯罪分布分析,通常根据犯罪类型计数报告统计数据,但忽略不同犯罪类别之间的隐含关系。我们的研究旨在填补这一信息空白,从定性和定量两个方面更全面地了解城市犯罪。具体来说,我们提出了一种基于向量的犯罪类型表示,通过对时间和地理因素的无监督机器学习构建。总体思路是将犯罪类型定义为“相关”,如果它们经常在同一时间跨度发生在同一区域,则不管任何初始层次分类。这开启了一种超越预定义结构的新比较指标,通过以完全数据驱动的方式生成向量空间来揭示犯罪类型之间的隐藏关系。犯罪类型被表示为这个空间中的点,它们的相对距离揭示了更强或更弱的语义关系。城市犯罪分布分析的一个直接应用突出表现在直观数据调查的可视化工具和城市区域合成向量的方便比较方法上。对犯罪类型分布的有意义的见解和对城市犯罪特征的更好理解决定了对城市管理和发展的宝贵财富。
4 Discussion and Conclusions
犯罪活动具有强烈的空间和时间特征,其调查对于城市政策和城市管理至关重要。了解犯罪类型和城市区域之间的时空关系,有助于深入了解犯罪模式,并对城市区域的功能和发展状况提出切实可行的看法。对不同类型的犯罪进行统计的传统方法忽略了不同类型之间的隐含语义关系,从而忽略了城市犯罪布局的有意义的方面。本研究提出了一个新的框架来探索犯罪类型的隐含语义关系及其对城市地区特征的影响。
CrimeVec 是一种基于犯罪类型的时空分布创建密集向量的方法,通过定义仅依赖于犯罪类型在空间和时间中发生的方式的嵌入表示,超越了原始犯罪分类。
该方法包括将带有时间戳的地理位置犯罪事件组织成犯罪类型序列,然后利用时间相关的上下文窗口将这些序列输入到经过调整的Word2vec模型。输出通过学习它们在空间和时间上的频繁共现来定义犯罪类型的嵌入。之后,可以通过自定义降维向量空间来构建单个城市区域的定性主题图,并通过组合每个地理区域的犯罪事件向量,最终创建城市区域的有效嵌入。
一般来说,犯罪类型嵌入揭示了一个复杂的关系系统,允许直接测量语义相关性。即使属于同一顶级类别的某些犯罪类型有在向量空间中彼此接近的趋势 (例如,与毒品有关的犯罪),我们揭示了进一步的关系,在犯罪方式上属于完全不同的顶级类别的犯罪类型由于在同一时间跨度内频繁出现在同一地区而决定了相似的嵌入。这个过程将时空相似性的概念体现为一种数学表示。总体思路确实是在大量不同的犯罪类型之间传递相似性度量,由此相关的犯罪类型最终将采用相似的向量表示,在多维嵌入空间中彼此相邻,因此,隐式地,以纯数据驱动的方式将自己组织成更高级别的组。
此外,犯罪类型组合允许在城市区域层面探索嵌入空间,有助于识别领土上与犯罪相关的地理区域。 这可以首先以定性专题图的形式进行,以便直观地可视化和方便地比较城市区域,使犯罪布局模式易于辨别。在更定量的方法上,构建实际的区域嵌入定义了一种比较模式,其隐含含义与每个区域内的犯罪类型的简单计数不同,因此获得了区域之间犯罪相关性的味道。虽然我们观察到相邻区域具有相似向量表示的一般趋势,但也有一些例外,包括具有可比空间距离的区域具有不同的余弦相似性,这意味着不同的犯罪特征。可以任意探索不同规模的城市区域,也可以进行区域内比较(例如,一天中不同时间的犯罪相关性)。
总之,本研究的主要贡献是通过能够传达相似性度量的机器可读表示,为探索城市地区的犯罪类型相关性和独特的犯罪特征提供了一种有效的方法。所提出的模型通过识别哪些犯罪事件本质上具有在相似时间跨度内发生在特定界定的城市区域的特征,利用可调节的时空分辨率超参数来相应地掌握现实城市隐藏的时空方面,从而揭示犯罪类型的时空相关性。我们挖掘了犯罪类型的潜在关系,并提供了一个新的视角来研究城市犯罪,揭示了犯罪语义关联性的见解,并在城市发展和犯罪相关政策的背景下有效地提供信息。嵌入具有根据其时空事件有意义地表示犯罪类型的优势,利用一种易于适用于任意广泛领域和存在任何初始犯罪分类的方法。可以对语义相似的犯罪类型进行比较,以便快速确定与给定犯罪类型最相关的类型,揭示犯罪模式的潜在关系。此外,通过视觉方式或基于分数的指标对城市区域进行比较,可以发现城市区域之间有趣的关联,为替代调查提供工具。
本文有几个潜在的扩展。具体来说,嵌入表示可以在各种应用程序中进行测试,既可以输入预测模型,也可以用作聚类方法和相似性搜索的基础。这些包括相关犯罪类型和城市区域的比较和聚类、机器学习模型的预处理、区域内犯罪相关性分布的分析以及城市区域的一般信息传递,可能与进一步的数据源合并成更复杂的组合数据驱动的表示。此外,可以探索各种时间和空间分辨率,甚至利用覆盖不同领土大小的数据集(例如,在州或国家级别,或在城市部分或单个社区级别)。最后,虽然我们的数据驱动模型隐含地捕捉到驱动犯罪类型时空关系的微妙城市综合体方面的整体结果,但对每个方面的分析和推理,突出的理论驱动,定义了未来的研究方向 ,将基于理论的假设与基于数据的证据相结合。
总之,模仿在与意义有关的每一项任务中的核心因素NLP中使用词嵌入,将犯罪嵌入作为重要表示,建立在时空犯罪分布的基础上,可用于各种犯罪研究,并包括在处理犯罪活动数据的一系列应用中。
Chart

Fig1: 滑动窗口进程,上下文窗口为过去三个小时和未来三个小时。

Fig2: CrimeVec 整体框架。

Fig3: 城市区域分析框架。
Table1: 原始犯罪类型分类的示例摘要。

Table2: 四种选定参考犯罪类型的前 10 种相似类型。



Fig4: 维度减少犯罪类型向量空间。

Fig5: 南马塔潘和下罗克斯伯里的专题地图示例。

Fig6: 南马塔潘和下罗克斯伯里专题地图的示例部分。

Fig7: 在图6的选定语义块内犯罪事件的地理分布。

Fig8: 三个选定参考区域(邻域统计区域)的前五个和后五个相似区域。

Fig9: 三个选定参考区域(规划区)的前三个和后三个相似区域。
Table3: 基于一天中不同时间部分的区域内相似性比较示例。


Fig10: 犯罪相关区域的降维向量空间。
1 Introduction
该方法是在马萨诸塞州波士顿市最近的犯罪事件数据集上进行评估的。我们根据记录的发生空间和时间创建了犯罪序列,并将其馈送到Skip-gram Word2vec-based模型,该模型根据每个犯罪类型沿序列的频繁发生类型定义了嵌入向量。我们最终使用犯罪类型嵌入来构建城市区域可视化地块和城市区域嵌入。因此,在实际犯罪事件的基础上进行了相关性比较和视觉表示,特别是突出了数据驱动的接近性的特征,而不是预先定义的分层结构。对犯罪类型分布的有意义的见解以及对城市犯罪模式的更好理解,为城市发展研究提供了宝贵的财富。
2 Methodology
CrimeVec 是一种无监督方法,用于获取犯罪类型的多维特征向量(嵌入),进而可用于创建城市区域可视化和城市区域向量。该算法包括两个步骤: 创建犯罪类型的时空序列并应用Word2vec-based模型来学习相应的嵌入表示。本节介绍如何预处理犯罪数据以将其输入嵌入模型,以及如何在此类犯罪序列上应用和训练模型以构建犯罪类型和城市区域的嵌入。
2.1 Data Pre-Processing
犯罪事件表示为空间和时间点,由发生的空间位置(例如,以经纬度坐标对的形式)、时间戳和指示犯罪类型的分类标签标识:\(C_i=(lat_i,lon_i,t_i,type_i)\)。根据数据源,其他属性可能可用;但是,对于更广泛的应用,我们仅依赖于上述信息。
预处理步骤包括将单个犯罪事件转换为犯罪类型序列,特别是根据发生的空间和时间创建序列。然后将这些序列用作Word2vec模型的训练语料库。
序列定义的过程遵循一个简单的规则:一个序列必须由犯罪类型组成,这些犯罪类型指的是在同一地区发生的按时间顺序排列的犯罪事件。面积单位是根据数据集特征和应用特性选择的参数。如果选择将研究的区域细分为 N 个区域,则预处理结果由N个序列表示,该序列由按时间顺序排列的犯罪事件以配对 \((type_i,t_i)\) 的形式组成。涉及区域 \(j\) 的序列需要表示为 \(S_j=\{(type_i,t_i)\mid i=1,2,3,... \}_j\)。因此,时间信息与所犯罪行的类型一起被明确编码在序列中。这些序列的集合是嵌入模型的实际输入,因此是最终向量表示学习过程的基础。使用与 NLP 的并行性,序列构成训练语料库,可能的犯罪类型集代表词汇表。在下一小节中,我们将介绍 Word2vec 算法并描述我们如何调整和训练它来学习犯罪类型嵌入表示。
2.2 Embedding Model for Crime Type Vector Representations
2.2.1 Word2vec Algorithm
嵌入向量的概念起源于 NLP 领域,用于根据单词在原始文本中的顺序出现来对单词的语义关系进行建模。词的分类性质和嵌入模型的顺序依赖性导致问题的直接概括,允许嵌入模型适应与分类实体的顺序表示分析相关的众多应用。
一般来说,嵌入可以被描述为意义的密集向量,其实际表示基于大型训练语料库中元素共现的分布。总体直觉是,在相似上下文中发生的元素具有相似的向量表示。
Word2vec [28] 是最常用的生成嵌入向量的技术之一。它通常被认为是一种无监督的方法(其目标仅限于确定实体表示),但它仍然在学习过程中内部定义了一个辅助预测问题。给定一个唯一实体的“词汇表”,以及一个由这些实体的序列集合组成的训练语料库,该模型旨在使用滑动窗口扫描每个序列,并在每一步内部定义一个预测任务,包括预测当前实体在其相邻实体的帮助下沿序列(反之亦然,取决于使用了两个 Word2vec 版本中的哪一个:CBOW 或 Skip-gram)。模型结构是由输入层和输出层之间的单个线性投影层组成的人工神经网络。将输入层中的每个实体连接到隐藏层的神经元的权重定义了有效嵌入向量,因此其大小等于网络中隐藏神经元的所选数量。在数学术语中,嵌入向量的集合可以表示为维度 num_entities × vector_size 的权重矩阵。训练过程中的预测结果决定了嵌入矩阵的更新; 预测本身确实不是目标,而只是学习向量表示的代理。
在我们的实现中,我们采用了Skip-gram方法,将学习过程设置为在每个训练实例中给定关注的实体 \(E_t\) 来最大化预测相邻实体 \(cE_1,...,cE_j\) (也称为上下文)的概率,关于它当前的嵌入 \(\theta _t\) 。因此,使用小批量随机训练优化的损失函数 C 采用正确预测的负对数概率的形式:
关于嵌入参数 \(\theta\)(即 \(\partial C / \partial \theta\) )导出的梯度定义了嵌入值的更新。这个过程在整个训练语料库中重复,直到损失收敛为平稳数。通过这种方法,可以学习所有实体的嵌入向量,并且可以通过向量空间中基于距离的度量轻松量化它们之间的语义关系。
2.2.2 Model Training and Crime Type Vector Generation
训练语料库中独特犯罪类型的总体定义了“词汇”集,其元素旨在表示为嵌入。因此,为每个独特的犯罪类型生成一个向量,可以将其视为大小为 num_crime_types × vector_size 的嵌入矩阵的特定唯一行。
训练语料库由经过预处理的犯罪数据组成,这些数据是按时间顺序排列的犯罪事件的空间相关序列,报告犯罪类型及其时间戳的配对表示为 \((type_i,t_i)\) 。
在训练期间,我们用滑动窗口扫描每个序列,在每个步骤分别识别当前的焦点犯罪类型及其上下文、输入和目标变量到Skip-gram Word2vec模型。一般的说法“犯罪类型是根据空间和时间上的相互发生来表示的”,因此在实践中被翻译为“犯罪类型是根据它们在空间相关序列上的时间相关共现来表示的”。每种关注犯罪类型的上下文都是基于相同序列中的时间邻近性来定义的,代表相同的空间区域。时间接近度通过时间相关的滑动窗口建模,导致可变长度的上下文。与传统的Word2vec不同,将模型超参数设置为选定的固定数量的上下文元素(例如,序列中的前三个元素和后三个元素),我们将超参数定义为选定的时间跨度,从而在每个滑动步骤中产生可变数量的上下文元素。对于序列中的每个焦点元素,只有在特定固定时间跨度内发生的犯罪类型才会插入上下文窗口。时间跨度值的选择是任意的,取决于犯罪类型的表现目的和时间分布;它尤其受到空间分辨率超参数的影响,该参数决定了在构建空间相关犯罪序列时的区域细分。滑动窗口过程的一个可视化示例如图1所示,使用了过去三个小时和未来三个小时的上下文窗口。

对于每个焦点犯罪类型,模型会根据其上下文中的类型更新其对应的嵌入向量。通过对空间和时间上下文犯罪类型的分布重复执行辅助内部预测任务,该模型最终得到了“词汇”中犯罪类型的最终嵌入表示。
图 2 总结了从原始数据到嵌入向量的整个过程。

2.3 Urban Region Vector Space
犯罪类型嵌入可以进一步用于探索城市地区的犯罪类型分布。我们根据犯罪类型向量的组合确定了两个可能的方向,以提供有关城市地区的信息。第一个方向依赖于专题地图进行可视化和直观的数据探索;第二个方向包括有效生成城市区域嵌入,允许城市区域之间的定量相似性度量。
为了提供与犯罪相关的城市区域的视觉直观探索,我们利用犯罪类型向量空间的降维版本作为主题地图形式的可视化图的模板。受 [35] 的启发,我们将犯罪类型嵌入表示形式映射到二维空间中,并将每个区域的犯罪配置表示为根据每种类型的犯罪计数进行调整的主题图。由于信息是在这样的语义空间中聚合的(相关的犯罪类型彼此相邻),犯罪数据中的潜在模式更容易直观地显示出来。这可以帮助直观地理解和方便地比较不同城市地区的犯罪类型分布。
为了定量测量与犯罪相关的城市区域之间的相似性,我们通过犯罪类型向量的组合来创建区域的实际向量。一旦生成了单一犯罪类型的嵌入,我们就使用它们来获取城市区域、区域和部分地区的密集向量。特别是,遵循简单但有效的方法,即平均文本中的词嵌入以创建文档向量 [39,40],我们将与犯罪相关的城市区域含义定义为单个犯罪类型含义的组合。
区域组合函数由所有犯罪元素 \(\mathbf{c}_1,...,\mathbf{c}_k\), 的向量上的平均向量 \(R\) 组成:
这种自下而上的方法具有效率高的优点,因为它重用了已经训练过的模型,而且非常有效,因为相关的犯罪类型共同增加了相应组成部分的表达,因此自动定义了独特的向量特征。
图 3 总结了与犯罪相关的城市区域分析。

3 Experiment
本节首先描述用于训练 CrimeVec 模型的所选数据集和实验设置,然后报告犯罪类型嵌入、城市区域专题图和城市区域向量方面的结果。
3.1 Data
一个真实世界的犯罪数据集被用来评估该模型。波士顿市(美国马萨诸塞州)被选为案例研究,其犯罪事件和警告已被用于各种犯罪分析和预测研究工作[41,42]。尽管如此,拟议的框架可以应用于世界各地的任何类型的城市领土和次领土。
波士顿市的市区面积为232.14平方公里,人口为694583人(2018年估计)。该领土在行政上分为波士顿重建局的 17 个规划区和 69 个社区统计区、178 个人口普查区、558 个人口普查区块组和 7288 个人口普查区块 [43]。犯罪数据来自波士顿市的开放数据门户(https://data.boston.gov/dataset/crime-incident-reports-august-2015-to-date-source-new-system,于 23 日访问 2021 年 2 月),正式报告波士顿地区的犯罪事件。特别是,我们的案例研究利用了2019年中的犯罪数据,总共记录了93,080起犯罪事件。
每个登记的犯罪事件都包括发生的日期和时间戳、其地理位置(模糊为最近的街道交叉口或街道交叉口之间的质心)以及犯罪活动的类型。原来的犯罪类型分类是树状结构的,有高低分类。经过包括去除未标记的犯罪事件和非常罕见的犯罪类型在内的数据清理过程,模型训练中使用了属于 48 个顶级类别的总共 147 个不同的低级犯罪类型。表1报告了犯罪类型分类的示例性概述。由于犯罪事件随时间的地理分布,我们定义了一个空间分辨率,用于在人口普查区块组级别构建嵌入模型的输入序列。一般来说,空间分辨率和犯罪类型分类等参数的选择可以有不同的定义,并应根据数据集的特点进行设置。给定选定的人口普查区块组分辨率,总共生成了 558 个可能的犯罪序列,每个序列都指代代表特定区块组的唯一空间单位区域。

3.2 Experimental Settings
CrimeVec 模型是在过去三个小时和未来三个小时的上下文窗口大小以及 25 维的向量大小的情况下实现的。训练过程利用了小批量优化,依赖于噪声对比估计损失和 Adam 优化器 [44,45]。
为了量化实体相关性,我们将余弦相似性度量应用于嵌入表示,从而将犯罪类型和城市区域的关系强度转换为向量之间角度的余弦:相似性随着角度的增大而降低,而随着角度的减小而增大。余弦相似性计算为单位归一化向量的点积:
为了将嵌入映射到视觉上可显示的语义空间,我们使用了 t 分布随机邻域嵌入(t-SNE)方法 [46],其范围是减少维度,同时试图保持相似实体靠近和不同实体分开。被广泛用于可视化高维实例的集群,我们将其作为通过将25维向量映射到二维语义空间中以直观方式可视化报告实体关系的一种手段。
3.3 Evaluation
评估结果分为两个层面: 犯罪类型和城市地区。
犯罪类型评估侧重于单个犯罪类型之间的向量相似性,调查CrimeVec模型的直接输出。分析了犯罪类型的关联性,揭示了原始犯罪类型分类的时空类间关系。另一方面,城市区域评价侧重于将犯罪类型表征组合成城市区域表征的组合方法的结果,其形式为通过定制犯罪类型向量空间获得的定性专题图,或形式为 通过平均单个犯罪类型的嵌入获得的城市地区的实际组成向量的。因此,我们探讨了城市地区与犯罪相关的相似性的含义,以及它与地理邻近性的关系。
3.3.1 Crime Type Embeddings
CrimeVec 输出由单个犯罪类型的嵌入向量的生成表示。它们之间余弦相似性的比较描述了一个时空关系网络,揭示了关于频繁犯罪类型共发生的信息,因此,在犯罪类型分类分析中引入了一个新的视角。两种不同犯罪类型之间的高度相似性是高时空相关性的标志,即在同一时间跨度同一地区频繁发生。这导致以超出原始分类的方式对犯罪类型进行分组,通常基于从违反形式的角度来看所犯罪行的内在相似性。相同的顶级类别不一定意味着子类型的相同时空特征,而不同类别的犯罪类型可以共享相似的时空模式。
根据嵌入向量之间的余弦相似性度量,表2报告了四种参考犯罪类型的前10种相似类型,例如: “扰乱和平”,“VAL-操作未注册/未保险的汽车”,“武器-枪支-携带/拥有”,和 “毒品 -- 超过18克的B类贩运”。结果突出了犯罪类型之间捕获的语义关系,确实揭示了直观上合理的关联性组合。


“扰乱和平” (属于 “无序行为” 的最高类别,表明危害人们和平与安宁权的行为) 与违反酒类和拥有毒品有关的犯罪类型具有很高的相似性。此外,它证明了与各种不同类别的相关性,从收集侵犯到骚扰,再到打架,所有这些都与一般意义上的和平干扰有合理的联系。
另一方面,与“VAL-经营未注册/未投保汽车”(属于“违规”的顶级类别)具有高度相似性的犯罪类型主要与汽车相关,即使并不总是属于同一类别。例如,“VAL-违反汽车法-其他”和“VAL-无照经营”属于违反汽车法的组,而其他的(例如,伤害行人、破坏财产等)被归类为 《机动车事故应对》。也很少有与汽车无关的类型,即在酒精、毒品和逃犯的影响下运作。 即使在这种情况下,犯罪嵌入的语义相关性也可以通过合理的时空连接的一般直觉来证明。
关于“武器-枪支-携带/拥有”(属于“枪支违法”的顶级类别),其最高的类似犯罪包括种类繁多的类别,涉及其他与武器相关的违法行为,还包括持有毒品、汽车违法行为、 以及凶杀和严重袭击等暴力犯罪。这些类型在语义上是相关的,并且可以很容易地成为同一个上下文故事的一部分(例如,在因汽车违规而被停止时被抓到携带枪支,或者在袭击或谋杀的一部分时轻微拥有武器)。
最后,“毒品——B 类贩运超过 18 克”(属于“毒品违法”的顶级类别)除了与其他一些毒品违法行为非常相似外,还与武器相关犯罪密切相关,这表明 贩毒与持有武器之间的语义关系频繁。
通常,报告的示例指出,从时空角度来看,属于不同类别的犯罪类型无论如何都可能密切相关,因此最终被表示为位于嵌入空间的同一区域的相似向量。向量空间超越了基于违反模式观点的原始分类,揭示了一个复杂的类别间关系系统 (例如,贩毒和武器拥有的相关性) 和不同的犯罪情境视角 (例如,因违反酒或毒品或骚乱或聚众斗殴造成的和平扰乱)。因此,通过分析相似性度量,我们可以以犯罪相关性的形式揭示隐藏的时空模式,从而引入方便的动态数据驱动的犯罪类型表示,丰富了原始标准分类。
为了直观地表示整个嵌入空间及其实体之间关系的全局概览,可以通过t-SNE对犯罪类型向量进行降维并绘制。图 4 报告了嵌入空间的二维缩减。可以注意到几组同质的犯罪类型(例如,与持有毒品有关的类型、机动车事故),但总的来说,犯罪类别广泛混杂。由于静态地图无法清晰显示所有罪案类型的名称,因此使用互动地图工具(例如, https://projector.tensorflow.org ,于2021年2月23日访问)有助于通过动态效果更好地显示罪案类型的语义空间。为了更好地理解,在报告的图中放大了向量空间的三个部分,显示了不同性质的犯罪类型的混合,反映了我们的基本假设。具体而言,左下方描绘的犯罪类型主要包括机动车事故和与盗窃有关的汽车违法行为;左上角的犯罪类型主要涉及欺诈和盗窃;相反,右上角的犯罪类型指的是范围广泛的类别,包括毒品违规和与武器有关的犯罪。
因此,犯罪类型在空间和时间上的频繁共现被转化为语义关联,并因此转化为警察感知的潜在语境中的情境关联性指数。
3.3.2 Crime-Related Urban Region Embeddings
犯罪类型的嵌入表示允许比较城市地区的犯罪活动关系,因此不仅基于犯罪数量,但也考虑到集体犯罪的关联性。我们按照两种不同的方法开发了比较策略,一种是视觉定性方法,一种是基于向量的定量方向。第一个依赖于使用犯罪类型维度减少的语义空间作为基图,用于可视化每个城市区域的犯罪相关专题地图,这是一种直观的即时比较的视觉指纹。相反,第二个侧重于生成单个城市区域的有效矢量表示,允许不同地理区域之间的定量相似性度量。
犯罪配置图
使用犯罪类型降维向量空间作为底图,定义了每个城市区域的犯罪类型语义分布的视觉表示。该过程包括统计各种类型的犯罪发生率,并相应地渲染向量空间中的点(例如,通过可变大小和颜色)。整个空间的表示因地区而异,具体取决于每个地区发生的犯罪事件的数量和类型分布。此外,由于时空相关的犯罪类型在向量空间中彼此相邻,信息通常聚集在这样的空间上,突出潜在的模式,并且由于专题地图建立在相同的底图上,因此可以很方便进行跨区域的视觉比较。
图5显示了以南马塔潘和下罗克斯伯里为例的两个城市地区的犯罪类型配置。首先出现的是易于识别模式,快速识别各个地区犯罪特征之间的差异,这与简单的犯罪统计表相比具有明显优势。事实上,由于犯罪类型的语义关系是从它们的时空共现中学习的,所以专题地图往往会报告彼此相邻的高犯罪计数值,这有助于通过适当的可视化来揭示模式。比较这两个地区,我们观察到南马塔潘和下罗克斯伯里之间的不同配置。
情节标签立即揭示了一些潜在的犯罪信息:南部马塔潘有两个突出的重叠圆圈,确定了犯罪类型 “失踪人员” 和 “失踪人员定位”,揭示了该地区独特的犯罪特征;下罗克斯伯里确定了更多的特殊犯罪类型事件,包括两个重叠的圆圈代表犯罪类型“酒——在公共场合饮酒”和“毒品——持有 B 级——可卡因等”,以及其他两个报告犯罪的突出圆圈 类型“侵入”和“逮捕令”,确定了一种不同的犯罪趋势,其特征与前一种趋势不同。

此外,我们可以关注某个向量空间部分,例如图 4 右上角报告的部分(主要定义毒品违规和武器相关犯罪),并为这两个区域中的每一个构建相应的专题图,得到结果如图 6 所示。可以看出,下罗克斯伯的总体趋势是在选定的语义部分内犯罪发生率较高。 这种视觉图有助于快速了解与犯罪相关的城市区域特征。 交互式工具的使用有助于探索专题地图。

此外,额外的分析可以将语义空间与地理空间联系起来,以对整个城市的犯罪信息进行空间分析。例如,通过在向量空间中选择一组连续的犯罪类型,我们可以可视化地理空间中的所有城市区域,并根据所选类型的总体计数进行渲染。由于语义空间中相邻的犯罪类型相互关联,因此组选择识别出承载特定犯罪意义的语义块,其对应的空间信息描绘在整个城市的城市区域上。图 7 的示例参考了图 6 中的犯罪选择,根据语义块内犯罪类型的出现次数报告整个波士顿的相应地理信息。同样,所提供的可视化工具是直观显示语义相关犯罪类型的空间分布的有价值的选择,可以轻松揭示所选语义块对城市区域的影响。

城市区域嵌入

浙公网安备 33010602011771号