gdelt建立数据库表语句
GDELT数据库本地创建事件数据库指令
留个备注给自己,也分享给有需要的友友
CREATE TABLE IF NOT EXISTS gdelt_events (
  GLOBALEVENTID INT(11) NULL COMMENT '分配给每个事件记录的全局唯一标识符,唯一地标识主数据集中的它。注意:虽然这些通常是与日期连续的,但情况并非总是如此,此字段不应用于按日期排序事件:应使用日期字段进行此操作。注意:在2015年2月18日至2015年2月19日之间存在序列中的大间隔,随着切换到GDELT 2.0,这些不是丢失的事件,ID序列只是简单地重置为更高的数字,以便可以轻松区分使用旧的GDELT 1.0系统创建的事件和切换到GDELT 2.0后创建的事件。',
  SQLDATE INT(11) NULL COMMENT '事件发生的日期,格式为YYYYMMDD。有关YYYYMMDDHHMMSS日期,请参阅DATEADDED字段。',
  MonthYear INT(11) NULL COMMENT '事件日期的替代格式,在YYYYMM格式中。',
  Year INT(11) NULL COMMENT '事件日期的替代格式,在YYYY格式中。',
  FractionDate FLOAT NULL COMMENT '事件日期的替代格式,计算为YYYY.FFFF,其中FFFF是该天完成的一年百分比。这将月份和日子折叠到从0到0.9999的分数范围内,捕捉一年的365天。分数组件(FFFF)计算为(月份* 30 + 天)/ 365。这是一个近似值,并没有正确考虑每个月不同天数或闰年,但提供了一个简单的单一数字排序机制,用于希望估计日期之间大致时间距离的应用程序。',
  Actor1Code VARCHAR(255) NULL COMMENT 'Actor1的完整原始CAMEO代码(包括地理、阶级、种族、宗教和类型阶级)。如果系统无法识别Actor1,则可能为空。',
  Actor1Name VARCHAR(255) NULL COMMENT 'Actor1的实际名称。在政治领导人或组织的情况下,这将是领导人的正式名称(GEORGE W BUSH,UNITED NATIONS),对于地理匹配,它将是国家或首都/主要城市名称(UNITED STATES / PARIS),对于种族、宗教和类型匹配,它将反映根匹配阶级(KURD,CATHOLIC,POLICE OFFICER等)。如果系统无法识别Actor1,则可能为空。',
  Actor1CountryCode VARCHAR(255) NULL COMMENT 'Actor1的国家归属的3个字符CAMEO代码。如果系统无法识别Actor1或确定其国家归属(如“UNIDENTIFIED GUNMEN”),则可能为空。',
  Actor1KnownGroupCode VARCHAR(255) NULL COMMENT '如果Actor1是已知的IGO/NGO/叛乱组织(联合国、世界银行、基地组织等),并拥有自己的CAMEO代码,此字段将包含该代码。',
  Actor1EthnicCode VARCHAR(255) NULL COMMENT '如果源文档指定了Actor1的种族归属,并且该种族群体有CAMEO条目,则CAMEO代码输入在这里。注意:一些特殊群体如ARAB也可能由于CAMEO的遗留行为而在类型列中有条目。注意:这种行为是非常实验性的,可能无法正确捕获所有归属 - 对于更全面和复杂的种族归属识别,建议用户使用GDELT全球知识图的种族、宗教和社会群体分类,并从GKG后丰富演员。',
  Actor1Religion1Code VARCHAR(255) NULL COMMENT '如果源文档指定了Actor1的宗教归属,并且该宗教团体有CAMEO条目,则CAMEO代码输入在这里。注意:一些特殊群体如JEW可能由于CAMEO的遗留行为而在地理或类型列中有条目。注意:这种行为是非常实验性的,可能无法正确捕获所有归属 - 对于更全面和复杂的种族归属识别,建议用户使用GDELT全球知识图的种族、宗教和社会群体分类,并从GKG后丰富演员。',
  Actor1Religion2Code VARCHAR(255) NULL COMMENT '如果为Actor1指定了多个宗教代码,这包含次要代码。一些宗教条目自动使用两个代码,如天主教,它将基督教作为代码1和天主教作为代码2。',
  Actor1Type1Code VARCHAR(255) NULL COMMENT 'CAMEO“类型”或“角色”的3个字符CAMEO代码,如果指定了的话。这可以是一个特定的角色,如警察部队、政府、军队、政治反对派、叛乱分子等,一个广泛的角色阶级如教育、精英、媒体、难民,或组织阶级如非政府运动。特殊代码如温和和激进可能指的是一个团体的操作策略。',
  Actor1Type2Code VARCHAR(255) NULL COMMENT '如果为Actor1指定了多个类型/角色代码,这返回第二个代码。',
  Actor1Type3Code VARCHAR(255) NULL COMMENT '如果为Actor1指定了多个类型/角色代码,这返回第三个代码。',
  Actor2Code VARCHAR(255) NULL COMMENT 'Actor2的完整原始CAMEO代码(包括地理、阶级、种族、宗教和类型阶级)。如果系统无法识别Actor2,则可能为空。',
  Actor2Name VARCHAR(255) NULL COMMENT 'Actor2的实际名称。在政治领导人或组织的情况下,这将是领导人的正式名称(GEORGE W BUSH,UNITED NATIONS),对于地理匹配,它将是国家或首都/主要城市名称(UNITED STATES / PARIS),对于种族、宗教和类型匹配,它将反映根匹配阶级(KURD,CATHOLIC,POLICE OFFICER等)。如果系统无法识别Actor2,则可能为空。',
  Actor2CountryCode VARCHAR(255) NULL COMMENT 'Actor2的国家归属的3个字符CAMEO代码。如果系统无法识别Actor1或确定其国家归属(如“UNIDENTIFIED GUNMEN”),则可能为空。',
  Actor2KnownGroupCode VARCHAR(255) NULL COMMENT '如果Actor2是已知的IGO/NGO/叛乱组织(联合国、世界银行、基地组织等),并拥有自己的CAMEO代码,此字段将包含该代码。',
  Actor2EthnicCode VARCHAR(255) NULL COMMENT '如果源文档指定了Actor2的种族归属,并且该种族群体有CAMEO条目,则CAMEO代码输入在这里。注意:一些特殊群体如ARAB也可能由于CAMEO的遗留行为而在类型列中有条目。注意:这种行为是非常实验性的,可能无法正确捕获所有归属 - 对于更全面和复杂的种族归属识别,建议用户使用GDELT全球知识图的种族、宗教和社会群体分类,并从GKG后丰富演员。',
  Actor2Religion1Code VARCHAR(255) NULL COMMENT '如果源文档指定了Actor2的宗教归属,并且该宗教团体有CAMEO条目,则CAMEO代码输入在这里。注意:一些特殊群体如JEW可能由于CAMEO的遗留行为而在地理或类型列中有条目。注意:这种行为是非常实验性的,可能无法正确捕获所有归属 - 对于更全面和复杂的种族归属识别,建议用户使用GDELT全球知识图的种族、宗教和社会群体分类,并从GKG后丰富演员。',
  Actor2Religion2Code VARCHAR(255) NULL COMMENT '如果为Actor2指定了多个宗教代码,这包含次要代码。一些宗教条目自动使用两个代码,如天主教,它将基督教作为代码1和天主教作为代码2。',
  Actor2Type1Code VARCHAR(255) NULL COMMENT 'CAMEO“类型”或“角色”的3个字符CAMEO代码,如果指定了的话。这可以是一个特定的角色,如警察部队、政府、军队、政治反对派、叛乱分子等,一个广泛的角色阶级如教育、精英、媒体、难民,或组织阶级如非政府运动。特殊代码如温和和激进可能指的是一个团体的操作策略。',
  Actor2Type2Code VARCHAR(255) NULL COMMENT '如果为Actor2指定了多个类型/角色代码,这返回第二个代码。',
  Actor2Type3Code VARCHAR(255) NULL COMMENT '如果为Actor2指定了多个类型/角色代码,这返回第三个代码。',
  IsRootEvent INT(11) NULL COMMENT '系统使用一系列技术对整个文档中发现的每个事件进行编码,使用数组进行去引用和链接信息。以前的一些项目,如ICEWS倡议发现,新闻报道的首段中的事件往往是最重要的。因此,这个标志可以用作创建事件流子集的代理,以估计事件的重要性。注意:这个字段只指第一个提及事件的新闻报道,并且如果事件在其他新闻报道中的不同上下文中找到,它不会更新。它包括了遗留目的 - 对于事件定位的更精确信息,请参阅提及表。',
  EventCode VARCHAR(255) NULL COMMENT '这是描述Actor1对Actor2执行的操作的原始CAMEO动作代码。注意:强烈建议此字段存储为字符串而不是整数,因为CAMEO分类法可以包括前导零的事件代码,这可能会使存储为整数时区分某些事件类型更加困难。',
  EventBaseCode VARCHAR(255) NULL COMMENT 'CAMEO事件代码在三级分类法中定义。对于分类法第三级的事件',
  EventRootCode VARCHAR(255) NULL COMMENT '类似于EventBaseCode,这定义了事件代码所属的根级类别。例如,代码“0251”(“呼吁减轻行政制裁”)的根代码为“02”(“上诉”)。这使得可以以各种特定性分辨率聚合事件。对于二级或一级事件,此字段将设置为EventCode。注意:强烈建议此字段存储为字符串而不是整数,因为CAMEO分类法可以包括前导零的事件代码,这可能会使存储为整数时区分某些事件类型更加困难。',
  QuadClass INT(11) NULL COMMENT '整个CAMEO事件分类法最终分为四个主要分类:口头合作、物质合作、口头冲突和物质冲突。此字段指定事件类型的这种主要分类,允许在最高级别的聚合中进行分析。此字段中的数字代码映射到Quad Classes如下:1=口头合作,2=物质合作,3=口头冲突,4=物质冲突。',
  GoldsteinScale FLOAT NULL COMMENT '每个CAMEO事件代码都从-10到+10分配了一个数字分数,捕捉这种类型事件将对一个国家的稳定性产生的理论潜力。这被称为Goldstein Scale。此字段指定每种事件类型的Goldstein分数。注意:这个分数是基于事件的类型,而不是实际事件记录的具体情况 - 因此,两个骚乱,一个有10人,一个有10,000人,都将获得相同的Goldstein分数。这可以被聚合到各种时间分辨率,以近似一个地点随时间的稳定性。',
  NumMentions INT(11) NULL COMMENT '这是在首次看到它的15分钟更新期间,包含对此事件的一个或多个提及的所有源文档的总提及次数。同一文档中对事件的多次引用也有助于这个计数。这可以作为一种方法来评估事件的“重要性”:讨论该事件的次数越多,它越可能具有重要意义。来源文档的总数和事件的密度随时间变化,因此建议将此字段通过感兴趣时期内事件宇宙的平均值或其他度量进行标准化。此字段实际上是原始提及总数和从每篇文章的重处理版本中提取的提及次数的复合分数(请参阅提及表的讨论)。注意:这个字段只指第一个提及事件的新闻报道,并且如果事件在其他新闻报道中的不同上下文中找到,它不会更新。它包括了遗留目的 - 对于事件定位的更精确信息,请参阅提及表。',
  NumSources INT(11) NULL COMMENT '这是在首次看到它的15分钟更新期间,包含对此事件的一个或多个提及的所有信息来源的总数。这可以作为一种方法来评估事件的“重要性”:讨论该事件的次数越多,它越可能具有重要意义。来源的总数随时间变化,因此建议将此字段通过感兴趣时期内事件宇宙的平均值或其他度量进行标准化。注意:这个字段只指第一个提及事件的新闻报道,并且如果事件在其他新闻报道中的不同上下文中找到,它不会更新。它包括了遗留目的 - 对于事件定位的更精确信息,请参阅提及表。',
  NumArticles INT(11) NULL COMMENT '这是在首次看到它的15分钟更新期间,包含对此事件的一个或多个提及的所有源文档的总数。这可以作为一种方法来评估事件的“重要性”:讨论该事件的次数越多,它越可能具有重要意义。来源文档的总数随时间变化,因此建议将此字段通过感兴趣时期内事件宇宙的平均值或其他度量进行标准化。注意:这个字段只指第一个提及事件的新闻报道,并且如果事件在其他新闻报道中的不同上下文中找到,它不会更新。它包括了遗留目的 - 对于事件定位的更精确信息,请参阅提及表。',
  AvgTone FLOAT NULL COMMENT '这是在首次看到它的15分钟更新期间,包含对此事件的一个或多个提及的所有文档的“语气”平均值。分数范围从-100(非常负面)到+100(非常正面)。常见值在-10到+10之间,0表示中立。这可以作为一种方法来过滤事件的“上下文”作为事件重要性的微妙衡量,以及作为该事件“影响”的代理。例如,一个骚乱事件如果有一个略微负面的平均语气,可能是一个较小的事件,而如果它有一个非常负面的平均语气,它表明一个更严重的事件。一个有正面分数的骚乱可能表明是一个非常小的事件,它被描述在一个更积极的叙述背景中(例如,一份报告在一个国家改善条件的讨论中发生的攻击,以及每天的攻击次数大大减少)。注意:这个字段只指第一个提及事件的新闻报道,并且如果事件在其他新闻报道中的不同上下文中找到,它不会更新。它包括了遗留目的 - 对于事件定位的更精确信息,请参阅提及表。注意:这只提供了文章的基本语气评估,对于对情感措施感兴趣的用户,建议使用提及和全球知识图表将GKG GCAM系统完整的2300种情感和主题合并到他们的事件记录分析中。',
  Actor1Geo_Type INT(11) NULL COMMENT '此字段指定匹配类型的地理分辨率,并包含以下值之一:1=COUNTRY(匹配在国家级别),2=USSTATE(匹配是美国州),3=USCITY(匹配是美国城市或地标),4=WORLDCITY(匹配是美国以外的城市或地标),5=WORLDSTATE(匹配是美国以外的行政区划1 - 大致相当于美国州)。这可以用来按地理特定性过滤事件,例如,仅提取具有地标级地理分辨率的事件以进行映射。注意:匹配代码1(COUNTRY)、2(USSTATE)和5(WORLDSTATE)的匹配仍将提供一对纬度/经度,这将是该国或州的中心点,但下面的FeatureID字段将是空白。',
  Actor1Geo_FullName VARCHAR(255) NULL COMMENT '这是匹配位置的完整可读名称。在国家的情况下,它只是国家名称。对于美国和世界各国,格式为“州,国家名称”,而对于所有其他匹配,格式为“城市/地标,州,国家”。这可以用来标记在地图上放置事件时的位置。注意:此字段反映了文本本身用来指代位置的确切名称,这意味着它可能包含同一位置的多种拼写 - 使用FeatureID列以确定两个地点名称是否指的是同一个地方。',
  Actor1Geo_CountryCode VARCHAR(255) NULL COMMENT '这是位置的2个字符FIPS10-4国家代码。',
  Actor1Geo_ADM1Code VARCHAR(255) NULL COMMENT '这是2个字符FIPS10-4国家代码,后面跟着容纳地标的行政区划1(ADM1)的2个字符FIPS10-4代码。在美国的情况下,这是州名称的2个字符缩写(例如德克萨斯州的“TX”)。',
  Actor1Geo_ADM2Code VARCHAR(255) NULL COMMENT '对于国际地点,这是分配给每个全球地点的全球行政单位层(GAUL)行政区划2(ADM2)代码,而在美国地点,这是州名称的两个字符缩写(例如德克萨斯州的“TX”)后面跟着3位数字的县代码(遵循GNIS中使用的INCITS 31:200x标准)。有关此字段的内容和计算的更多细节,请参见以下脚注URL。注意:在没有ADM2信息可用的情况下,对于一些ADM1级匹配,以及所有国家级匹配,此字段可能是空白/空。注意:根据GNS中的编码方式,此字段仍可能包含ADM1级匹配的值。',
  Actor1Geo_Lat FLOAT NULL COMMENT '这是地标的中心点纬度,用于映射。',
  Actor1Geo_Long FLOAT NULL COMMENT '这是地标的中心点经度,用于映射。',
  Actor1Geo_FeatureID VARCHAR(255) NULL COMMENT '这是该位置的GNS或GNIS FeatureID。这些值的更多信息可以在Leetaru(2012)中找到。注意:当Actor1Geo_Type的值为3或4时,此字段将包含一个有符号的数值,而在其他匹配分辨率(通常是国家代码或国家代码和ADM1代码)的情况下,它将包含一个文本FeatureID。即使在Actor1Geo_Type值为3或4的情况下,一小部分小城市和城镇也可能在此字段中有一个空白值:这将在GDELT的2.0版本中得到纠正。注意:此字段可以包含正数和负数,有关这方面的更多信息,请参见Leetaru(2012)。',
  Actor2Geo_Type INT(11) NULL COMMENT '此字段指定匹配类型的地理分辨率,并包含以下值之一:1=COUNTRY(匹配在国家级别),2=USSTATE(匹配是美国州),3=USCITY(匹配是美国城市或地标),4=WORLDCITY(匹配是美国以外的城市或地标),5=WORLDSTATE(匹配是美国以外的行政区划1 - 大致相当于美国州)。这可以用来按地理特定性过滤事件,例如,仅提取具有地标级地理分辨率的事件以进行映射。注意:匹配代码1(COUNTRY)、2(USSTATE)和5(WORLDSTATE)的匹配仍将提供一对纬度/经度,这将是该国或州的中心点,但下面的FeatureID字段将是空白。',
  Actor2Geo_FullName VARCHAR(255) NULL COMMENT '这是匹配位置的完整可读名称。在国家的情况下,它只是国家名称。对于美国和世界各国,格式为“州,国家名称”,而对于所有其他匹配,格式为“城市/地标,州,国家”。这可以用来标记在地图上放置事件时的位置。注意:此字段反映了文本本身用来指代位置的确切名称,这意味着它可能包含同一位置的多种拼写 - 使用FeatureID列以确定两个地点名称是否指的是同一个地方。',
  Actor2Geo_CountryCode VARCHAR(255) NULL COMMENT '这是位置的2个字符FIPS10-4国家代码。',
  Actor2Geo_ADM1Code VARCHAR(255) NULL COMMENT '这是2个字符FIPS10-4国家代码,后面跟着容纳地标的行政区划1(ADM1)的2个字符FIPS10-4代码。在美国的情况下,这是州名称的2个字符缩写(例如德克萨斯州的“TX”)。',
  Actor2Geo_ADM2Code VARCHAR(255) NULL COMMENT '对于国际地点,这是分配给每个全球地点的全球行政单位层(GAUL)行政区划2(ADM2)代码,而在美国地点,这是州名称的两个字符缩写(例如德克萨斯州的“TX”)后面跟着3位数字的县代码(遵循GNIS中使用的INCITS 31:200x标准)。有关此字段的内容和计算的更多细节,请参见以下脚注URL。注意:在没有ADM2信息可用的情况下,对于一些ADM1级匹配,以及所有国家级匹配,此字段可能是空白/空。注意:此字段仍可能包含ADM1级匹配的值,具体取决于它们在GNS中的编码方式。',
  Actor2Geo_Lat FLOAT NULL COMMENT '这是地标的中心点纬度,用于映射。',
  Actor2Geo_Long FLOAT NULL COMMENT '这是地标的中心点经度,用于映射。',
  Actor2Geo_FeatureID VARCHAR(255) NULL COMMENT '这是该位置的GNS或GNIS FeatureID。这些值的更多信息可以在Leetaru(2012)中找到。注意:当Actor2Geo_Type的值为3或4时,此字段将包含一个有符号的数值,而在其他匹配分辨率(通常是国家代码或国家代码和ADM1代码)的情况下,它将包含一个文本FeatureID。即使在Actor2Geo_Type值为3或4的情况下,一小部分小城市和城镇也可能在此字段中有一个空白值:这将在GDELT的2.0版本中得到纠正。注意:此字段可以包含正数和负数,有关这方面的更多信息,请参见Leetaru(2012)。',
  ActionGeo_Type INT(11) NULL COMMENT '此字段指定匹配类型的地理分辨率,并包含以下值之一:1=COUNTRY(匹配在国家级别),2=USSTATE(匹配是美国州),3=USCITY(匹配是美国城市或地标),4=WORLDCITY(匹配是美国以外的城市或地标),5=WORLDSTATE(匹配是美国以外的行政区划1 - 大致相当于美国州)。这可以用来按地理特定性过滤事件,例如,仅提取具有地标级地理分辨率的事件以进行映射。注意:匹配代码1(COUNTRY)、2(USSTATE)和5(WORLDSTATE)的匹配仍将提供一对纬度/经度,这将是该国或州的中心点,但下面的FeatureID字段将是空白。',
  ActionGeo_FullName VARCHAR(255) NULL COMMENT '这是匹配位置的完整可读名称。在国家的情况下,它只是国家名称。对于美国和世界各国,格式为“州,国家名称”,而对于所有其他匹配,格式为“城市/地标,州,国家”。这可以用来标记在地图上放置事件时的位置。注意:此字段反映了文本本身用来指代位置的确切名称,这意味着它可能包含同一位置的多种拼写 - 使用FeatureID列以确定两个地点名称是否指的是同一个地方。',
  ActionGeo_CountryCode VARCHAR(255) NULL COMMENT '这是位置的2个字符FIPS10-4国家代码。',
  ActionGeo_ADM1Code VARCHAR(255) NULL COMMENT '这是2个字符FIPS10-4国家代码,后面跟着容纳地标的行政区划1(ADM1)的2个字符FIPS10-4代码。在美国的情况下,这是州名称的2个字符缩写(例如德克萨斯州的“TX”)。',
  ActionGeo_ADM2Code VARCHAR(255) NULL COMMENT '对于国际地点,这是分配给每个全球地点的全球行政单位层(GAUL)行政区划2(ADM2)代码,而在美国地点,这是州名称的两个字符缩写(例如德克萨斯州的“TX”)后面跟着3位数字的县代码(遵循GNIS中使用的INCITS 31:200x标准)。有关此字段的内容和计算的更多细节,请参见以下脚注URL。注意:在没有ADM2信息可用的情况下,对于一些ADM1级匹配,以及所有国家级匹配,此字段可能是空白/空。注意:此字段仍可能包含ADM1级匹配的值,具体取决于它们在GNS中的编码方式。',
  ActionGeo_Lat FLOAT NULL COMMENT '这是地标的中心点纬度,用于映射。',
  ActionGeo_Long FLOAT NULL COMMENT '这是地标的中心点经度,用于映射。',
  ActionGeo_FeatureID VARCHAR(255) NULL COMMENT '这是该位置的GNS或GNIS FeatureID。这些值的更多信息可以在Leetaru(2012)中找到。注意:当ActionGeo_Type的值为3或4时,此字段将包含一个有符号的数值,而在其他匹配分辨率(通常是国家代码或国家代码和ADM1代码)的情况下,它将包含一个文本FeatureID。即使在ActionGeo_Type值为3或4的情况下,一小部分小城市和城镇也可能在此字段中有一个空白值:这将在GDELT的2.0版本中得到纠正。注意:此字段可以包含正数和负数,有关这方面的更多信息,请参见Leetaru(2012)。',
  DATEADDED INT(14) NULL COMMENT '此字段存储事件添加到主数据库的日期,格式为YYYYMMDDHHMMSS,使用UTC时区。对于需要以15分钟分辨率访问事件的用户,这是应在查询中使用的字段。',
  SOURCEURL VARCHAR(255) NULL COMMENT '此字段记录首次发现此事件的新闻报道的URL或引用。在大多数情况下,这是它看到文章的第一份报告,但由于新闻报道在处理管道中的时间和流动,这可能并不总是非常第一份报告,但至少是在前几份报告中。'
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COMMENT='GDELT事件表';
 
                    
                
 
                
            
         浙公网安备 33010602011771号
浙公网安备 33010602011771号