SPARQL查询：如何高效检索Web数据（5）

本文内容预告

本文将带您深入了解如何使用SPARQL查询语言来检索RDF数据，掌握其基础语法，并通过实例学习如何执行查询。

什么是 SPARQL

SPARQL，即SPARQL Protocol and RDF Query Language，是W3C推荐的RDF数据查询语言。作为语义网技术的核心之一，SPARQL为图数据库提供了强大的查询能力。相比于SQL这种关系型数据库查询语言，SPARQL为我们在图数据库中检索信息提供了全新的途径。

SPARQL 语法组成部分

PREFIX：定义前缀，简化URI的书写，类似于Python中的import语句。
SELECT：声明所需检索的变量。
WHERE：设定查询条件，WHERE 条件使用的一些保留字的命名空间要在 PREFIX 中指定。
变量：作为检索结果的列名，如?movie，在SELECT和WHERE子句中使用。

写个查询看看漫威系列有哪些电影

打开DBPedia的查询终端https://dbpedia.org/sparql，尝试以下查询以发现漫威系列电影：

PREFIX dbo: <http://dbpedia.org/ontology/>
PREFIX dbr: <http://dbpedia.org/resource/>

SELECT ?movie ?movieName WHERE {
  ?movie dbp:publisher dbr:Marvel_Comics ; 
         rdfs:label ?movieName .  
  # ?movie dbo:starring ?actor .
  FILTER (LANG(?movieName) = 'en') 
}

查询结果将显示漫威的经典之作，第一个结果就是《美国队长》

基本的符号

逗号 , 分号 ; 还有句号 . 的用法跟它们在 RDF 中 Turtle 语法一样。,用于分格共用同一谓语的多个宾语，;分格共用同一主语的多个谓语，.表示逻辑 与 。 ?用于构造变量名称。比如 ?var, ?friend_1 等等。
# 用于注释，与 Python 中的注释类似。比如# ?movie dbo:starring ?actor .。
<> 用于包围 URI。比如 dbr:Marvel_Comics 可以用 <http://dbpedia.org/resource/Marvel_Comics> 代替。
* 和 + 正则匹配 ”零个或多个“ 和 ”一个或多个“ 谓语。比如：假设朋友的朋友也是我的朋友，我想查找所有朋友可以用 `

SELECT * WHERE {
	?friend ex:friend+ ex:jason
}

查询的结果会包含ex:jena, ex:lily, 和ex:saber_lion。这里注意SELECT中的*跟 SQL 中的用法类似返回所有的变量值。

^ 用来反向谓语匹配，比如，同样查询我的所有的朋友，可以这样写

SELECT * WHERE {
	ex:jason ^ex:friend+ ?friend
}

因为 ex:friend 这个关系里ex:jason在谓语的位置，如果要把ex:jason作为主语使用，那意味着要构造一个新的反向谓语 (^ex:friend) 要以ex:jason作为主语。

| 用来表示谓语 1 或者谓语 2。比如我想查找 ex:jason的最近的朋友或者女朋友，我们可以这样写

SELECT * WHERE {
	ex:jason (^ex:friend | ex:girlfriend) ?friend
}

此时结果会返回 ex:saber_lion 和 ex:annie。

/ 用来分割多个连续谓语。比如查询所有我的距离为 2 朋友。我们可以这样写

SELECT * WHERE {
	?friend ex:friend/ex:friend ex:jason
}

>，<，>=，<=，= 用于数值比较。比如查询年纪大于 20 的人。

SELECT ?person WHERE {?person ex:age ?age . FILTER(?age > 20)}

! 表示布尔否定，&& 表示布尔与，|| 表示布尔或。一般在 FILTER 子句中使用来构造筛选条件，也可以用在HAVING子句中。比如查询年纪大于 20 的男性。

SELECT ?person WHERE {
	?person ex:age ?age . 
	?person ex:sex ?sex . 
	FILTER(?age > 20 && ?sex == "man")
}

查询类型

SELECT 查询是最常用的一种获取数据的查询，跟SQL查询类比。

SELECT [DISTINCT] <VAR> [<VAR> ...]
[FROM ...]
WHERE
{
    triple pattern 1.
    [triple pattern 2.]
    ...
    [附加条件...]
}
[OFFSET 数字]
[LIMIT 数字]
[ORDER BY | GROUP BY <VAR>]

triple pattern 是一个三元组，它的结构跟 RDF 三元组要求基本相同，唯一不同的就是他的主谓宾可以是变量。比如 ?s ?p ?o 这个会匹配 RDF 图数据中所有的三元组。

DISTINCT 的使用跟它在 SQL 中一样，用于去掉重复数据值。

FROM 用于指定在哪个数据图中检索。因为一个数据终端可以检索多个 RDF 数据图的内容，比如 FROM <http://dbpedia.org> 就是从这个 URI <http://dbpedia.org> 指定的数据图中检索。

OFFSET n 用于指定跳过前 n 个检索结果。

LIMIT m 用于指定返回结果的数量 m。

ORDER BY VAR 根据变量VAR的值对返回的结果排序。对比 SQL。

GROUP BY VAR 根据变量VAR的值对返回结果进行分组。对比 SQL。

CONSTRUCT 查询 跟 SELECT 查询同样用于查询数据，但是前者返回的是列表，这个返回的是 RDF 图数据。CONSTRUCT 中的

CONSTRUCT 
{ 
    triple pattern .
    ...
} 
WHERE 
{ 
    triple pattern . 
    ...
    [附加条件...]
}

ASK 查询 用于验证结果真假，判断 RDF 数据中是否包含指定的结果。

ASK    
{   
    triple pattern . 
    ...
    [附加条件...] 
}

DESCRIBE 查询 用于返回关于某个 URI 或者变量的 RDF 数据。

DESCRIBE <VAR>|<URI> [<VAR>|<URI> ...]  
WHERE   
{  
    triple pattern .  
    ...
    [附加条件...]
}

之前的文章

关注不走丢，欢迎反馈、点赞、加星

参考

Scientific Data Management & Knowledge Graph, by Maria-Esther Vidal
https://docs.data.world/tutorials/sparql/index.html
https://cosmosning.github.io/2020/07/22/sparql-grammar-tutorial/

posted @ 2023-11-10 05:28 JasonHao 阅读(279) 评论(0) 收藏举报

刷新页面返回顶部

jasonhuanghao

SPARQL查询：如何高效检索Web数据（5）

本文内容预告

什么是 SPARQL

SPARQL 语法组成部分

写个查询看看漫威系列有哪些电影

基本的符号

查询类型

之前的文章

关注不走丢，欢迎反馈、点赞、加星

参考

公告

jasonhuanghao

SPARQL查询：如何高效检索Web数据 （5）

本文内容预告

什么是 SPARQL

SPARQL 语法组成部分

写个查询看看漫威系列有哪些电影

基本的符号

查询类型

之前的文章

关注不走丢，欢迎反馈、点赞、加星

参考

公告

SPARQL查询：如何高效检索Web数据（5）