SPARQL查询:如何高效检索Web数据 (5)
本文内容预告
本文将带您深入了解如何使用SPARQL查询语言来检索RDF数据,掌握其基础语法,并通过实例学习如何执行查询。
什么是 SPARQL
SPARQL,即SPARQL Protocol and RDF Query Language,是W3C推荐的RDF数据查询语言。作为语义网技术的核心之一,SPARQL为图数据库提供了强大的查询能力。相比于SQL这种关系型数据库查询语言,SPARQL为我们在图数据库中检索信息提供了全新的途径。
SPARQL 语法组成部分
PREFIX:定义前缀,简化URI的书写,类似于Python中的import语句。SELECT:声明所需检索的变量。WHERE:设定查询条件,WHERE条件使用的一些保留字的命名空间要在PREFIX中指定。- 变量:作为检索结果的列名,如
?movie,在SELECT和WHERE子句中使用。
写个查询看看漫威系列有哪些电影
打开DBPedia的查询终端https://dbpedia.org/sparql,尝试以下查询以发现漫威系列电影:
PREFIX dbo: <http://dbpedia.org/ontology/>
PREFIX dbr: <http://dbpedia.org/resource/>
SELECT ?movie ?movieName WHERE {
?movie dbp:publisher dbr:Marvel_Comics ;
rdfs:label ?movieName .
# ?movie dbo:starring ?actor .
FILTER (LANG(?movieName) = 'en')
}
查询结果将显示漫威的经典之作,第一个结果就是《美国队长》
基本的符号
-
逗号
,分号;还有句号.的用法跟它们在 RDF 中 Turtle 语法一样。,用于分格共用同一谓语的多个宾语,;分格共用同一主语的多个谓语,.表示逻辑与。?用于构造变量名称。比如?var,?friend_1等等。 -
#用于注释,与 Python 中的注释类似。比如# ?movie dbo:starring ?actor .。 -
<>用于包围 URI。比如dbr:Marvel_Comics可以用<http://dbpedia.org/resource/Marvel_Comics>代替。 -
*和+正则匹配 ”零个或多个“ 和 ”一个或多个“ 谓语。比如:假设朋友的朋友也是我的朋友,我想查找所有朋友可以用 `
SELECT * WHERE {
?friend ex:friend+ ex:jason
}
查询的结果会包含ex:jena, ex:lily, 和ex:saber_lion。这里注意SELECT中的*跟 SQL 中的用法类似返回所有的变量值。
^用来反向谓语匹配,比如,同样查询我的所有的朋友,可以这样写
SELECT * WHERE {
ex:jason ^ex:friend+ ?friend
}
因为 ex:friend 这个关系里ex:jason在谓语的位置,如果要把ex:jason作为主语使用,那意味着要构造一个新的反向谓语 (^ex:friend) 要以ex:jason作为主语。
|用来表示谓语 1 或者谓语 2。比如我想查找ex:jason的最近的朋友或者女朋友,我们可以这样写
SELECT * WHERE {
ex:jason (^ex:friend | ex:girlfriend) ?friend
}
此时结果会返回 ex:saber_lion 和 ex:annie。
/用来分割多个连续谓语。比如查询所有我的距离为 2 朋友。我们可以这样写
SELECT * WHERE {
?friend ex:friend/ex:friend ex:jason
}
>,<,>=,<=,= 用于数值比较。 比如查询年纪大于 20 的人。
SELECT ?person WHERE {?person ex:age ?age . FILTER(?age > 20)}
!表示布尔否定,&&表示布尔与,||表示布尔或。一般在FILTER子句中使用来构造筛选条件,也可以用在HAVING子句中。比如查询年纪大于 20 的男性。
SELECT ?person WHERE {
?person ex:age ?age .
?person ex:sex ?sex .
FILTER(?age > 20 && ?sex == "man")
}
查询类型
SELECT 查询是最常用的一种获取数据的查询,跟SQL查询类比。
SELECT [DISTINCT] <VAR> [<VAR> ...]
[FROM ...]
WHERE
{
triple pattern 1.
[triple pattern 2.]
...
[附加条件...]
}
[OFFSET 数字]
[LIMIT 数字]
[ORDER BY | GROUP BY <VAR>]
triple pattern 是一个三元组,它的结构跟 RDF 三元组要求基本相同,唯一不同的就是他的主谓宾可以是变量。比如 ?s ?p ?o 这个会匹配 RDF 图数据中所有的三元组。
DISTINCT 的使用跟它在 SQL 中一样,用于去掉重复数据值。
FROM 用于指定在哪个数据图中检索。因为一个数据终端可以检索多个 RDF 数据图的内容,比如 FROM <http://dbpedia.org> 就是从这个 URI <http://dbpedia.org> 指定的数据图中检索。
OFFSET n 用于指定跳过前 n 个检索结果。
LIMIT m 用于指定返回结果的数量 m。
ORDER BY VAR 根据变量VAR的值对返回的结果排序。对比 SQL。
GROUP BY VAR 根据变量VAR的值对返回结果进行分组。对比 SQL。
CONSTRUCT 查询 跟 SELECT 查询同样用于查询数据,但是前者返回的是列表,这个返回的是 RDF 图数据。CONSTRUCT 中的
CONSTRUCT
{
triple pattern .
...
}
WHERE
{
triple pattern .
...
[附加条件...]
}
ASK 查询 用于验证结果真假,判断 RDF 数据中是否包含指定的结果。
ASK
{
triple pattern .
...
[附加条件...]
}
DESCRIBE 查询 用于返回关于某个 URI 或者 变量 的 RDF 数据。
DESCRIBE <VAR>|<URI> [<VAR>|<URI> ...]
WHERE
{
triple pattern .
...
[附加条件...]
}
之前的文章
关注不走丢,欢迎反馈、点赞、加星

参考
- Scientific Data Management & Knowledge Graph, by Maria-Esther Vidal
- https://docs.data.world/tutorials/sparql/index.html
- https://cosmosning.github.io/2020/07/22/sparql-grammar-tutorial/

浙公网安备 33010602011771号