Web Semantics in the Clouds译文
"Web semantics in the clouds". Peter Mika (Yahoo! Research)
近两年,互联网上以语义化格式出现的结构化数据呈现数量级的增长。一方面,关联数据(Linked Data)使得成千上万的基于RDF描述的实例信息得以通过网络访问,包含这些数据的著名数据集有DBPedia,Uniprot, Geonames。另一方面,Web 2.0已经逐渐接受这种数据轻便性(来自于访问的便捷性?),由于关联数据的概念,现在的互联网中存在大量的RDF三元组信息。有些以微格式方式嵌入在HTML网页中,有些数据则直接表达为eRDF(embedded RDF, 嵌入式RDF)和RDFa(RDF attributes,RDF属性)。
暴露这些数据的元数据的动机也越来越清晰,比如Yahoo!的SearchMonkey,通过在搜索结果页面为终端用户提供最合适的可视化方法来凸显包含结构化数据的网站。我们预想,要不了多久,搜索引擎就可以直接利用这些信息来辅助排序和相关性计算,比如,更好的搜索结果——包含日常事件内容(事件,地点和任务)。
尽管我们现在才刚刚处在数据网络时代的开端,可用信息的数量已经明显比过去大多了,比如,在一个时下的triple store(用来存取RDF元数据的数据库)中一般都运行在单个服务器上。
许多应用程序需要大规模的元数据信息,一个特定的应用程序一定会具备访问和处理一定数量的元数据的能力,搜索引擎需要定位其他应用程序需要的数据和服务。正因为这个原因,当数据规模远远超过triple store当下可以处理的范围,语义网搜索引擎和大规模服务成为了利用和扩充网格计算能力的首选。
互联网数据的云计算
不是所有计算密集的问题都需要相似的结构化的硬件配置。经典的以CPU的超级计算机性能和高端CPU互联技术为特征的超级计算机,已经被实践检验认为可以在物理,航空航天,化学,生物以及其他领域的计算获得相当不错的成绩。通常,研究人员发现有时候高端的机器并不适合用来解决某些很难并行化或者需要密集的进程间通信的问题。
集群计算通常在资源利用方面表现出较大的灵活性,和更低的全局代价。在极端的情况下,“云”可以推广到整个因特网:因特网的计算只涉及相对比较小的数据块,相互之间没有协调的需求,对于执行时间也没有显著的约束。例如,通过采用免费的PC机的因特网计算案例,SETI,以及Folding项目。
互联网数据处理需要的计算介于这些极端情况中间。一方面,互联网数据是相互关联的,而且这些互联数据的分析对于理解其潜在的本质具有重要的意义。但同时,这些数据是天然分散的,只和自己保持一致,有时候根本就只存在于单一网站的范围内。另一方面,一个显著的特征是,这些数据的量级,通常都达到了P级规模。
为了处理这样的数据,领先的互联网搜索提供商

浙公网安备 33010602011771号