朱博的技术园

关注基于.Net的Web解决方案,高性能数据库设计,高性能Web服务解决方案,关注移动开发

  博客园 :: 首页 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::
  22 随笔 :: 0 文章 :: 350 评论 :: 3 引用

ReadWriteWeb最近推出了系列文章:“2009年互联网5大趋势”,我会将5篇文章逐篇翻译,并加入自己的理解,在尊重原作的基础上,改写成更通俗易懂的文章与各位分享。水平有限,如有谬误,还请指正,非常感谢。
为了便于理解,可以先看一下位于文尾的“译者注”一节。

1、结构化的数据 Structured Data

  第一个主要的趋势是结构化的数据,这个概念在以往有关语义网(Semantic Web)的一些演讲中,曾被引用过,但显而易见,到现在为止,结构化的数据比语义网的发展趋势更加明显。本文会分析结构化的数据在今年的发展,并且有三个产品供参考:OpenCalais, Google, Wolfram Alpha。

不是文档集,而是数据网

  Tim Berners-Lee(译者注:万维网(WWW)的发明者,为互联网的迅速、大规模发展奠定了非常非常重要的技术基础)在二月份曾说我们现在身处一个数据网,而不是一个文档集,Tim Berners-Lee领导的组织W3C,已经大力推动了两个关键行动来建立这个数据网:语义网(Semantic Web)和最近提到的数据链(Linked Data)

  在过去的几年里,我们已经看到了有很多其他方式来建立结构化的数据,目前最好的例子是Twitter,因为 Twitter 90%的访问,都是由第三方程序对其API的使用贡献的(译者注:我一开始很难理解Twitter为什么会是结构化的数据的最佳实例,因为Twitter里面传播的信息统统是非结构化的。但经过仔细思考,发现Twitter其实成功创造了一种使用短信息来更新状态的通讯方式,对于内容更新、状态更新类的数据来说,这的确是结构化的,更重要的是,使用范围之广,已形成事实的标准)。

  数据网的基本概念仍然与由Alex Iskold在2007年3月提到的相同:“未结构化的信息将会让路于结构化的数据,为更智能的计算铺路”。

译者注:来自不同网站的非结构化信息,通过各个公司/组织提供的API,成为了结构化的数据

实例1:OpenCalais

第一个实例产品OpenCalais,很可能是目前最好的有关数据链的产品,这是汤姆森路透(Thomson Reuters)于2008年2月发布的一个API。简单地讲,OpenCalais可以将非结构的网页内容转化为具有语义标记的数据,它可以将数据按照人物、地点、公司等分组组织。通过这种方式,第三方的程序或网站可以利用这些数据生成许多有趣的新应用——这正是数据链的基本定义。
  关于数据链的更完整定义,参见Alexander Korth在2009年4月从技术角度的介绍:数据网,创建可供机器阅读的信息 (The Web of Data: Creating Machine-Accessible Information),本文作者同样在2009年5月撰文:“Linked Data is Blooming: Why You Should Care”,介绍了数据链的背景与好处。
译者注:非结构的文档(文本/HTML),经过OpenCalais的解析,成为了人物、公司、地点、事件等结构化的数据

实例2:Google Rich Snippets

今年5月,Google将结构化的数据添加到了它的核心搜索中,作为一个名为“Rich snippets”的特性出现。这个特性的本质是通过 microformats  RDFa 等开放的结构化数据标准,从网页中提取并展现有价值的信息(译者注:百度最近提的框计算概念,其实类似于数据链,即用户搜索到的不仅仅是网页,还有有价值的数据,比如搜索股票代码,出现的是该股票的实时行情,而不是包含该股票代码的网页链接)。在5月份发布这个特性的时候,Google邀请了内容发布者来标记他们的HTML,尽管要想这种标记广泛使用需要一定的时间,但事实上如果有Google这样的大公司的推动,正显示了结构化的数据于互联网越来越大的重要性。
译者注:一个英文例子,搜索结果直接包含被搜索商品的评论、价格范围
译者注:一个中文例子:结果直接包含被搜索到网站的Alexa排名数据

其他大公司同样引领了这个方向,比如雅虎。

实例3:Wolfram Alpha

 Wolfram Alpha 5月份的隆重推出到现在,作者一直在密切关注这个非常创新的产品。这个一个自描述的“可计算知识引擎 computational knowledge engine”,在一些预测中,它甚至被称为Google克星。虽然这有些夸张,但它的确有不少可能的应用。
  Wolfram Alpha有个类似搜索引擎的界面,可以由用户输入自然语言。但它的主要部分是估算用户的行为,来显示合适的数据,这个产品是以使用与计算数据为前提的。如果Web2.0是产生数据(或者用户产生内容),那么下一代的互联网就是如何使用这些数据了。

总结

  通过以上三个例子我们可以看到结构化的数据正快速地成为当今互联网的一个特性。像汤姆森路透(Thomson Reuters)与Google这样的公司正逐步实现数据的结构化,而更多像Wolfram Alpha这样的产品正在利用结构化的数据实现我们今天根本无法想象的功能。

译者注

为了方便理解,根据我的个人看法,这里解释一下文档、数据、结构化等词,如有谬误,欢迎指正:
  文档:亦内容,可供阅读,传播。如:某产品的某个评论;某应聘人员的简历。
  数据:与内容相同的是可以阅读,传播;胜于内容的是有明确分类,可供分析。如某个产品的评论分数;某应聘人员简历中的年龄,专业、工作年限。
  结构化:数据结构化以后,会更易于分析,查找,抽象。如:某产品有几条评论,分数各是多少(可算出平均分,从而推断口碑最好的产品是哪个);应聘的所有人员的年龄分布、专业分布、工作年限分布。

另,我理解知识生产的过程如下:
信息(消息,新闻) >提取> 数据 >转化。分析> 结构化数据 >抽象> 知识
所以,有了结构化的数据以后,离知识就只差一步了,所以不难想象,未来的互联网是可以自动生产知识的。

2、实时 The Real-Time Web

翻译进行中……

原英文地址:http://www.readwriteweb.com/archives/top_5_web_trends_of_2009_the_real-time_web.php

3、个性化 Personalization

翻译进行中……

原英文地址:http://www.readwriteweb.com/archives/top_5_web_trends_of_2009_personalization.php

4、移动与不断增强的真实性 Mobile Web & Augmented Reality

翻译进行中……

原英文地址:http://www.readwriteweb.com/archives/top_5_web_trends_of_2009_mobile_web_augmented_reality.php

5、所有物体的互联互通 Internet of Things

翻译进行中……

原英文地址:http://www.readwriteweb.com/archives/top_5_web_trends_of_2009_internet_of_things.php


posted on 2009-09-14 00:45 朱博 阅读(2598) 评论(10) 编辑 收藏

评论

#1楼 2009-09-14 03:56       
TOP 2 -real time web

[keyword]

Real-Time Web is a new form of communication, it creates a new body of content, it's immediate, it's public and has an explicit social graph associated with it, and it carries an implicit model of federation.

说白了,就是信息更加实时,比如facebook强调搜索朋友的实时信息、日记,而不是展示一些照片。
(This was described as "up-to-the-minute" search results - in other words a real-time search engine.)
 回复 引用 查看   

#2楼 2009-09-14 04:01       
TOP 4 - 移动与不断增强的真实性 Mobile Web & Augmented Reality

介绍了apple占据手机移动平台48%,但是google份额正在上升。

[keyword]
Augmented reality, the addition of a layer to the world on your mobile device, has been a very hot trend this year.

字面理解就是被放大的现实。文章举了一个例子,是 the Paris Metro Subway。 巴黎的地铁。

有点像在现实地图上面叠加了信息层的意思。
 回复 引用 查看   

#3楼 2009-09-14 04:04       
TOP 5 所有物体的互联互通 Internet of Things

[KEYWORD]
The Internet of Things is a network of Internet-enabled objects, together with web services that interact with these objects. Underlying the Internet of Things are technologies such as RFID (radio frequency identification), sensors, and smartphones.

字面理解就是对科技状态添加各种感应器,实现对现实数据多方面采集。

 回复 引用 查看   

#4楼 2009-09-14 09:10 Tactoth      
我觉得还有一个趋势是互联网真的开始从封闭交流转为促进交流了。早期的时候我用互联网大多数搜索一些问题的答案,这样信息的传递大多是单向的。但是现在,通过互联网结实一些志趣相投的朋友,以成为我用互联网的一个主要目的。

 回复 引用 查看   

#5楼 2009-09-14 09:12 Tactoth      
不过,第五条有什么用呢?会有人关心别处的某个温度计是多少度吗?

传统的自动化系统其实已经实现了这一条,我不知道为什么要将这种数据放到互联网上!
 回复 引用 查看   

#6楼 2009-09-14 16:00 Mingle      
结构化的数据,说白了就是xml数据。
 回复 引用 查看   

#7楼[楼主] 2009-09-15 23:28 朱博      
谢谢您的提前分享:)

@辰
 回复 引用 查看   

#8楼[楼主] 2009-09-15 23:31 朱博      
同感,互联网已经深刻地改变了整个社会,互联网会变得无处不在,现在真实的社会会逐步变成一个真实的网络社会,网络社会的发展就是把“网络”去掉,因为那时网络已经和水、电一样普及,感觉不到它的存在但离开了就没办法正常生活。

引用Tactoth:
我觉得还有一个趋势是互联网真的开始从封闭交流转为促进交流了。早期的时候我用互联网大多数搜索一些问题的答案,这样信息的传递大多是单向的。但是现在,通过互联网结实一些志趣相投的朋友,以成为我用互联网的一个主要目的。


 回复 引用 查看   

#9楼[楼主] 2009-09-15 23:36 朱博      
正如您所说,自动化系统已经深刻改变了我们的生产方式,但这还有空间、时间的限制。而接入互联网后,我们可以想象,当我们在公司上班时,或者出外旅游时,可以随时控制世界上任何一个自己有控制权的物体,只要能联网,就可以随心所欲,打破时间、空间的限制。

以前有个概念叫“地球村”,我看到以后用村来形容地球还是太大,用“点”来形容可能更为合适,因为网络的存在,空间已经消失了。

引用Tactoth:
不过,第五条有什么用呢?会有人关心别处的某个温度计是多少度吗?

传统的自动化系统其实已经实现了这一条,我不知道为什么要将这种数据放到互联网上!

 回复 引用 查看   

#10楼[楼主] 2009-09-15 23:38 朱博      
个人觉得您的结论不够准确,结构化的数据的表现方式之一,是XML的数据。但表现方式不只这一种。反过来说,XML的数据不一定是结构化的数据。

我觉得从知识生产的角度来理解结构化的数据的重要性更为清晰。这更是一个社会科学的名词,而不只是一个技术名词。

引用Mingle:结构化的数据,说白了就是xml数据。

 回复 引用 查看