Avro介绍

　　Avro是一个数据序列化系统。提供了以下功能和特性：

　　Avro在序列化时依赖模式文件(schema)，当Avro读取数据和写入数据时，都需要提供模式文件。这样Avro就可以预先知道数据的类型，不用对数据进行预先检测而可以写入每个数据，从而使序列化既快又小。由于数据及其模式是完全自描述的，因此这也便于使用动态脚本语言。

　　当Avro数据存储在文件中时，对应的模式文件也会随之存储，因此以后任何程序都可以处理该数据文件。如果读取数据的程序期望使用其他模式，则由于这两种模式文件的存在，因此可以轻松解决。

　　在Avro用于RPC时，RPC的客户端和服务端会在建立握手连接时交换模式文件(可以对其进行优化，因为对于大多数远程调用而言，实际上不需要传输任何模式文件)。建立连接后，由于客户端和服务器都拥有对方的完整模式，因此可以轻松解决相同命名字段，缺失字段，多余字段等之间的对应关系。

　　Avro模式是使用JSON定义的。这有助于以已经具有JSON库的语言实现。

　　Avro提供的功能类似于Thrift， Protocol Buffer等系统。Avro在以下基本方面与这些系统不同。　　

动态类型：Avro不需要生成代码。数据始终伴随着一个schema，该schema允许对数据进行全面处理而无需代码生成，静态数据类型等。这有助于构建通用数据处理系统和语言。
未标记的数据：由于在读取数据时存在schema，因此需要用数据编码的类型信息少得多，因些序列化的内容相对比较小。
没有手动分配的字段ID：当模式更改时，在处理数据时，旧模式和新模式都始终存在，因此可以使用字段名称以符号方式解决差异。

补充：之所以Hadoop的创始人Doug Cutting会在已有许多现成的RPC系统的情况下，再开发Avro，个人认为原因主要如下：

posted @ 2020-02-06 16:48 杭州胡欣阅读(602) 评论(0) 收藏举报

刷新页面返回顶部

源码王