2013 年 2月 1 日随笔档案 - ggjucheng

HDFS的基本概念(转)

摘要： HDFS的基本概念1、数据块(block)HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。和普通文件系统相同的是，HDFS中的文件是被分成64M一块的数据块存储的。不同于普通文件系统的是，HDFS中，如果一个文件小于一个数据块的大小，并不占用整个数据块存储空间。2、元数据节点(Namenode)和数据节点(datanode)namenode用来管理文件系统的命名空间其将所有的文件和文件夹的元数据保存在一个文件系统树中。这些信息也会在硬盘上保存成以下文件：命名空间镜像(namespace image)及修改日志(edit log)其阅读全文

posted @ 2013-02-01 16:05 ggjucheng 阅读(4219) 评论(0) 推荐(1)

hive中UDTF编写和使用(转)

摘要： 1. UDTF介绍UDTF(User-Defined Table-Generating Functions) 用来解决输入一行输出多行(On-to-many maping) 的需求。2. 编写自己需要的UDTF继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF,实现initialize, process, close三个方法。UDTF首先会调用initialize方法，此方法返回UDTF的返回行的信息（返回个数，类型）。初始化完成后，会调用process方法,真正的处理过程在process函数中，在process中，每一次forward() 阅读全文

posted @ 2013-02-01 12:29 ggjucheng 阅读(31027) 评论(1) 推荐(3)

hive udaf开发入门和运行过程详解

摘要：介绍hive的用户自定义聚合函数（UDAF）是一个很好的功能，集成了先进的数据处理。hive有两种UDAF：简单和通用。顾名思义，简单的UDAF，写的相当简单的，但因为使用Java反射导致性能损失，而且有些特性不能使用，如可变长度参数列表。通用UDAF可以使用所有功能，但是UDAF就写的比较复杂，不直观。本文只介绍通用UDAF。UDAF是需要在hive的sql语句和group by联合使用，hive的group by对于每个分组，只能返回一条记录，这点和mysql不一样，切记。UDAF开发概览开发通用UDAF有两个步骤，第一个是编写resolver类，第二个是编写evaluator类。re 阅读全文

posted @ 2013-02-01 11:31 ggjucheng 阅读(36629) 评论(6) 推荐(9)

简单，可复制

公告