liutoutou

2014年2月12日

摘要：一、join优化Join查找操作的基本原则：应该将条目少的表/子查询放在Join操作符的左边。原因是在Join操作的Reduce阶段，位于Join操作符左边的表的内容会被加载进内存，将条目少的表放在左边，可以有效减少发生内存溢出错误的几率。Join查找操作中如果存在多个join，且所有参与join的表中其参与join的key都相同，则会将所有的join合并到一个mapred程序中。案例：SELECTa.val,b.val,c.valFROMaJOINbON(a.key=b.key1)JOINcON(c.key=b.key1)在一个mapre程序中执行joinSELECTa.val,b.val, 阅读全文

posted @ 2014-02-12 22:30 liutoutou 阅读(374) 评论(0) 推荐(0)

hive--UDF、UDAF

摘要： 1、UDFpackage com.example.hive.udf;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.Text;public final class Lower extends UDF { public Text evaluate(final Text s) { if (s == null) { return null; } return new Text(s.toString().toLowerCase()); }}View Code addjarmy_jar.jar;c... 阅读全文

posted @ 2014-02-12 22:12 liutoutou 阅读(658) 评论(0) 推荐(0)

Java学习-Overload和Override的区别

摘要： 1、Overload是重载的意思，Override是覆盖的意思，也就是重写。2、重载Overload表示同一个类中可以有多个名称相同的方法，但这些方法的参数列表各不相同（即参数个数或类型不同）。3、重写Override表示子类中的方法可以与父类中的某个方法的名称和参数完全相同，通过子类创建的实例对象调用这个方法时，将调用子类中的定义方法，这相当于把父类中定义的那个完全相同的方法给覆盖了，这也是面向对象编程的多态性的一种表现。子类覆盖父类的方法时，只能比父类抛出更少的异常，或者是抛出父类抛出的异常的子异常，因为子类可以解决父类的一些问题，不能比父类有更多的问题。子类方法的访问权限只能比父类的更大阅读全文

posted @ 2014-02-12 16:19 liutoutou 阅读(206) 评论(0) 推荐(0)

Java学习-集合（转）

摘要：在编写java程序中，我们最常用的除了八种基本数据类型，String对象外还有一个集合类，在我们的的程序中到处充斥着集合类的身影！java中集合大家族的成员实在是太丰富了，有常用的ArrayList、HashMap、HashSet，也有不常用的Stack、Queue，有线程安全的Vector、HashTable，也有线程不安全的LinkedList、TreeMap等等！上面的图展示了整个集合大家族的成员以及他们之间的关系。下面就上面的各个接口、基类做一些简单的介绍(主要介绍各个集合的特点。区别)，更加详细的介绍会在不久的将来一一讲解。一、Collection接口 Collection接口是. 阅读全文

posted @ 2014-02-12 10:55 liutoutou 阅读(198) 评论(0) 推荐(0)

Hbase实例

摘要： import java.io.IOException;import java.util.ArrayList;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumnDescriptor;import org.apache.hadoop.hbase.HTableDescriptor;import org.apache.hadoop.hbase.Ke 阅读全文

posted @ 2014-02-12 10:39 liutoutou 阅读(193) 评论(0) 推荐(0)

Java学习-数组

摘要： 1、数组的是Object的直接子类,它属于“第一类对象”，但是它又与普通的java对象存在很大的不同，类名为：[I 一维数组：[I 二维数组：[[I 三维数组：[[[I2、[代表了数组的维度，一个[表示一维，两个[表示二维。可以简单的说数组的类名由若干个'['和数组元素类型的内部名称组成。3、数组和普通的Java类是不同的，普通的java类是以全限定路径名+类名来作为自己的唯一标示的，而数组则是以若干个[+L+数组元素类全限定路径+类来最为唯一标示的。这个不同也许在某种程度上说明了数组也普通java类在实现上存在很大的区别，也许可以利用这个区别来使得JVM在处理数组和普通jav 阅读全文

posted @ 2014-02-12 10:34 liutoutou 阅读(202) 评论(0) 推荐(0)

2014年1月28日

Hadoop中两表JOIN的处理方法(转)

摘要： 1. 概述在传统数据库（如：MYSQL）中，JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作，同样常见且耗时，由于Hadoop的独特设计思想，当进行JOIN操作时，有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法，然后给出了几种针对不同输入数据集的优化方法。2. 常见的join方法介绍假设要进行join的数据分别来自File1和File2.2.1 reduce side joinreduce side join是一种最简单的join方式，其主要思想如下：在map阶段，map函数同时读取两个文件File1和File2，为了区分两种来源的key/value 阅读全文

posted @ 2014-01-28 09:46 liutoutou 阅读(340) 评论(0) 推荐(0)

2014年1月26日

Hive优化（转）

摘要：一、Hive join优化1.尽量将小表放在join的左边，我们使用的Hive-0.90,所以是自动转化的，既把小表自动装入内存，执行map side join(性能好), 这是由参数hive.auto.convert.join=true 和hive.smalltable.filesize=25000000L）参数控制（默认是25M），如果表文件大小在25M左右，可以适当调整此参数，进行map side join，避免reduce side join。也可以显示声明进行map join：特别适用于小表join大表的时候，SELECT /*+ MAPJOIN(b) */ a.key, a.va 阅读全文

posted @ 2014-01-26 09:00 liutoutou 阅读(343) 评论(0) 推荐(0)

2014年1月24日

Java学习--final与static

摘要： final是java的关键字，它所表示的是“这部分是无法修改的”。编译期常量，它在类加载的过程就已经完成了初始化，所以当类加载完成后是不可更改的，编译期可以将它代入到任何用到它的计算式中，也就是说可以在编译期执行计算式。当然对于编译期常量，只能使用基本类型，而且必须要在定义时进行初始化。有些变量，我们希望它可以根据对象的不同而表现不同，但同时又不希望它被改变，这个时候我们就可以使用运行期常量。对于运行期常量，它既可是基本数据类型，也可是引用数据类型。基本数据类型不可变的是其内容，而引用数据类型不可变的是其引用，引用所指定的对象内容是可变的。父类的final方法是不能被子类所覆盖的，也就是说. 阅读全文

posted @ 2014-01-24 15:59 liutoutou 阅读(174) 评论(0) 推荐(0)

Java学习--String、StringBuffer与StringBuilder

摘要： String并不是基本数据类型，而是一个对象，并且是不可变的对象。String类为final型的不可被继承，而且通过查看JDK文档会发现几乎每一个修改String对象的操作，实际上都是创建了一个全新的String对象。字符串为对象，那么在初始化之前，它的值为null，到这里就有必要提下””、null、new String()三者的区别。null 表示string还没有new ，也就是说对象的引用还没有创建，也没有分配内存空间给他，而””、new String()则说明了已经new了，只不过内部为空，但是它创建了对象的引用，是需要分配内存空间的。在字符串中存在一个非常特殊的地方，那就是字符.. 阅读全文

posted @ 2014-01-24 15:41 liutoutou 阅读(196) 评论(0) 推荐(0)

公告