2015年5月6日
摘要: 将博客搬至CSDN,谢谢! 阅读全文
posted @ 2015-05-06 17:39 superLuc 阅读(61) 评论(0) 推荐(0) 编辑
  2013年7月13日
摘要: HBase是在一个HDFS上开发的面向列的分布式数据库。HBase不是关系型数据库,不支持SQL。HTable一些基本概念Row key行主键, HBase不支持条件查询和Order by等查询,读取记录只能按Row key(及其range)或全表扫描,因此Row key需要根据业务来设计以利用其存储排序特性(Table按Row key字典序排序如1,10,100,11,2)提高性能。Column Family(列族)在表创建时声明,每个Column Family为一个存储单元。在上例中设计了一个HBase表blog,该表有两个列族:article和author。Column(列)HBase的 阅读全文
posted @ 2013-07-13 19:58 superLuc 阅读(1768) 评论(0) 推荐(0) 编辑
  2013年7月12日
摘要: 定义 Hive是一个构建在Hadoop上的数据仓库框架。可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。(来自百度百科~~)metastore metastore是Hive元数据的集中存放地,metastore包括两部分:服务和后台数据的存储。默认情况下,元数据存储在Derby数据库实例中。由于是本地数据库且不支持并发访问,故多作为练手使用。还一种使用其他数据库的方式... 阅读全文
posted @ 2013-07-12 00:13 superLuc 阅读(839) 评论(0) 推荐(0) 编辑
  2013年6月10日
摘要: 在hadoop的任务job中,jobid是标志一个任务的唯一标志,可以用于定位到该job,查询该job相关信息,kill掉该job 。 jobId是如何生成的呢 ? 在一般的服务集群上我们通过JobTracker来管理job,该id既是通过JobTracke的getNewJobId()方法得到,具体代码如下:public synchronized JobID getNewJobId() throws IOException { ensureRunning(); return new JobID(getTrackerIdentifier(), nextJobId++); }... 阅读全文
posted @ 2013-06-10 11:24 superLuc 阅读(1257) 评论(0) 推荐(0) 编辑
  2013年6月8日
摘要: 计数器 计数器是一种收集作业统计信息的有效手段,用于质量控制或应用级统计。说白了就是统计整个mr作业所有数据行中符合某个if条件的数量,(除某些内置计数器之外)。仅当一个作业执行成功之后,计数器的值才是完整可靠的。如果一个任务在作业执行期间失败,则相关计数器值会减小,计数器是全局的。 计数器分为以下几种: 1)内置计数器,内置的作业计数器实际上由jobtracker维护,而不必在整个网络中发送; 2)用户自定义的java计数器,由其关联任务维护,并定期传到tasktracker,再由tasktracker传给jobtracker,可以定义多个枚举类型,每个枚举类型有多个字... 阅读全文
posted @ 2013-06-08 00:10 superLuc 阅读(1710) 评论(0) 推荐(0) 编辑
  2013年6月6日
摘要: Hadoop学习有一段时间了,但是缺乏练手的项目,老是学了又忘。想想该整理一个学习笔记啥的,这年头打字比写字方便。果断开博客,咩哈哈~~ 开场白结束(木有文艺细胞) 默认的MapReduce作业import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import ... 阅读全文
posted @ 2013-06-06 00:12 superLuc 阅读(2555) 评论(0) 推荐(0) 编辑
  2013年6月4日
摘要: 转帖,还是转帖哈希码产生的依据:哈希码并不是完全唯一的,它是一种算法,让同一个类的对象按照自己不同的特征尽量的有不同的哈希码,但不表示不同的对象哈希码完全不同。也有相同的情况,看程序员如何写哈希码的算法。 下面给出几个常用的哈希码的算法。 1:Object类的hashCode.返回对象的内存地址经过处理后的结构,由于每个对象的内存地址都不一样,所以哈希码也不一样。 2:String类的hashCode.根据String类包含的字符串的内容,根据一种特殊算法返回哈希码,只要字符串内容相同,返回的哈希码也相同。 3:Integer类,返回的哈希码就是Integer对象里所包含的那个整数的数... 阅读全文
posted @ 2013-06-04 22:01 superLuc 阅读(174) 评论(0) 推荐(0) 编辑
摘要: 中软国际电子政务部Jeff Chi总结,转载请说明出处。概述:A.==可用于基本类型和引用类型:当用于基本类型时候,是比较值是否相同;当用于引用类型的时候,是比较对象是否相同。B.对于String a = “a”; Integer b = 1;这种类型的特有对象创建方式,==的时候值是相同的。C.基本类型没有equals方法,equals只比较值(对象中的内容)是否相同(相同返回true)。D.一个类如果没有定义equals方法,它将默认继承Object中的equals方法,返回值与==方法相同。详述:①==和equals的实质。在JAVA中利用"=="比较变量时,系统使用 阅读全文
posted @ 2013-06-04 19:40 superLuc 阅读(206) 评论(0) 推荐(0) 编辑