02 2015 档案

摘要:hadoop存在多种日志文件,其中master上的日志文件记录全面信息,包括slave上的jobtracker与datanode也会将错误信息写到master中。而slave中的日志主要记录完成的task任务信息。默认情况下,hadoop日志保存在HADOOP_INSTALL/logs目录,但一般情... 阅读全文
posted @ 2015-02-28 20:37 eagleGeek 阅读(1003) 评论(0) 推荐(0)
摘要:一、Nutch日志实现方式1、Nutch使用slf4j作为日志接口,使用log4j作为具体实现。关于二者的基础,请参考http://blog.csdn.net/jediael_lu/article/details/43854571http://blog.csdn.net/jediael_lu/art... 阅读全文
posted @ 2015-02-17 20:14 eagleGeek 阅读(155) 评论(0) 推荐(0)
摘要:使用slf4j作为日志系统时,由于slf4j只是一个接口,它需要一个具体实现来执行。具体参考http://blog.csdn.net/jediael_lu/article/details/43854571由于slf4j统一了API接口,因此,若log4j实现来日志输出,则只需要设置配置文件的内容即可... 阅读全文
posted @ 2015-02-17 10:58 eagleGeek 阅读(185) 评论(0) 推荐(0)
摘要:slf4j只是一个门面(facet),它不包含具体的实现,而是将一些log4j,java.logging等实现包装成统一的接口。借用下图展示了常用日志文件的关系: 通过上面的图,可以简单的理清关系! commons-logging和slf4j都是日志的接口,供用户使用,而没有提供实现! lo... 阅读全文
posted @ 2015-02-16 20:36 eagleGeek 阅读(398) 评论(0) 推荐(0)
摘要:在日志中常用的记录当前时间及程序运行时长的方法: public void inject(Path urlDir) throws Exception { SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); ... 阅读全文
posted @ 2015-02-16 17:55 eagleGeek 阅读(265) 评论(0) 推荐(0)
摘要:一、Avro的基本功能1、定义了数据模式文件的语法,一般使用json文件。以及一些数据基本类型与复杂类型。2、定义了数据序列化到文件后的数据格式,此格式可供各种语言进行读取。3、为部分语言定义了序列化文件的读取API,如JAVA等。4、扩展了hadoop的基本mapreduce,提供了用于使用Avr... 阅读全文
posted @ 2015-02-14 19:56 eagleGeek 阅读(208) 评论(0) 推荐(0)
摘要:第一部分:编码基础为什么需要编码:用计算机看得懂的语言(二进制数)表示各种各样的字符。一、基本概念ASCII、Unicode、big5、GBK等为字符集,它们只定义了这个字符集内有哪些字符,以及分别用什么数字表示。而UTF-8与UTF-16则定义了Unicode字符集如何使用计算机看得懂的语言进行传... 阅读全文
posted @ 2015-02-11 15:11 eagleGeek 阅读(179) 评论(0) 推荐(0)
摘要:http://www.ibm.com/developerworks/cn/java/j-lo-chinesecoding/几种常见的编码格式为什么要编码不知道大家有没有想过一个问题,那就是为什么要编码?我们能不能不编码?要回答这个问题必须要回到计算机是如何表示我们人类能够理解的符号的,这些符号也就是... 阅读全文
posted @ 2015-02-10 21:09 eagleGeek 阅读(183) 评论(0) 推荐(0)
摘要:简单来说,unicode,gbk和大五码就是编码的值,而utf-8,uft-16之类就是这个值的表现形式.而前面那三种编码是一兼容的,同一个汉字,那三个码值是完全不一样的.如"汉"的uncode值与gbk就是不一样的,假设uncode为a040,gbk为b030,而uft-8码,就是把那个值表现的形... 阅读全文
posted @ 2015-02-10 21:07 eagleGeek 阅读(699) 评论(0) 推荐(0)
摘要:这两天抽时间又总结/整理了一下各种编码的实际编码方式,和在Java应用中的使用情况,在这里记录下来以便日后参考。为了构成一个完整的对文字编码的认识和深入把握,以便处理在Java开发过程中遇到的各种问题,特别是乱码问题,我觉得组成一个系列来描述和分析更好一些,包括三篇文章:第一篇:JAVA字符编码系列... 阅读全文
posted @ 2015-02-10 21:05 eagleGeek 阅读(160) 评论(0) 推荐(0)
摘要:http://blog.csdn.net/qinysong/article/details/1179489这两天抽时间又总结/整理了一下各种编码的实际编码方式,和在Java应用中的使用情况,在这里记录下来以便日后参考。为了构成一个完整的对文字编码的认识和深入把握,以便处理在Java开发过程中遇到的各... 阅读全文
posted @ 2015-02-10 21:03 eagleGeek 阅读(201) 评论(0) 推荐(0)
摘要:这两天抽时间又总结/整理了一下各种编码的实际编码方式,和在Java应用中的使用情况,在这里记录下来以便日后参考。为了构成一个完整的对文字编码的认识和深入把握,以便处理在Java开发过程中遇到的各种问题,特别是乱码问题,我觉得组成一个系列来描述和分析更好一些,包括三篇文章:第一篇:JAVA字符编码系列... 阅读全文
posted @ 2015-02-10 21:01 eagleGeek 阅读(219) 评论(0) 推荐(0)
摘要:nutch将从网页中抓取到的信息放入hbase数据库中,默认情况下表名为$crawlId_webpage,但表中的内容以16进制进行表示,直接scan或者通过Java API进行读取均只能读取到16进制信息。 因此nutch提供了readdb选项进行数据获取,将表中的内容读取到一个文本中。具体用法... 阅读全文
posted @ 2015-02-10 14:59 eagleGeek 阅读(215) 评论(0) 推荐(0)
摘要:转载自:http://www.cnblogs.com/liuling/p/2013-7-24-01.html另可参考:http://gengning938.blog.163.com/blog/static/128225381201141121326346/ 排序大的分类可以分为两种:内排序和外排序... 阅读全文
posted @ 2015-02-03 20:09 eagleGeek 阅读(157) 评论(0) 推荐(0)
摘要:1、设置job的基础属性Job job = new Job();job.setJarByClass(***.class);job.setJobName(“job name”);job.setNumReduce(2);2、设置Map与Reudce的类job.setMappgerClass(*.clas... 阅读全文
posted @ 2015-02-02 21:33 eagleGeek 阅读(607) 评论(0) 推荐(0)
摘要:1、 HBase is able to connect to ZooKeeper but the connection closes immediatelyhbase(main):001:0> listTABLE ERROR: org.apache.hadoop.hbase.ZooKeeperCon... 阅读全文
posted @ 2015-02-02 16:16 eagleGeek 阅读(273) 评论(0) 推荐(0)