cangos

  博客园 :: 首页 :: 新随笔 :: 联系 :: 订阅 :: 管理 ::

随笔分类 -  HADOOP

摘要:1、编写UDF函数,来将原来创建的buck_ip_test表中的英文国籍转换成中文 iptest.txt文件内容: 表数据截图: UdfTest.java代码如下: 在eclipse测试无问题后,导出成utftest.jar并上传到服务器的/opt目录 然后在Hive中进行查询: 执行结果如下图: 阅读全文
posted @ 2017-03-02 15:07 cangos 阅读(9008) 评论(0) 推荐(0)

摘要:一、Hive基本原理 hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类似sql查询(HQL)功能,可以将sql语句转换为MapReduce任务,避免开发专门的MapReduce应用,十分适合数据仓库的统计分析。 Hive将元数据存储在数据库(RDBMS 阅读全文
posted @ 2017-02-23 21:37 cangos 阅读(447) 评论(0) 推荐(0)

摘要:mapreduce中的reduce数量是由什么来进行控制的呢? 1、numReduceTasks 如下是用来进行测试的一段wordcount的代码 将上述代码打包成 parttest.jar,并上传到服务器的opt目录 创建文件/opt/test.txt,并上传到hdfs的/tmp目录下 文本内容如 阅读全文
posted @ 2017-02-22 18:21 cangos 阅读(7688) 评论(0) 推荐(1)

摘要:3、流量监控汇总(使用LongWritable实现) 代码: 输出: 4、流量监控汇总(使用自定义的writable类NetflowWritable实现) 输出: 阅读全文
posted @ 2017-02-22 11:43 cangos 阅读(324) 评论(0) 推荐(0)

摘要:本文中的代码基于CDH的5.6版本编写 1、MrTest程序,模拟wordcount 输入文件: 代码: 2、求最低温度 代码: 阅读全文
posted @ 2017-02-20 23:29 cangos 阅读(266) 评论(0) 推荐(0)