BigData相关 - 随笔分类(第3页) - SummerChill

Storm实现数字累加Demo

摘要：1 import java.util.Map; 2 3 import backtype.storm.Config; 4 import backtype.storm.LocalCluster; 5 import backtype.storm.spout.SpoutOutputCollector; 6 import backtype.storm.task.OutputC... 阅读全文

posted @ 2016-08-16 07:51 SummerChill 阅读(422) 评论(0) 推荐(0)

Solr中初学Demo

摘要：1 import java.util.Collection; 2 import java.util.Date; 3 4 import org.apache.solr.client.solrj.SolrQuery; 5 import org.apache.solr.client.solrj.impl.HttpSolrServer; 6 import org.apach... 阅读全文

posted @ 2016-08-14 17:23 SummerChill 阅读(1296) 评论(0) 推荐(0)

Solr中Schema.xml中文版

摘要：1 2 18 19 47 48 49 = 1.4 62 1.5: omitNorms defaults to true for primitive field types 63 (int, float, boolean, string...) 64 --> 65 66 ... 阅读全文

posted @ 2016-08-13 17:39 SummerChill 阅读(1203) 评论(0) 推荐(0)

MapReduce按照两个字段对数据进行排序

摘要：按照k2排序，要求k2必须是可以比较的，即必须实现WritableComparable接口。但是如果还想让别的字段(比如v2中的一些字段)参与排序怎么办? 需要重新定义k2....把需要参与排序的字段都放到k2中. 这块用代码实现: 假如数据现在的结构是 3 3 3 2 3 1 2 2 2 1 1 阅读全文

posted @ 2016-07-17 11:26 SummerChill 阅读(2058) 评论(0) 推荐(0)

自定义HBase的协处理器(Observer)

摘要：自定义一个Observer... 总共分五步: 1°、继承BaseMasterObserver 案例(当在HBase中创建表的时候在日志中有相关输出): 2°、打成jar 包，放到hbase 的lib 目录下 3°、修改hbase 的配置文件hbase-site.xml 文件 (hbase-site 阅读全文

posted @ 2016-06-14 10:30 SummerChill 阅读(982) 评论(0) 推荐(0)

MapReduce的方式进行HBase向HDFS导入和导出

摘要：附录代码: HBase >HDFS HDFS >HBase 通过MR导入到HBase 阅读全文

posted @ 2016-06-14 10:28 SummerChill 阅读(1297) 评论(0) 推荐(0)

HBase的JavaAPI操作

摘要：如果是DDL的操作就找HbaseAdmin. 如果是表上的增删改查的操作就找HTable. 附录代码: 阅读全文

posted @ 2016-06-09 10:25 SummerChill 阅读(656) 评论(0) 推荐(0)

Hive的JDBC使用&并把JDBC放置后台运行

摘要：使用JDBC访问HIVE: 首先启动hive的JDBC服务. 进入hive的bin目录: 这样启动是启动到前台.如果要想启动到后台需要用到Linux的相关命令. 我们先把其放到前台看下效果,之后再把它放到后台. 查看这个启动的服务是否已经能够监听到了. 这之后就可以编写JDBC代码了. 以word 阅读全文

posted @ 2016-06-05 17:10 SummerChill 阅读(1715) 评论(0) 推荐(0)

Hive中自定义函数

摘要：Hive的自定义的函数的步骤: 1°、自定义UDF extends org.apache.hadoop.hive.ql.exec.UDF 2°、需要实现evaluate函数，evaluate函数支持重载 3°、把程序打包放到目标机器上去 4°、进入hive客户端，添加jar包：hive>add ja 阅读全文

posted @ 2016-06-05 17:01 SummerChill 阅读(15560) 评论(0) 推荐(0)

MapReduce在Map端的Combiner和在Reduce端的Partitioner

摘要：1.Map端的Combiner. 通过单词计数WordCountApp.java的例子,如何在Map端设置Combiner... 只附录部分代码: 2.Reduce端的Partitioner. 以流量统计TrafficCountApp.java的例子示例Reduce端设置Partitioner. 只阅读全文

posted @ 2016-05-17 22:27 SummerChill 阅读(404) 评论(1) 推荐(0)

MapReduce中使用SequenceFile的方式上传文件到集群中

摘要：HDFS上不适合存储小文件,因为如果有很多的小文件,上传到HDFS集群,每个文件都会对应一个block块,一个block块的大小默认是128M,对于很多的小文件来说占用了非常多的block数量,就会影响到内存的消耗, MapReduce处理这些文件的话也是需要很多的Map来处理. HDFS提供的小文阅读全文

posted @ 2016-05-17 00:42 SummerChill 阅读(954) 评论(0) 推荐(0)

MapReduce的手机流量统计的案例

摘要：三:查看结果打包上传到Hadoop集群,然后执行命令运行.详细运行过程不再写了......... // 程序二: 阅读全文

posted @ 2016-05-15 11:15 SummerChill 阅读(769) 评论(0) 推荐(0)

关于MapReduce单词统计的例子:

摘要：要统计的文件的文件名为hello hello中的内容如下 hello you hello me 通过MapReduce程序统计出文件中的各个单词出现了几次.(两个单词之间通过tab键进行的分割) 通过运行Yarn集群查看Map日志得到的输出结果: 查看Reduce日志产看到的输出结果: // 以下程阅读全文

posted @ 2016-05-14 15:03 SummerChill 阅读(3647) 评论(0) 推荐(0)

关于Java序列化和Hadoop的序列化

摘要：使用Java序列化接口对应的磁盘上的文件: 共175个字节使用Hadoop序列化机制对应的磁盘文件: 共12字节如果类中有继承关系: 这样序列化到磁盘上的文件: 13个字节多了一个boolean属性,相比上面多了一个字节. 如果实例化对象中含有类对象. 如果我们Student中有个字段是Wri 阅读全文

posted @ 2016-05-10 00:34 SummerChill 阅读(487) 评论(0) 推荐(0)

[BigData]关于Hadoop学习笔记第四天(PPT总结)(一)

摘要：课程安排Partitioner编程**自定义排序编程**Combiner编程**常见的MapReduce算法**---------------------------加深拓展----------------------Mapreduce原理及源码分析Partitioner编程Partitioner是... 阅读全文

posted @ 2015-06-19 15:47 SummerChill 阅读(527) 评论(0) 推荐(0)

关于搭建haddoop分布式系统的全部过程复习

摘要：1\在vmware中更改了虚拟机的网络类型，--->NAT方式，（虚拟交换机的ip可以从vmvare的edit-->vertual network editor看到）2、根据这个交换机（网关）的地址，来设置我们的客户端windown7的ip（Vmnet8这块网卡）3、启动linux主机,修改linu... 阅读全文

posted @ 2015-06-18 14:19 SummerChill 阅读(559) 评论(0) 推荐(0)

关于hadoop2.4.1伪分布式系统的搭建

摘要：1.准备Linux环境 1.0点击VMware快捷方式，右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段：192.168.1.0 子网掩码：255.255.255.0 -> apply -> ok 回到windo... 阅读全文

posted @ 2015-06-18 14:16 SummerChill 阅读(266) 评论(0) 推荐(0)

[BigData]关于Hadoop学习笔记第三天(PPT总结)(一)

摘要：课程安排问题：怎样解决海量数据的计算？ MapReduce概述 lMapReduce是一种分布式计算模型，由Google提出，主要用于搜索领域，解决海量数据的计算问题. lMR由两个阶段组成：Map和Reduce，用户只需要实现map()和reduce()两个函数，即可实现分布式计算，非常简单。阅读全文

posted @ 2015-06-12 18:25 SummerChill 阅读(603) 评论(0) 推荐(0)

[BigData]关于Hadoop学习笔记第二天(PPT总结)(一)

摘要：Plan:分布式文件系统与HDFSHDFS体系结构与基本概念HDFS的shell操作java接口及常用apiHADOOP的RPC机制HDFS源码分析远程debug自己设计一分布式文件系统？Distributed File System1.数据量越来越多，在一个操作系统管辖的范围存不下了，那么就分配到... 阅读全文

posted @ 2015-06-10 17:37 SummerChill 阅读(492) 评论(0) 推荐(0)

SummerChillCoder

随笔分类 - BigData相关

公告