随笔分类 - BigData相关
摘要:1 import java.util.Map; 2 3 import backtype.storm.Config; 4 import backtype.storm.LocalCluster; 5 import backtype.storm.spout.SpoutOutputCollector; 6 import backtype.storm.task.OutputC...
阅读全文
摘要:1 import java.util.Collection; 2 import java.util.Date; 3 4 import org.apache.solr.client.solrj.SolrQuery; 5 import org.apache.solr.client.solrj.impl.HttpSolrServer; 6 import org.apach...
阅读全文
摘要:1 2 18 19 47 48 49 = 1.4 62 1.5: omitNorms defaults to true for primitive field types 63 (int, float, boolean, string...) 64 --> 65 66 ...
阅读全文
摘要:按照k2排序,要求k2必须是可以比较的,即必须实现WritableComparable接口。 但是如果还想让别的字段(比如v2中的一些字段)参与排序怎么办? 需要重新定义k2....把需要参与排序的字段都放到k2中. 这块用代码实现: 假如数据现在的结构是 3 3 3 2 3 1 2 2 2 1 1
阅读全文
摘要:自定义一个Observer... 总共分五步: 1°、继承BaseMasterObserver 案例(当在HBase中创建表的时候在日志中有相关输出): 2°、打成jar 包,放到hbase 的lib 目录下 3°、修改hbase 的配置文件hbase-site.xml 文件 (hbase-site
阅读全文
摘要:附录代码: HBase >HDFS HDFS >HBase 通过MR导入到HBase
阅读全文
摘要:如果是DDL的操作就找HbaseAdmin. 如果是表上的增删改查的操作就找HTable. 附录代码:
阅读全文
摘要:使用JDBC访问HIVE: 首先启动hive的JDBC服务. 进入hive的bin目录: 这样启动是启动到前台.如果 要想启动到后台需要用到Linux的相关命令. 我们先把其放到前台看下效果,之后再把它放到后台. 查看这个启动的服务是否已经能够监听到了. 这之后就可以编写JDBC代码了. 以word
阅读全文
摘要:Hive的自定义的函数的步骤: 1°、自定义UDF extends org.apache.hadoop.hive.ql.exec.UDF 2°、需要实现evaluate函数,evaluate函数支持重载 3°、把程序打包放到目标机器上去 4°、进入hive客户端,添加jar包:hive>add ja
阅读全文
摘要:1.Map端的Combiner. 通过单词计数WordCountApp.java的例子,如何在Map端设置Combiner... 只附录部分代码: 2.Reduce端的Partitioner. 以流量统计TrafficCountApp.java的例子示例Reduce端设置Partitioner. 只
阅读全文
摘要:HDFS上不适合存储小文件,因为如果有很多的小文件,上传到HDFS集群,每个文件都会对应一个block块,一个block块的大小默认是128M,对于很多的小文件来说占用了非常多的block数量,就会影响到内存的消耗, MapReduce处理这些文件的话也是需要很多的Map来处理. HDFS提供的小文
阅读全文
摘要:三:查看结果 打包上传到Hadoop集群,然后执行命令运行.详细运行过程不再写了......... // 程序二:
阅读全文
摘要:要统计的文件的文件名为hello hello中的内容如下 hello you hello me 通过MapReduce程序统计出文件中的各个单词出现了几次.(两个单词之间通过tab键进行的分割) 通过运行Yarn集群查看Map日志得到的输出结果: 查看Reduce日志产看到的输出结果: // 以下程
阅读全文
摘要:使用Java序列化接口对应的磁盘上的文件: 共175个字节 使用Hadoop序列化机制对应的磁盘文件: 共12字节 如果类中有继承关系: 这样序列化到磁盘上的文件: 13个字节 多了一个boolean属性,相比上面多了一个字节. 如果实例化对象中含有类对象. 如果我们Student中有个字段是Wri
阅读全文
摘要:课程安排Partitioner编程**自定义排序编程**Combiner编程**常见的MapReduce算法**---------------------------加深拓展----------------------Mapreduce原理及源码分析Partitioner编程Partitioner是...
阅读全文
摘要:1\在vmware中更改了虚拟机的网络类型,--->NAT方式,(虚拟交换机的ip可以从vmvare的edit-->vertual network editor看到)2、根据这个交换机(网关)的地址,来设置我们的客户端windown7的ip(Vmnet8这块网卡)3、启动linux主机,修改linu...
阅读全文
摘要:1.准备Linux环境 1.0点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.1.0 子网掩码:255.255.255.0 -> apply -> ok 回到windo...
阅读全文
摘要:课程安排 问题:怎样解决海量数据的计算? MapReduce概述 lMapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题. lMR由两个阶段组成:Map和Reduce,用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单。
阅读全文
摘要:Plan:分布式文件系统与HDFSHDFS体系结构与基本概念HDFS的shell操作java接口及常用apiHADOOP的RPC机制HDFS源码分析远程debug自己设计一分布式文件系统?Distributed File System1.数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到...
阅读全文

浙公网安备 33010602011771号