10 2018 档案

摘要:一、实现代码 :import org.apache.commons.io.IOUtils;import java.io.File;import java.io.IOException;import java.io.InputStream;import java.ut... 阅读全文
posted @ 2018-10-30 21:12 IT晓白 阅读(2075) 评论(0) 推荐(0)
摘要:准备pom文件中的maven依赖:jar包 org.apache.hadoop hadoop-common 2.7.5一、定义server端代码1.定义一个接口,该接口继承org.apache.hadoop.ipc.VersionedProtocol... 阅读全文
posted @ 2018-10-30 20:52 IT晓白 阅读(363) 评论(0) 推荐(0)
摘要:DocCloud项目需求项目背景:在一些大型企事业单位,工作中存在各种各样的工作文档,技术文档,规范等等。这些文档以word,xls,ppt,wps,pdf,txt存在。在此项目之前,文档的分享主要靠单位内部人员的互相发送。没有一个统一的平台对企业现存的各种文档进行统... 阅读全文
posted @ 2018-10-29 19:37 IT晓白 阅读(358) 评论(0) 推荐(0)
摘要:https://www.zybuluo.com/sasaki/note/242142版本控制 @Title CDH5 Hadoop集群完全离线安装步骤总结 @Version v1.0 @Timestamp 2015-12-14 14:25 @Author Nichol... 阅读全文
posted @ 2018-10-27 21:25 IT晓白 阅读(1388) 评论(0) 推荐(0)
摘要:一、描述 现有hbase的查询工具有很多如:Hive,Tez,Impala,Shark/Spark,Phoenix等。今天主要记录Phoenix。 phoenix,中文译为“凤凰”,很美的名字。Phoenix是由saleforce.... 阅读全文
posted @ 2018-10-25 21:29 IT晓白 阅读(2230) 评论(0) 推荐(1)
摘要:【问题】 HBase中,表会被划分为1...n个Region,被托管在RegionServer中。Region二个重要的属性:StartKey与 EndKey表示这个Region维护的rowKey范围,当我们要读/写数据时,如果rowKey落在某个st... 阅读全文
posted @ 2018-10-24 21:00 IT晓白 阅读(821) 评论(0) 推荐(0)
摘要:问题描述:1.mysql命令直接能进去mysql2.mysql -uroot -p输入密码,报下面显示的错误.解决方案:1.首先关闭mysqlservice mysqld stop查看mysql状态service mysqld status2.设置使用命令跳过输入密码... 阅读全文
posted @ 2018-10-24 16:20 IT晓白 阅读(139) 评论(0) 推荐(0)
摘要:1.保证集群开启:jps有如下进程2.pom文件中的依赖 4.0.0 com.zhiyou100 hbasedemo 1.0-SNAPSHOT UTF-8 1.4.8 ... 阅读全文
posted @ 2018-10-23 22:00 IT晓白 阅读(1922) 评论(6) 推荐(0)
摘要:---------前提:安装hadoop、yarn、jdk1.下载解压1.1使用wget下载wget http://archive.apache.org/dist/hbase/1.4.8/hbase-1.4.8-bin.tar.gz1.2解压到/usr/local目录... 阅读全文
posted @ 2018-10-23 21:36 IT晓白 阅读(697) 评论(0) 推荐(0)
摘要:一、动态分区以及从linux本地文件映射到hive表中。partitioned.sql脚本中的创造数据:mkdir /mytempcd mytempvi stu_score.txt1,zhangshan,50,12,lisi,67,13,tom,49,24,jery,... 阅读全文
posted @ 2018-10-19 22:22 IT晓白 阅读(906) 评论(0) 推荐(0)
摘要:CentOS6.5安装MySQL5.7详细教程对上述内容的详细说明:cat /etc/yum.repos.d/mysql-community.repo 中的调整情况 阅读全文
posted @ 2018-10-18 19:29 IT晓白 阅读(105) 评论(0) 推荐(0)
摘要:一、拷贝mysql数据表到hdfs上1.确保mysql可以远程连接, 防火墙等已关闭或开端口, hadoop已启动, hdfs可访问2.确保hdfs上不存在目标文件夹, sqoop会自动生成文件夹, 若已存在则报错,要么加上--delete-target-dir3.命... 阅读全文
posted @ 2018-10-18 13:34 IT晓白 阅读(1177) 评论(0) 推荐(0)
摘要:1.下载sqoopwget http://mirror.bit.edu.cn/apache/sqoop/1.4.7/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz2.解压-安装tar -zxvf sqoop-1.4.7.bin__hadoop... 阅读全文
posted @ 2018-10-18 12:56 IT晓白 阅读(362) 评论(0) 推荐(0)
摘要:异常一、java.lang.RuntimeExceptionException in thread "main" java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate... 阅读全文
posted @ 2018-10-16 13:56 IT晓白 阅读(463) 评论(0) 推荐(0)
摘要:1.在数据库中创建3张表格1.admin:用户表2.role:权限表3.admin_role:中间表(字段是两个表的主键)2.自定义注解:import java.lang.annotation.Retention;import java.lang.annotation... 阅读全文
posted @ 2018-10-15 21:18 IT晓白 阅读(415) 评论(0) 推荐(0)
摘要:1.下载sqoopwget http://mirror.bit.edu.cn/apache/sqoop/1.4.7/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz2解压-安装tar -zxvf sqoop-1.4.7.bin__hadoop-... 阅读全文
posted @ 2018-10-15 19:42 IT晓白 阅读(2887) 评论(0) 推荐(0)
摘要:Hadoop自带的数据类型:Intwritable,LongWritable,Text,xxWritable. 某些情况下:使用自定义的数据类型方便一些(类似java中的pojo)。实现:实现writableComparable接口即可。场景例如:成绩表:由语文,数学... 阅读全文
posted @ 2018-10-15 12:39 IT晓白 阅读(595) 评论(0) 推荐(0)
摘要:什么是倒排索引? 倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。带有倒... 阅读全文
posted @ 2018-10-13 15:50 IT晓白 阅读(462) 评论(0) 推荐(0)
摘要:依赖式的场景我们可以设想一下MapReduce有2个子任务job1,job2构成,job2要在job1完成之后才执行。job1:用上篇写的合并小文件job2:使用单词计数这种关系就叫复杂数据依赖关系的组合时mapreduce。hadoop为这种组合关系提供了一种执行和... 阅读全文
posted @ 2018-10-13 13:41 IT晓白 阅读(381) 评论(1) 推荐(1)
摘要:hadoop为什么要合并小文件? 小文件是指文件size小于HDFS上block大小的文件。这样的文件会给hadoop的扩展性和性能带来严重问题。首先,在HDFS中,任何block,文件或者目录在内存中均以对象的形式存储,每个对象约占150byte,如果... 阅读全文
posted @ 2018-10-13 13:20 IT晓白 阅读(1797) 评论(0) 推荐(0)
摘要:完整教程--idea使用git进行项目管理 阅读全文
posted @ 2018-10-13 11:38 IT晓白 阅读(108) 评论(0) 推荐(0)
摘要:在linux下运行程序时,发现了error while loading shared libraries这种错误,一时间不知道解决办法,在网上搜索,终于解决了: ./tests: error while loading shared libraries: xxx.so... 阅读全文
posted @ 2018-10-12 18:59 IT晓白 阅读(594) 评论(0) 推荐(0)
摘要:报错:1130-host ... is not allowed to connect to this MySql server解决方法:1. 改表法。可能是你的帐号不允许从远程登陆,只能在localhost。这个时候只要在localhost的那台电脑,登入mysql后... 阅读全文
posted @ 2018-10-11 12:52 IT晓白 阅读(1146) 评论(0) 推荐(0)
摘要:概述MapReduce运行在Hadoop集群上。但MapReduce是通过另外一批进程来运行的。HDFS的进程名是NameNode、SecondaryNameNode和DataNode;而MapReduce的进程名(可以通过JPS命令查看)是:ResourceMana... 阅读全文
posted @ 2018-10-09 22:05 IT晓白 阅读(283) 评论(0) 推荐(0)
摘要:hadoop参数配置 阅读全文
posted @ 2018-10-09 21:18 IT晓白 阅读(150) 评论(0) 推荐(0)
摘要:一、MR计算模型的由来 MapReduce最早是由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法。Google公司设计MapReduce的初衷,主要是为了解决其搜索引擎中大规模网页数据的并行化处理。 Google公司发... 阅读全文
posted @ 2018-10-09 20:01 IT晓白 阅读(924) 评论(0) 推荐(0)
摘要:单机伪分布:用一个节点模拟集群好处:方便测试,开发,占用资源小搭建方法:第一步:修改slaves文件,将master(主机名)写入文件中。第二步:修改hdfs-site.xml文件,将文件的副本数改成1(副本数小于等于节点数)。 replication ... 阅读全文
posted @ 2018-10-08 21:28 IT晓白 阅读(246) 评论(0) 推荐(0)
摘要:一、目的:保证数据安全 二、简介: Hadoop Key Management Server(KMS)是一个基于HadoopKeyProvider API编写的密钥管理服务器。他提供了一个client和一个server组件,client和server之间基于... 阅读全文
posted @ 2018-10-08 21:17 IT晓白 阅读(1825) 评论(0) 推荐(1)
摘要:一:添加节点步骤:1.新节点中添加账户,设置无密码登陆2.Name节点中设置到新节点的无密码登陆3.在Name节点slaves文件中添加新节点4.在所有节点/etc/hosts文件中增加新节点名5.cd /usr/local/hadoop hadoop-deamon... 阅读全文
posted @ 2018-10-08 20:54 IT晓白 阅读(532) 评论(0) 推荐(0)
摘要:目的:增加性能原因:同机架io快。可以两个块部署统一机架的不同机器。前提是集群搭建开启成功1.查看机架感知:hdfs dfsadmin -printTopology2. 增加机架感知(一下都是在master(NameNode)上操作)a.修改core-site.x... 阅读全文
posted @ 2018-10-08 13:17 IT晓白 阅读(273) 评论(0) 推荐(0)