随笔档案「2018年10月」 - IT晓白

java执行命令并通过libreoffice软件的方式将word转化成HTML的详细步骤解析

摘要：一、实现代码：import org.apache.commons.io.IOUtils;import java.io.File;import java.io.IOException;import java.io.InputStream;import java.ut... 阅读全文

posted @ 2018-10-30 21:12 IT晓白阅读(2075) 评论(0) 推荐(0)

Java通过Hadoop实现RPC通讯简单实例

摘要：准备pom文件中的maven依赖：jar包 org.apache.hadoop hadoop-common 2.7.5一、定义server端代码1.定义一个接口，该接口继承org.apache.hadoop.ipc.VersionedProtocol... 阅读全文

posted @ 2018-10-30 20:52 IT晓白阅读(363) 评论(0) 推荐(0)

大数据综合项目DocCloud之需求分析与功能实现详细（续更）

摘要：DocCloud项目需求项目背景：在一些大型企事业单位，工作中存在各种各样的工作文档，技术文档，规范等等。这些文档以word,xls,ppt,wps,pdf,txt存在。在此项目之前，文档的分享主要靠单位内部人员的互相发送。没有一个统一的平台对企业现存的各种文档进行统... 阅读全文

posted @ 2018-10-29 19:37 IT晓白阅读(358) 评论(0) 推荐(0)

CDH5 Hadoop集群完全离线安装步骤总结

摘要：https://www.zybuluo.com/sasaki/note/242142版本控制 @Title CDH5 Hadoop集群完全离线安装步骤总结 @Version v1.0 @Timestamp 2015-12-14 14:25 @Author Nichol... 阅读全文

posted @ 2018-10-27 21:25 IT晓白阅读(1388) 评论(0) 推荐(0)

Phoenix安装与使用文档超详细步骤

摘要：一、描述现有hbase的查询工具有很多如：Hive，Tez，Impala，Shark/Spark，Phoenix等。今天主要记录Phoenix。 phoenix，中文译为“凤凰”，很美的名字。Phoenix是由saleforce.... 阅读全文

posted @ 2018-10-25 21:29 IT晓白阅读(2230) 评论(0) 推荐(1)

HBASE的存储缺陷以及预分区的解决办法

摘要：【问题】 HBase中，表会被划分为1...n个Region，被托管在RegionServer中。Region二个重要的属性:StartKey与 EndKey表示这个Region维护的rowKey范围，当我们要读/写数据时，如果rowKey落在某个st... 阅读全文

posted @ 2018-10-24 21:00 IT晓白阅读(821) 评论(0) 推荐(0)

ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES)

摘要：问题描述：1.mysql命令直接能进去mysql2.mysql -uroot -p输入密码，报下面显示的错误.解决方案：1.首先关闭mysqlservice mysqld stop查看mysql状态service mysqld status2.设置使用命令跳过输入密码... 阅读全文

posted @ 2018-10-24 16:20 IT晓白阅读(139) 评论(0) 推荐(0)

Hbase 的javaAPI基本操作用在idea上的实现

摘要：1.保证集群开启：jps有如下进程2.pom文件中的依赖 4.0.0 com.zhiyou100 hbasedemo 1.0-SNAPSHOT UTF-8 1.4.8 ... 阅读全文

posted @ 2018-10-23 22:00 IT晓白阅读(1922) 评论(6) 推荐(0)

hadoop单机伪分布安装HBase-1.4.8详细步骤（亲测成功）

摘要：---------前提：安装hadoop、yarn、jdk1.下载解压1.1使用wget下载wget http://archive.apache.org/dist/hbase/1.4.8/hbase-1.4.8-bin.tar.gz1.2解压到/usr/local目录... 阅读全文

posted @ 2018-10-23 21:36 IT晓白阅读(697) 评论(0) 推荐(0)

使用hive脚本一键动态分区、分区又分桶以及脚本步骤详细详解（亲测成功）

摘要：一、动态分区以及从linux本地文件映射到hive表中。partitioned.sql脚本中的创造数据：mkdir /mytempcd mytempvi stu_score.txt1,zhangshan,50,12,lisi,67,13,tom,49,24,jery,... 阅读全文

posted @ 2018-10-19 22:22 IT晓白阅读(906) 评论(0) 推荐(0)

CentOS6.5安装MySQL5.7详细教程

摘要：CentOS6.5安装MySQL5.7详细教程对上述内容的详细说明：cat /etc/yum.repos.d/mysql-community.repo 中的调整情况阅读全文

posted @ 2018-10-18 19:29 IT晓白阅读(105) 评论(0) 推荐(0)

使用Sqoop将MySQL与HDFS数据导入导出

摘要：一、拷贝mysql数据表到hdfs上1.确保mysql可以远程连接, 防火墙等已关闭或开端口, hadoop已启动, hdfs可访问2.确保hdfs上不存在目标文件夹, sqoop会自动生成文件夹, 若已存在则报错，要么加上--delete-target-dir3.命... 阅读全文

posted @ 2018-10-18 13:34 IT晓白阅读(1177) 评论(0) 推荐(0)

CentOS6环境下安装sqoop详细步骤以及测试成功

摘要：1.下载sqoopwget http://mirror.bit.edu.cn/apache/sqoop/1.4.7/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz2.解压-安装tar -zxvf sqoop-1.4.7.bin__hadoop... 阅读全文

posted @ 2018-10-18 12:56 IT晓白阅读(362) 评论(0) 推荐(0)

hive2.*安装部署常见错误总结(连载)

摘要：异常一、java.lang.RuntimeExceptionException in thread "main" java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate... 阅读全文

posted @ 2018-10-16 13:56 IT晓白阅读(463) 评论(0) 推荐(0)

基于角色的访问控制（rbac）

摘要：1.在数据库中创建3张表格1.admin：用户表2.role：权限表3.admin_role:中间表（字段是两个表的主键）2.自定义注解：import java.lang.annotation.Retention;import java.lang.annotation... 阅读全文

posted @ 2018-10-15 21:18 IT晓白阅读(415) 评论(0) 推荐(0)

sqoop安装并配置连接数据库

摘要：1.下载sqoopwget http://mirror.bit.edu.cn/apache/sqoop/1.4.7/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz2解压-安装tar -zxvf sqoop-1.4.7.bin__hadoop-... 阅读全文

posted @ 2018-10-15 19:42 IT晓白阅读(2887) 评论(0) 推荐(0)

Mapreduce自定义数据类型

摘要：Hadoop自带的数据类型：Intwritable,LongWritable,Text,xxWritable. 某些情况下：使用自定义的数据类型方便一些（类似java中的pojo）。实现：实现writableComparable接口即可。场景例如：成绩表：由语文，数学... 阅读全文

posted @ 2018-10-15 12:39 IT晓白阅读(595) 评论(0) 推荐(0)

MapReduce入门（三）倒排索引

摘要：什么是倒排索引？倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因而称为倒排索引(inverted index)。带有倒... 阅读全文

posted @ 2018-10-13 15:50 IT晓白阅读(462) 评论(0) 推荐(0)

复合式MapReduce之ChainJob

摘要：依赖式的场景我们可以设想一下MapReduce有2个子任务job1，job2构成，job2要在job1完成之后才执行。job1：用上篇写的合并小文件job2：使用单词计数这种关系就叫复杂数据依赖关系的组合时mapreduce。hadoop为这种组合关系提供了一种执行和... 阅读全文

posted @ 2018-10-13 13:41 IT晓白阅读(381) 评论(1) 推荐(1)

MapReduce入门（二）合并小文件

摘要：hadoop为什么要合并小文件？小文件是指文件size小于HDFS上block大小的文件。这样的文件会给hadoop的扩展性和性能带来严重问题。首先，在HDFS中，任何block，文件或者目录在内存中均以对象的形式存储，每个对象约占150byte，如果... 阅读全文

posted @ 2018-10-13 13:20 IT晓白阅读(1797) 评论(0) 推荐(0)

完整教程--idea使用git进行项目管理

摘要：完整教程--idea使用git进行项目管理阅读全文

posted @ 2018-10-13 11:38 IT晓白阅读(108) 评论(0) 推荐(0)

error while loading shared libraries的解決方法

摘要：在linux下运行程序时，发现了error while loading shared libraries这种错误，一时间不知道解决办法，在网上搜索，终于解决了： ./tests: error while loading shared libraries: xxx.so... 阅读全文

posted @ 2018-10-12 18:59 IT晓白阅读(594) 评论(0) 推荐(0)

message from server: "Host is not allowed to connect to this MySQL server"解决办法

摘要：报错:1130-host ... is not allowed to connect to this MySql server解决方法：1. 改表法。可能是你的帐号不允许从远程登陆，只能在localhost。这个时候只要在localhost的那台电脑，登入mysql后... 阅读全文

posted @ 2018-10-11 12:52 IT晓白阅读(1146) 评论(0) 推荐(0)

MapReduce集群搭建

摘要：概述MapReduce运行在Hadoop集群上。但MapReduce是通过另外一批进程来运行的。HDFS的进程名是NameNode、SecondaryNameNode和DataNode；而MapReduce的进程名（可以通过JPS命令查看）是：ResourceMana... 阅读全文

posted @ 2018-10-09 22:05 IT晓白阅读(283) 评论(0) 推荐(0)

Hadoop参数配置超详细解析

摘要：hadoop参数配置阅读全文

posted @ 2018-10-09 21:18 IT晓白阅读(150) 评论(0) 推荐(0)

MapReduce入门（一）单词计数

摘要：一、MR计算模型的由来 MapReduce最早是由Google公司研究提出的一种面向大规模数据处理的并行计算模型和方法。Google公司设计MapReduce的初衷，主要是为了解决其搜索引擎中大规模网页数据的并行化处理。 Google公司发... 阅读全文

posted @ 2018-10-09 20:01 IT晓白阅读(924) 评论(0) 推荐(0)

单机伪分布集群搭建

摘要：单机伪分布：用一个节点模拟集群好处：方便测试，开发，占用资源小搭建方法：第一步：修改slaves文件，将master（主机名）写入文件中。第二步：修改hdfs-site.xml文件，将文件的副本数改成1（副本数小于等于节点数）。 replication ... 阅读全文

posted @ 2018-10-08 21:28 IT晓白阅读(246) 评论(0) 推荐(0)

Hadoopkms加密

摘要：一、目的：保证数据安全二、简介： Hadoop Key Management Server（KMS）是一个基于HadoopKeyProvider API编写的密钥管理服务器。他提供了一个client和一个server组件，client和server之间基于... 阅读全文

posted @ 2018-10-08 21:17 IT晓白阅读(1825) 评论(0) 推荐(1)

动态的添加和删除hadoop集群中的节点

摘要：一：添加节点步骤：1.新节点中添加账户，设置无密码登陆2.Name节点中设置到新节点的无密码登陆3.在Name节点slaves文件中添加新节点4.在所有节点/etc/hosts文件中增加新节点名5.cd /usr/local/hadoop hadoop-deamon... 阅读全文

posted @ 2018-10-08 20:54 IT晓白阅读(532) 评论(0) 推荐(0)

Hadoop机架感知

摘要：目的：增加性能原因：同机架io快。可以两个块部署统一机架的不同机器。前提是集群搭建开启成功1.查看机架感知：hdfs dfsadmin -printTopology2. 增加机架感知(一下都是在master（NameNode）上操作)a.修改core-site.x... 阅读全文

posted @ 2018-10-08 13:17 IT晓白阅读(273) 评论(0) 推荐(0)

一个双鱼座的列表儿

怪癖的鱼儿

10 2018 档案

公告