随笔分类 - BigData
摘要:1 Hive操作 1.1 创建数据库 create database if not exists myhive; use myhive; 1.2 创建表 row format delimited fields terminated by ',':指定字段之间的分隔符stored as textfil
阅读全文
摘要:将.txt格式文件插入Hbase中,代码如下 package addHbase; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.ap
阅读全文
摘要:1 HDFS的必会Java操作 1.1 创建目录 //创建目录 public static void mkdir(String filePath) throws URISyntaxException, IOException, InterruptedException{ FileSystem fs
阅读全文
摘要:1 Hbase常用shell命令 1.1 进入命令行 hbase shell 1.2 常用命令 help 查看命令的使用描述 help '命令名' whoami 身份(root、user) whoami version 返回hbase版本信息 version status 返回hbase集群的状态信
阅读全文
摘要:一、MapReduce案例-流量统计 源数据 源代码 1: 需求一: 统计求和 统计每个手机号的上行数据包总和,下行数据包总和,上行总流量之和,下行总流量之和 分析:以手机号码作为key值,上行流量,下行流量,上行总流量,下行总流量四个字段作为value值,然后以这个key,和value作为map阶
阅读全文
摘要:1、MapReduce 排序和序列化 序列化 (Serialization) 是指把结构化对象转化为字节流 反序列化 (Deserialization) 是序列化的逆过程. 把字节流转为结构化对象. 当要在进程间传递对象或持久化对象的时候, 就需要序列化对象成字节流, 反之当要将接收到或从磁盘读取的
阅读全文
摘要:一、Hadoop-Mapreduce 1. MapReduce 介绍 MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。 Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行
阅读全文
摘要:一、HDFS 的 API 操作 导入maven依赖 <dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>2.7.5</vers
阅读全文
摘要:1、HDFS 文件写入过程 2、HDFS 文件读取过程 3、HDFS 的元数据辅助管理 当 Hadoop 的集群当中, NameNode的所有元数据信息都保存在了 FsImage 与 Eidts 文件当中, 这两个文件就记录了所有的数据的元数据信息 edits edits 存放了客户端最近一段时间的
阅读全文
摘要:一、hdfs的高级使用命令 hdfs dfs -count -q -h /user/root/dir1 #查看配额信息 1、数量限额 hdfs dfs -mkdir -p /user/root/dir #创建hdfs文件夹 hdfs dfsadmin -setQuota 2 dir # 给该文件夹下
阅读全文
摘要:一、hdfs的命令行使用 1、ls 格式:hdfs dfs -ls URI 作用:类似于Linux的ls命令,显示文件列表 2、-ls -R 格式 : hdfs dfs -ls -R URI 作用: 在整个目录下递归执行ls, 与UNIX中的ls-R类似 3、mkdir 格式:hdfs dfs [-
阅读全文
摘要:Hadoop 核心-HDFS 一、HDFS概述 在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在 集群上的文件系统称为分布式文件系统 。HDFS(Hadoop Distributed File System)是 Apache Hadoop 项目的一个子项目. Hado
阅读全文
摘要:一、Znode节点属性 dataVersion:数据版本, 每次当 Znode 中的数据发生变化的时候, dataVersion都会自增一下cversion:节点版本, 每次当 Znode 的节点发生变化的时候, cversion 都会自增aclVersion:ACL(Access Control
阅读全文
摘要:一、Zookeeper 1、Zookeeper理解 概念:Zookeeper 是一个开源的分布式协调服务框架 ,主要用来解决分布式集群中应用系统的一致性问题和数据管理问题 特点:Zookeeper 本质上是一个分布式文件系统, 适合存放小文件,也可以理解为一个数据库。 Zookeeper 中存储的其
阅读全文
摘要:四、shell编程 1、案例 案例01:基本语法 案例02:局部变量 案例03:特殊字符 案例04:运算符 例05:if语句 案例06:for语句 案例07:函数
阅读全文
摘要:三、BI数据可视化平台—Superset Superset是一款开源的现代化企业级BI。它是目前开源的数据分析和可视化工具中比较好用的,功能简单但可以满足我们对数据的基本需求,支持多种数据源,图表类型多,易维护,易进行二次开发。 1、入门案例:将数据库里的数据按照要求进行可视化展示 摘要:通过跟随视
阅读全文
摘要:二、可视化ETL平台——Kettle ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经(extrac过抽取t)、转换(transform)、加载(load)至目的端的过程。ETL是将业务系统的数据经过抽取、清洗、转换之后加载到数据仓库的过程,目的是将分散、零
阅读全文
摘要:7、压缩、解压 ①解压:tar -zxvf 压缩文件 [-C] [指定解压目录] tar -zxvf redis-3.2.8.tar.gz #将文件解压到当前目录 tar -zxvf redis-3.2.8.tar.gz -C /root/dir #将文件解压到指定目录 ②压缩:tar -c[z]v
阅读全文
摘要:一、Linux终端命令 1、 显示文件列表命令:ls 例: ls #查看当前目录内容 (缺点: 隐藏文件看不到) ls -a #查看当前目录内容 ,包括隐藏文件 ls -al #查看目录内容的详细信息(查看文件类型、权限、大小等) ls -lh #查看目录内容的详细信息,以K,M,G方式显示文件大小
阅读全文