大数据技术栈 - 随笔分类(第8页) - kris12

Hive| ETL清洗& 查询练习

摘要：ETL清洗数据导Jar包 <dependencies> <dependency> <groupId>log4j</groupId> <artifactId>log4j</artifactId> <version>RELEASE</version> </dependency> <dependency 阅读全文

posted @ 2019-02-21 23:29 kris12 阅读(1031) 评论(0) 推荐(0)

Flume

摘要：概述 http://flume.apache.org/FlumeUserGuide.html http://flume.apache.org/ http://archive.apache.org/dist/flume/ Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、阅读全文

posted @ 2019-02-21 23:29 kris12 阅读(906) 评论(0) 推荐(0)

Hive-04 压缩| 存储

摘要：一、Hadoop压缩配置 MR支持的压缩编码压缩格式算法文件扩展名是否可切分 DEFLATE DEFLATE .deflate 否 Gzip DEFLATE .gz 否 bzip2 bzip2 .bz2 是 LZO LZO .lzo 是 Snappy Snappy .snappy 否为了支阅读全文

posted @ 2019-02-20 00:40 kris12 阅读(691) 评论(0) 推荐(0)

Hive-03-1 查询

摘要：Hive中执行SQL语句时，出现类似于“Display all 469 possibilities? (y or n)”的错误，根本原因是因为SQL语句中存在tab键导致，tab键在linux系统中是有特殊含义的。查询 1. 基本查询 desc formatted stu_buck; desc 阅读全文

posted @ 2019-02-16 13:25 kris12 阅读(1016) 评论(0) 推荐(0)

Hive-02 DDL| DML

摘要：1. Hive数据类型基本数据类型 Hive数据类型 Java数据类型长度例子 TINYINT byte 1byte有符号整数 20 SMALINT short 2byte有符号整数 20 INT int 4byte有符号整数 20 BIGINT long 8byte有符号整数 20 BOOL 阅读全文

posted @ 2019-02-16 13:24 kris12 阅读(518) 评论(0) 推荐(0)

Hive-01 配置| 架构原理

摘要：Hive：由Facebook开源用于解决海量结构化日志的数据统计工具。 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序 1）Hive处理的数据存储在HDFS 2）Hive分析数据底层的实现是Ma 阅读全文

posted @ 2019-02-13 23:44 kris12 阅读(897) 评论(0) 推荐(0)

Hadoop| HDFS-HA高可用 | Yarn-HA

摘要：1. HDFS-HA 在分布式文件系统 HDFS 中，NameNode 是 master 角色，当 NameNode 出现故障后，整个 HDFS 将不可用，所以保证 NameNode 的稳定性至关重要。在 Hadoop1.x 版本中，HDFS 只支持一个 NameNode，为了保证稳定性，只能靠 S 阅读全文

posted @ 2019-02-13 22:46 kris12 阅读(1018) 评论(0) 推荐(2)

JavaSE| 泛型

摘要：泛型泛型：对后续所有操作的类型做约束，对后续操作起作用，对之前的不起作用；对类型进行约束；父 > 子，从范围上，父范围小，子范围大；把范围小的给范围大的， JDK1.5改写了集合框架中的全部接口和类，为这些接口、类增加了“类型形参”，这个类型形参将在声明变量、创建对象时确定，即传入实际的类型，阅读全文

posted @ 2019-02-07 20:06 kris12 阅读(226) 评论(0) 推荐(0)

SSM整合

摘要：查看不同MyBatis版本整合Spring时使用的适配包；下载整合适配包 https://github.com/mybatis/spring/releases 官方整合示例，jpetstore https://github.com/mybatis/jpetstore-6 1. 搭建环境创建一个动阅读全文

posted @ 2019-02-07 12:03 kris12 阅读(241) 评论(0) 推荐(0)

Redis数据库 02事务| 持久化| 主从复制| 集群

摘要：1. Redis事务 Redis不支持事务，此事务不是关系型数据库中的事务； Redis事务是一个单独的隔离操作：事务中的所有命令都会序列化、按顺序地执行。事务在执行的过程中，不会被其他客户端发送来的命令请求所打断。 Redis事务的主要作用就是串联多个命令防止别的命令插队； Multi（组队阶段）阅读全文

posted @ 2019-01-30 21:04 kris12 阅读(524) 评论(0) 推荐(1)

Hadoop| MapperReduce02 框架原理

摘要：MapReduce框架原理 MapReduce核心思想 1）分布式的运算程序往往需要分成至少2个阶段。 2）第一个阶段的MapTask并发实例，完全并行运行，互不相干。 3）第二个阶段的ReduceTask并发实例互不相干，但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。 4）Ma 阅读全文

posted @ 2019-01-29 17:45 kris12 阅读(1011) 评论(0) 推荐(0)

Hadoop| YARN| 计数器| 压缩| 调优

摘要：1. 计数器应用 2. 数据清洗（ETL）在运行核心业务MapReduce程序之前，往往要先对数据进行清洗，清理掉不符合用户要求的数据。清理的过程往往只需要运行Mapper程序，不需要运行Reduce程序。 LogMapper.java @Override protected void map(L 阅读全文

posted @ 2019-01-29 14:16 kris12 阅读(771) 评论(0) 推荐(0)

Zookeeper

摘要：1、概述工作机制协调整个框架运行；但又处于背景版的角色； Zookeeper是一个开源的分布式的，为分布式应用提供协调服务的Apache项目。 Zookeeper=文件系统+通知机制；特点集群的数量都是奇数个；（3台和4台的容错机制（挂几台机器还是可以照样运行）是一样的，都是1台；4台太消耗阅读全文

posted @ 2019-01-27 22:37 kris12 阅读(612) 评论(0) 推荐(1)

Hadoop| HDFS

摘要：HDFS 1. HDFS--写（上传） NameNode：Master主管管理者，管理HDFS的名称空间、配置副本策略、管理数据块Block的映射信息、处理客户端读写请求； DataNode：Slave，执行NN下达的命令，存储实际的数据块、执行数据块的读写操作； Client：①文件切分，将文件切阅读全文

posted @ 2019-01-20 21:24 kris12 阅读(638) 评论(0) 推荐(0)

Hadoop| MapReduce01 概述

摘要：概述分布式运算程序优点：易于编程；良好扩展性；高容错性；适合PB级以上海量数据的离线处理；缺点：不擅长实时计算；不擅长流式计算；不擅长DAG有向图计算；核心思想 1）分布式的运算程序往往需要分成至少2个阶段。 2）第一个阶段的MapTask并发实例，完全并行运行，互不相干。 3）第二个阶段的阅读全文

posted @ 2019-01-20 21:24 kris12 阅读(279) 评论(0) 推荐(0)

Redis数据库 01概述| 五大数据类型

摘要：1. NoSQL数据库简介解决应用服务器的CPU和内存压力；解决数据库服务的IO压力； ① session存在缓存数据库（完全在内存里），速度快且数据结构简单；打破了传统关系型数据库以业务逻辑为依据的存储模式，而针对不同数据结构类型改为以性能为最优先的存储方式--非关系型数据库K， V。 ② 缓阅读全文

posted @ 2019-01-17 18:04 kris12 阅读(901) 评论(0) 推荐(1)

Hadoop| 集群的搭建

摘要：大数据生态体系 1. Hadoop组成 HDFS（Hadoop Distributed File System）架构概述 NameNode目录--主刀医生(nn)； DataNode（dn)数据； Secondary NameNode（2nn）助手； 1）NameNode（nn）：存储文件的元数据，阅读全文

posted @ 2019-01-17 18:02 kris12 阅读(1016) 评论(0) 推荐(1)

MySQL| 安装配置| 主从复制

摘要：1. Mysql的安装配置 MySQL支持大型数据库，支持5000万条记录的数据仓库，32位系统表文件最大可支持4GB，64位系统支持最大的表文件为8TB。官网下载地址：http://dev.mysql.com/downloads/mysql/ 拷贝&解压缩 1、CentOS6 rpm -qa|g 阅读全文

posted @ 2019-01-13 23:33 kris12 阅读(313) 评论(0) 推荐(0)

Spring | SpringMVC

摘要：1) Spring是一个IOC(DI)和AOP容器框架。 1) Spring的优良特性依赖注入：DI——Dependency Injection，反转控制(IOC)最经典的实现。面向切面编程：Aspect Oriented Programming——AOP 一站式：在IOC和AOP的基础上可以整阅读全文

posted @ 2019-01-13 22:27 kris12 阅读(204) 评论(0) 推荐(0)

MySQL| 性能分析优化

摘要：性能分析使用EXPLAIN关键字可以模拟优化器执行SQL查询语句，从而知道MySQL是如何处理你的SQL语句的。分析你的查询语句或是表结构的性能瓶颈。表的读取顺序、哪些索引可以使用、数据读取操作的操作类型、哪些索引被实际使用、表之间的引用、每张表有多少行被物理查询（扫描） Explain + S 阅读全文

posted @ 2019-01-13 22:23 kris12 阅读(396) 评论(0) 推荐(0)

kris12

Self-discipline gives me freedom.

随笔分类 - 大数据技术栈

公告