Fork me on GitHub

随笔分类 -  大数据技术栈

上一页 1 ··· 4 5 6 7 8 9 10 下一页
Hadoop、hive、spark、hive等
摘要:ETL清洗数据 导Jar包 <dependencies> <dependency> <groupId>log4j</groupId> <artifactId>log4j</artifactId> <version>RELEASE</version> </dependency> <dependency 阅读全文
posted @ 2019-02-21 23:29 kris12 阅读(1031) 评论(0) 推荐(0)
摘要:概述 http://flume.apache.org/FlumeUserGuide.html http://flume.apache.org/ http://archive.apache.org/dist/flume/ Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、 阅读全文
posted @ 2019-02-21 23:29 kris12 阅读(906) 评论(0) 推荐(0)
摘要:一、Hadoop压缩配置 MR支持的压缩编码 压缩格式 算法 文件扩展名 是否可切分 DEFLATE DEFLATE .deflate 否 Gzip DEFLATE .gz 否 bzip2 bzip2 .bz2 是 LZO LZO .lzo 是 Snappy Snappy .snappy 否 为了支 阅读全文
posted @ 2019-02-20 00:40 kris12 阅读(691) 评论(0) 推荐(0)
摘要:Hive中执行SQL语句时,出现类似于“Display all 469 possibilities? (y or n)”的错误, 根本原因是因为SQL语句中存在tab键导致,tab键在linux系统中是有特殊含义的。 查询 1. 基本查询 desc formatted stu_buck; desc 阅读全文
posted @ 2019-02-16 13:25 kris12 阅读(1016) 评论(0) 推荐(0)
摘要:1. Hive数据类型 基本数据类型 Hive数据类型 Java数据类型 长度 例子 TINYINT byte 1byte有符号整数 20 SMALINT short 2byte有符号整数 20 INT int 4byte有符号整数 20 BIGINT long 8byte有符号整数 20 BOOL 阅读全文
posted @ 2019-02-16 13:24 kris12 阅读(518) 评论(0) 推荐(0)
摘要:Hive:由Facebook开源用于解决海量结构化日志的数据统计工具。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序 1)Hive处理的数据存储在HDFS 2)Hive分析数据底层的实现是Ma 阅读全文
posted @ 2019-02-13 23:44 kris12 阅读(897) 评论(0) 推荐(0)
摘要:1. HDFS-HA 在分布式文件系统 HDFS 中,NameNode 是 master 角色,当 NameNode 出现故障后,整个 HDFS 将不可用,所以保证 NameNode 的稳定性至关重要。在 Hadoop1.x 版本中,HDFS 只支持一个 NameNode,为了保证稳定性,只能靠 S 阅读全文
posted @ 2019-02-13 22:46 kris12 阅读(1018) 评论(0) 推荐(2)
摘要:泛型 泛型:对后续所有操作的类型做约束,对后续操作起作用,对之前的不起作用; 对类型进行约束; 父 > 子,从范围上,父范围小,子范围大;把范围小的给范围大的, JDK1.5改写了集合框架中的全部接口和类,为这些接口、类增加了“类型形参”,这个类型形参将在声明变量、创建对象时确定,即传入实际的类型, 阅读全文
posted @ 2019-02-07 20:06 kris12 阅读(226) 评论(0) 推荐(0)
摘要:查看不同MyBatis版本整合Spring时使用的适配包; 下载整合适配包 https://github.com/mybatis/spring/releases 官方整合示例,jpetstore https://github.com/mybatis/jpetstore-6 1. 搭建环境 创建一个动 阅读全文
posted @ 2019-02-07 12:03 kris12 阅读(241) 评论(0) 推荐(0)
摘要:1. Redis事务 Redis不支持事务,此事务不是关系型数据库中的事务; Redis事务是一个单独的隔离操作:事务中的所有命令都会序列化、按顺序地执行。事务在执行的过程中,不会被其他客户端发送来的命令请求所打断。 Redis事务的主要作用就是串联多个命令防止别的命令插队; Multi(组队阶段) 阅读全文
posted @ 2019-01-30 21:04 kris12 阅读(524) 评论(0) 推荐(1)
摘要:MapReduce框架原理 MapReduce核心思想 1)分布式的运算程序往往需要分成至少2个阶段。 2)第一个阶段的MapTask并发实例,完全并行运行,互不相干。 3)第二个阶段的ReduceTask并发实例互不相干,但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。 4)Ma 阅读全文
posted @ 2019-01-29 17:45 kris12 阅读(1011) 评论(0) 推荐(0)
摘要:1. 计数器应用 2. 数据清洗(ETL) 在运行核心业务MapReduce程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。清理的过程往往只需要运行Mapper程序,不需要运行Reduce程序。 LogMapper.java @Override protected void map(L 阅读全文
posted @ 2019-01-29 14:16 kris12 阅读(771) 评论(0) 推荐(0)
摘要:1、概述 工作机制 协调整个框架运行;但又处于背景版的角色; Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。 Zookeeper=文件系统+通知机制; 特点 集群的数量都是奇数个;(3台和4台的容错机制(挂几台机器还是可以照样运行)是一样的,都是1台;4台太消耗 阅读全文
posted @ 2019-01-27 22:37 kris12 阅读(612) 评论(0) 推荐(1)
摘要:HDFS 1. HDFS--写(上传) NameNode:Master主管管理者,管理HDFS的名称空间、配置副本策略、管理数据块Block的映射信息、处理客户端读写请求; DataNode:Slave,执行NN下达的命令,存储实际的数据块、执行数据块的读写操作; Client:①文件切分,将文件切 阅读全文
posted @ 2019-01-20 21:24 kris12 阅读(638) 评论(0) 推荐(0)
摘要:概述 分布式运算程序 优点:易于编程;良好扩展性;高容错性;适合PB级以上海量数据的离线处理; 缺点:不擅长实时计算;不擅长流式计算;不擅长DAG有向图计算; 核心思想 1)分布式的运算程序往往需要分成至少2个阶段。 2)第一个阶段的MapTask并发实例,完全并行运行,互不相干。 3)第二个阶段的 阅读全文
posted @ 2019-01-20 21:24 kris12 阅读(279) 评论(0) 推荐(0)
摘要:1. NoSQL数据库简介 解决应用服务器的CPU和内存压力;解决数据库服务的IO压力; ① session存在缓存数据库(完全在内存里),速度快且数据结构简单; 打破了传统关系型数据库以业务逻辑为依据的存储模式,而针对不同数据结构类型改为以性能为最优先的存储方式--非关系型数据库K, V。 ② 缓 阅读全文
posted @ 2019-01-17 18:04 kris12 阅读(901) 评论(0) 推荐(1)
摘要:大数据生态体系 1. Hadoop组成 HDFS(Hadoop Distributed File System)架构概述 NameNode目录--主刀医生(nn); DataNode(dn)数据; Secondary NameNode(2nn)助手; 1)NameNode(nn):存储文件的元数据, 阅读全文
posted @ 2019-01-17 18:02 kris12 阅读(1016) 评论(0) 推荐(1)
摘要:1. Mysql的安装配置 MySQL支持大型数据库,支持5000万条记录的数据仓库,32位系统表文件最大可支持4GB,64位系统支持最大的表文件为8TB。 官网下载地址:http://dev.mysql.com/downloads/mysql/ 拷贝&解压缩 1、CentOS6 rpm -qa|g 阅读全文
posted @ 2019-01-13 23:33 kris12 阅读(313) 评论(0) 推荐(0)
摘要:1) Spring是一个IOC(DI)和AOP容器框架。 1) Spring的优良特性 依赖注入:DI——Dependency Injection,反转控制(IOC)最经典的实现。 面向切面编程:Aspect Oriented Programming——AOP 一站式:在IOC和AOP的基础上可以整 阅读全文
posted @ 2019-01-13 22:27 kris12 阅读(204) 评论(0) 推荐(0)
摘要:性能分析 使用EXPLAIN关键字可以模拟优化器执行SQL查询语句,从而知道MySQL是如何处理你的SQL语句的。分析你的查询语句或是表结构的性能瓶颈。 表的读取顺序、哪些索引可以使用、数据读取操作的操作类型、哪些索引被实际使用、表之间的引用、每张表有多少行被物理查询(扫描) Explain + S 阅读全文
posted @ 2019-01-13 22:23 kris12 阅读(396) 评论(0) 推荐(0)

上一页 1 ··· 4 5 6 7 8 9 10 下一页
levels of contents