摘要: 1、离线计算是什么 离线计算:批量获取数据,批量传输数据,周期性批量计算数据,数据展示 代表技术:sqoop批量导入数据,hdfs批量存储数据,mapreduce批量计算数据,hive批量计算数据,***任务调度 2、流式就算是什么 流式计算:数据实时产生,数据实时传输,数据实时计算,实时展示 代表 阅读全文
posted @ 2018-11-04 18:34 一心行走 阅读(1966) 评论(0) 推荐(0)
摘要: 1、什么是Hbase HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统, hbase是列式的分布式数据库 1.2、HBASE优势: 1)线性扩展,随着数据量增多可以通过节点扩展进行支撑 2)数据存储在hdfs上,备份机制健全 3)通过zookeeper协调查找数据,访问速度块 1.3 阅读全文
posted @ 2018-11-04 18:02 一心行走 阅读(1152) 评论(0) 推荐(0)
摘要: sqoop数据迁移1、简介 sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统; 导出数据:从Hadoop的文件系统中导出数据到关系数据库 2、工作机制 将导入 阅读全文
posted @ 2018-11-04 17:50 一心行走 阅读(2149) 评论(0) 推荐(0)
摘要: 工作流调度器azkaban1 为什么需要工作流调度系统 1)一个完整的数据分析系统通常都是由大量任务单元组成:shell脚本程序,java程序,mapreduce程序、hive脚本等 2)各任务单元之间存在时间先后及前后依赖关系 3)为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执 阅读全文
posted @ 2018-11-04 17:43 一心行走 阅读(1503) 评论(0) 推荐(0)
摘要: 1、日志采集框架Flume 1.1 Flume介绍 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 Flume可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、 kafka等众多外部存储系统中 一般的采集需求,通过对 阅读全文
posted @ 2018-11-04 17:35 一心行走 阅读(2327) 评论(0) 推荐(0)
摘要: 1、什么是Hive hive是基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表 并提供类sql查询功能 2、为什么要用Hive 1、直接使用hadoop所面临的问题 人员学习成本太高 项目周期要求太短 MapReduce实现复杂查询逻辑开发难度太大 2、为什么要使用Hiv 阅读全文
posted @ 2018-11-04 17:27 一心行走 阅读(13613) 评论(0) 推荐(1)
摘要: 1、 什么是Mapreduce Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架; Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序, 并发运行在一个hadoop集群上; 2、Mapreduce框 阅读全文
posted @ 2018-11-04 17:01 一心行走 阅读(1623) 评论(0) 推荐(0)
摘要: 1、HDFS的概念和特性 它是一个文件系统,其次是分布式的 重要特性: 1).HDFS中的文件在物理上是分块存储(block),新版默认128M 2).客户端通过路径来访问文件,形如:hdfs://namenode:port/dir-a/dir-b/dir-c/file.data 3).目录结构及文 阅读全文
posted @ 2018-11-04 16:49 一心行走 阅读(1095) 评论(0) 推荐(0)
摘要: 1、什么是Hadoop 1). HADOOP是apache旗下的一套开源软件平台 2). HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理 3). HADOOP的核心组件有 A). HDFS(分布式文件系统) B). YARN(运算资源调度系统) C). M 阅读全文
posted @ 2018-11-04 16:36 一心行走 阅读(1112) 评论(0) 推荐(0)
摘要: 1)、java监控工具使用 jconsole是一种集成了上面所有命令功能的可视化工具,可以分析jvm的内存使用情况和线程等信息 visualvm 提供了和jconsole的功能类似,提供了一大堆的插件。 插件中,Visual GC(可视化GC)还是比较好用的,可视化GC可以看到内存的具体使用情况。 阅读全文
posted @ 2018-11-04 16:22 一心行走 阅读(730) 评论(0) 推荐(0)
摘要: 1).反射 通过反射的方式可以获取class对象中的属性、方法、构造函数等,一下是实例: 2).动态代理 使用场景: 在之前的代码调用阶段,我们用action调用service的方法实现业务即可。 由于之前在service中实现的业务可能不能够满足当先客户的要求,需要我们重新修改service中的方 阅读全文
posted @ 2018-11-04 16:17 一心行走 阅读(711) 评论(0) 推荐(0)
摘要: 1)什么是jms JMS即Java消息服务(Java Message Service)应用程序接口是一个Java平台中关于面向消息中间件(MOM)的API。 它便于消息系统中的Java应用程序进行消息交换,并且通过提供标准的产生、发送、接收消息的接口简化企业应用的开发, 翻译为Java消息服务。 2 阅读全文
posted @ 2018-11-04 16:03 一心行走 阅读(443) 评论(0) 推荐(0)
摘要: 1). java并发包介绍 JDK5.0 以后的版本都引入了高级并发特性,大多数的特性在java.util.concurrent 包中,是专门用于多线程发编程的, 主要包含原子量、并发集合、同步器、可重入锁,并对线程池的构造提供了强力的支持。 2).线程池的创建 线程池的5中创建方式: a、 Sin 阅读全文
posted @ 2018-11-04 16:00 一心行走 阅读(703) 评论(0) 推荐(0)
摘要: 1).synchronized 加同步格式: synchronized( 需要一个任意的对象(锁) ){ 代码块中放操作共享数据的代码。 } synchronized的缺陷 synchronized是java中的一个关键字,也就是说是Java语言内置的特性。 如果一个代码块被synchronized 阅读全文
posted @ 2018-11-04 15:53 一心行走 阅读(481) 评论(0) 推荐(0)
只有注册用户登录后才能阅读该文。 阅读全文
posted @ 2018-11-04 15:46 一心行走 阅读(4) 评论(0) 推荐(0)
只有注册用户登录后才能阅读该文。 阅读全文
posted @ 2018-11-04 15:32 一心行走 阅读(8) 评论(0) 推荐(0)