2018年6月8日
摘要:
1. Flume Channel Channels是events在agent上进行的存储库。Source添加events,Sink移除events。 Channel 是位于Source 和Sink 之间的缓冲区。因此,Channel 允许Source 和Sink 运作在不同的速率上。Channel
阅读全文
posted @ 2018-06-08 20:16
duanxz
阅读(1403)
推荐(0)
摘要:
概述 从Flume Agent移除数据并写入到另一个Agent或数据存储或一些其他存储系统的组件被称为sink。Sink不断的轮询channel中的事件且批量的移除它们。这些事件批量写入到存储或索引系统,或者被发送到另一个Flume Agent。Sink是完全事务性的。在从channel批量移除数据
阅读全文
posted @ 2018-06-08 20:16
duanxz
阅读(1332)
推荐(0)
摘要:
1.1 Avro Source 监听Avro端口,从Avro client streams接收events。要求属性是粗体字。利用Avro Source可以实现多级流动、扇出流、扇入流等效果。另外也可以接受通过flume提供的Avro客户端发送的日志信息。 !channels – !type – 类
阅读全文
posted @ 2018-06-08 20:15
duanxz
阅读(969)
推荐(0)
摘要:
flume 1.7在windows下的安装与运行 一、安装 安装java,配置环境变量。 安装flume,flume的官网http://flume.apache.org/,下载地址,下载后直接解压即可。 二、运行 创建配置文件:在解压后的文件apache-flume-1.6.0-bin/conf下创
阅读全文
posted @ 2018-06-08 19:28
duanxz
阅读(655)
推荐(0)
摘要:
1、flume的外部结构: 如上图所示,数据发生器(如:facebook,twitter)产生的数据被被单个的运行在数据发生器所在服务器上的agent所收集,之后数据收容器从各个agent上汇集数据并将采集到的数据存入到HDFS或者HBase中。 2. Flume 事件 事件作为Flume内部数据传
阅读全文
posted @ 2018-06-08 18:20
duanxz
阅读(1866)
推荐(0)
摘要:
原始Text格式的hive分区大小为119.2G。 压缩算法 Text格式 Parquet格式 ORC RCFile 不压缩 119.2G 54.1G 20.0G 98G Snappy压缩 30.2 G 23.6 13.6 27.0G Gzip压缩 18.8 G 14.1 G 不支持 15.2G Z
阅读全文
posted @ 2018-06-08 16:31
duanxz
阅读(3846)
推荐(0)
摘要:
SSL(Secure Sockets Layer 安全套接层)是为网络通信提供安全及数据完整性的一种安全协议,SSL在网络传输层对网络连接进行加密,SSL协议位于TCP/IP协议与各种应用层协议之间,为数据通信提供安全支持。SSL协议分为两层,SSL记录协议建立在TCP之上,为高层协议提供数据封装、
阅读全文
posted @ 2018-06-08 14:30
duanxz
阅读(57938)
推荐(3)
摘要:
flume自带很长多的source,如:exe、kafka...其中有一个非常简单的source——httpsource,使用httpSource,flume启动后会拉起一个web服务来监听指定的ip和port。常用的使用场景:对于有些应用环境中,不能部署Flume SDK及其依赖项,可以在代码中通
阅读全文
posted @ 2018-06-08 14:22
duanxz
阅读(1720)
推荐(0)
2018年5月24日
摘要:
首先我们学习hadoop的时候,为了让我们不太会java语言但是对SQL很熟悉的工程师能够操作基本的mapreduce计算过程,Hive被设计出来了。Hive就好比是hadoop在执行MR(mapreduce)程序的一个操作系统,因为我们可以用简单的SQL语句去代替复杂的MR程序,因为Hive可以将
阅读全文
posted @ 2018-05-24 16:44
duanxz
阅读(4607)
推荐(1)
2018年5月9日
摘要:
一,Hive数据导入的几种方式 首先列出讲述下面几种导入方式的数据和hive表。 导入: 导出: Hive表: 创建testA: 创建testB: 数据文件(sourceA.txt): 数据文件(sourceB.txt): (1)本地文件导入到Hive表 hive> LOAD DATA LOCAL
阅读全文
posted @ 2018-05-09 18:24
duanxz
阅读(57760)
推荐(4)
2018年5月8日
摘要:
业务知识 什么是对账 传统的对账就是核对账目,是指在会计核算中,为保证账簿记录正确可靠,对账簿中的有关数据进行检查和核对的工作。在银行或者第三方支付中,对账其实是对一定周期内的交易进行双方确认的过程,一般都是在第二天银行或者第三方支付公司对前一日交易进行清分,生成对账单供平台商户下载,并将应结算款结
阅读全文
posted @ 2018-05-08 20:07
duanxz
阅读(3473)
推荐(1)
摘要:
一、内部表与外部表的比较 Hive表概念和关系型数据库表概念差不多。在Hive里表会和HDFS的一个目录相对应,这个目录会存放表的数据。目录默认是/usr/hive/warehouse/。 比如你在hadoop09数据库创建了emp表,那么HDFS中就会有/user/hive/warehouse/h
阅读全文
posted @ 2018-05-08 20:06
duanxz
阅读(2489)
推荐(0)
posted @ 2018-05-08 20:02
duanxz
阅读(254)
推荐(0)
2018年3月9日
摘要:
JFR 上面讲到的工具都是作为快速的查看诊断工具的。如果要深入分析问题,可以选择使用内置的Java飞行记录器:Java Mission Control。 转储JFR需要三步: 1. 创建一个包含了你自己配置的JFR模板文件。运行jmc, 然后Window->Flight Recording Temp
阅读全文
posted @ 2018-03-09 14:38
duanxz
阅读(20675)
推荐(3)
摘要:
Java性能调优作为大型分布式系统提供高性能服务的必修课,其重要性不言而喻。 好的分析工具能起到事半功倍的效果,利用分析利器JMC、JFR,可以实现性能问题的准确定位。 本文主要阐述如何利用JMC分析系统性能 JMC:Java Mission Control JFR:Java Flight Reco
阅读全文
posted @ 2018-03-09 12:15
duanxz
阅读(17433)
推荐(2)
2018年3月7日
posted @ 2018-03-07 15:27
duanxz
阅读(1112)
推荐(0)
摘要:
1、方法区溢出(Perm持久代溢出) 在jdk1.6及之前的版本中,常量池放在Perm区也即是方法区中,所以在jdk1.6版本中,常量池溢出可以说是方法区溢出。 示例一: 方法区溢出的示例见《JVM体系结构之七:持久代、元空间(Metaspace) Metaspace 之三--了解String类的i
阅读全文
posted @ 2018-03-07 14:57
duanxz
阅读(2330)
推荐(1)
摘要:
1、堆溢出 Java 堆内存的OutOfMemoryError异常是实际应用中最常见的内存溢出异常情况。出现Java 堆内存溢出时,异常堆栈信息“java.lang.OutOfMemoryError”会跟着进一步提示“Java heap space”。 要解决这个区域的异常,一般的手段是首先通过内存
阅读全文
posted @ 2018-03-07 14:57
duanxz
阅读(1752)
推荐(0)
2018年3月6日
摘要:
在java虚拟机规范中,虚拟机栈和本地方法栈都会出现StackOverflowError和OutofMemoryError,程序计数器是java虚拟机中唯一一块不会产生error的内存区域。 一、StackOverflowError(栈溢出) StackOverflowError代表的是,当栈深度超
阅读全文
posted @ 2018-03-06 17:54
duanxz
阅读(34952)
推荐(2)
摘要:
一、堆直方图 减少内存使用时一个重要目标,在堆分析上最简单的方法是利用堆直方图。通过堆直方图我们可以快速看到应用内的对象数目,同时不需要进行完整的堆转储(因为堆转储需要一段时间来分析,而且会消耗大量磁盘空间)。 直方图擅长识别由分配了一两个特定类的过多实例所引发的问题。例如应用中的内存压力是由一些特
阅读全文
posted @ 2018-03-06 12:20
duanxz
阅读(15267)
推荐(0)
2018年2月1日
摘要:
基于GTID的复制 简介 基于GTID的复制是MySQL 5.6后新增的复制方式. GTID (global transaction identifier) 即全局事务ID, 保证了在每个在主库上提交的事务在集群中有一个唯一的ID。 在原来基于日志的复制中, 从库需要告知主库要从哪个偏移量进行增量同
阅读全文
posted @ 2018-02-01 10:35
duanxz
阅读(1838)
推荐(0)
2017年12月7日
摘要:
方案背景日志跟踪技术使得查找一次调用所产生的日志信息变得方便。当需要排查一些问题时,可以根据报错的上下文进行分析,给问题诊断带来方便。在spring cloud微服务中,单体应用的日志跟踪技术已经不能满足需求,因而一般采用Spring Cloud Sleuth组件提供的功能来完成分布式日志跟踪。Sp
阅读全文
posted @ 2017-12-07 10:45
duanxz
阅读(7125)
推荐(0)
2017年11月27日
摘要:
一、分布式系统的概念、分布式系统的特点、常用的分布式方案 1.1、集中式系统 在学习分布式之前,先了解一下与之相对应的集中式系统是什么样的。 集中式系统用一句话概括就是:一个主机带多个终端。终端没有数据处理能力,仅负责数据的录入和输出。而运算、存储等全部在主机上进行。现在的银行系统,大部分都是这种集
阅读全文
posted @ 2017-11-27 18:25
duanxz
阅读(2963)
推荐(0)
2017年11月21日
摘要:
在第一篇分享中我们介绍了可靠事件模式属于事件驱动架构,微服务完成业务操作后向消息代理发布事件,关联的微服务从消息代理订阅到该事件从而完成相应的业务操作。 我们还强调了实现可靠事件模式的关键在于:可靠事件投递和避免事件重复消费。 可靠事件投递定义为: (a)每个服务原子性的完成业务操作和发布事件 (b
阅读全文
posted @ 2017-11-21 15:52
duanxz
阅读(2152)
推荐(0)
摘要:
今天分享第一篇,主要内容包括: 1.传统使用本地事务和分布式事务保证一致性。 2.传统分布式事务不是微服务中一致性的最佳选择。 3.微服务架构中应满足数据最终一致性原则。 4.微服务架构实现最终一致性的三种模式。 5.对账是最后的终极防线。 一、传统使用本地事务和分布式事务保证一致性 传统单机应用一
阅读全文
posted @ 2017-11-21 15:52
duanxz
阅读(13869)
推荐(5)