04 2020 档案
Hive-调优策略
摘要:1.Fetch抓取 Fetch抓取是,Hive中对某些情况的查询可以不必使用MapReduce计算;例如像select * from table这种的操作,在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台; 在hive-default.xml.te
阅读全文
Hive-数据倾斜
摘要:1.什么是数据倾斜 由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点;简单来说就是key的分化严重不均,造成一部分数据很多,一部分数据很少的情况; 比如:wordcount,最后的输出阶段形成了('aaa',1)这种格式,然后在reduce阶段进行value的增加操作,最后计算出value
阅读全文
Hive-高级查询
摘要:1.视图 和关系型数据库一样,Hive也提供了视图的功能,不过请注意,Hive的视图和关系型数据的视图还是有着很大的区别: (1)只要逻辑视图,没有物理视图; (2)视图只提供查询操作,不能执行LOAD/INSERT/UPDATE/DELETE (3)视图在创建的时候,只是保存了一份元数据,当查询视
阅读全文
HiVE-表库操作(三)
摘要:1.Hive的分区表操作 Hive开发中,在存储数据时,为了更快地查询数据和更好地管理数据,都会对hive表中数据进行分区存储;所谓的分区,在hive表中体现的是多了一个字段;而在底层文件存储系统中,比如HDFS上,分区则是一个文件夹,或者说是一个文件目录,不同的分区,就是数据存放在根目录下的不同子
阅读全文
Hive-表库操作(二)
摘要:1.Hive表文件的存储格式 通过上述的stored as操作设置表的存储格式 hive文件的存储格式分为以下四种: TEXTFILE,SEQUENCEFILE,RCFILE,ORCFILE 其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时直接把数据文件copy到HDFS上不进
阅读全文
Hive-表库操作(一)
摘要:1.Hive的数据库操作 Hive中数据库的概念本质上仅仅是表的一个目录或者命名空间;然而,对于具有很多组和用户的大集群来说,这是非常有用的,因为这样可以避免表命名冲突; 如果用户没有使用use关键字显示指定数据库,那么将会使用默认的数据库default; 1.1 查看数据库 show databa
阅读全文
Linux高级命令
摘要:1.grep grep命令是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来; 1.1 匹配带有JAVA_HOME的行 grep JAVA_HOME profile 1.2 显示不被pattern匹配的行(-v) grep -v JAVA_HOME profile 1.3 忽
阅读全文
Hive-数据类型
摘要:1.Hive的基本数据类型 由上表可以看出,Hive不支持日期类型,在Hive里日期都是字符串来标识的,而常用的日期格式转化操作则是通过自定义函数进行操作; Hive是用java开发的,Hive里的基本数据类型和java的基本数据类型也是一一对应的,除了String类型;有符号的整数类型:TINYI
阅读全文
Hive-安裝与配置
摘要:1.下载 下载地址:http://mirror.bit.edu.cn/apache/hive/ 2.上传并解压 tar -zxvf /usr/localhost/apache-hive-2.3.6-bin.tar.gz 3.将解压的目录重命名为hive mv apache-hive-2.3.6-bi
阅读全文
Hive-介绍
摘要:1.Hive简介 Hive是构建在hadoop之上的数据操作平台; Hive是一个SQL解释引擎,它将SQL转译成MapReduce作业,并在hadoop上运行; Hive表是HDFS的一个文件目录,一个表名对应一个目录名,如果存在分区表的话,则分区值对应子目录名; 2.Hive的历史由来 Hive
阅读全文
yum安装mysql
摘要:wget -i -c http://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpm 下载安装包 yum -y install mysql57-community-release-el7-10.noarch.rpm yum安装
阅读全文
hadoop-MapReduce框架之计数器应用以及数据清洗(ETL)
摘要:1.计数器应用 hadoop为每个作业维护若干个内置计数器,以描述多项指标;例如:某些计数器记录已处理的字节数和记录数,使用户可监控已经处理的输入数据量和已产生的输出数据量; 1.1 计数器API 1.1.1 采用枚举的方式统计计数 enumMyCounter(MALFORORMED,NORMAL)
阅读全文
hadoop-MapReduce框架之Join多种应用
摘要:1.Reduce Join 1.1 工作原理 map端的主要工作:为来自不同表或文件的key/value对,打标签以区别不同的来源记录;然后用连接字段作为key,其余部分和新加的标志作为是value,最后进行输出; reduce端的主要工作:在reduce端以连接字段作为key的分组已经完成,我们只
阅读全文
Activiti-springboot整合
摘要:Activiti7发布正式版之后,它与springboot2.x已经完全支持整合开发;我们可以将activiti7与springboot整合开发的坐标引入到工程中,从而达到springboot支持activiti7整合; springboot整个activiti7的具体步骤如下: 1.添加sprin
阅读全文
Activiti-spring整合
摘要:1.导入依赖 <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <maven.compiler.source>1.7</maven.compiler.source> <maven.compi
阅读全文
activiti-包含网关
摘要:1.什么是包含网关 包含网关可以看做是排他网关和并行网关的结合体;和排他网关一样,你可以在外出顺序流上定义条件,包含网关会解析它们;但是主要的区别是包含网关可以选择多于一条顺序流,这和并行网关一样,包含网关的功能是基于进入和外出顺序流的; 分支:所有外出顺序流的条件都会被解析,结果为true的顺序会
阅读全文
activiti-并行网关
摘要:1.什么是并行网关 并行网关允许将流程分成多条分支,也可以把多条分支汇聚在一起,并行网关的功能是基于进入和外出顺序流的; fork分支: 并行后的所有外出顺序流,为每个顺序流都创建一个并发分支; join汇聚: 所有达到并行网关,在此等待的进入分支,直到所有进入顺序的分支都达到以后,流程就会通过汇聚
阅读全文
activiti-排他网关
摘要:1.什么是排他网关 排他网关也叫异或网关,或叫基于数据的排他网关,用来在流程中实现决策;当流程执行到这个网关,所有分支都会判断条件是否为true,如果为true则执行该分支; 注意:排他网关只会选择一个为true的分支执行(即使有两个分支条件都为true,排他网关也会只选择一条分支去执行); 2.为
阅读全文
activiti-组任务
摘要:1.Candidate-users候选人 1.1 需求 在流程定义中在任务节点的assignee固定设置任务负责人,在流程定义时将参数者固定设置在.bpmn文件中,如果临时任务负责人变更则需要修改流程定义,系统可扩展性差; 针对这种情况可以给任务设置多个候选人,可以从候选人中选择参与者来完成任务;
阅读全文
hadoop-MapReduce框架原理之OutputFormat数据输出
摘要:1.OutputFormat接口实现类 OutputFormat是MapReduce输出的基类,所有实现MapReduce输出都实现了OutputFormat接口; 1.1 文本输出TextOutputFormat 默认的输出格式是TextOutputFormat,它把每条记录写为文本行;它的键和值
阅读全文
Activiti-流程变量
摘要:1.什么是流程变量 流程变量在activiti中是一个非常重要的角色,流程运转有时需要靠流程变量,业务系统和activiti结合时少不了流程变量,流程变量就是activiti在管理工作流程时根据管理需要而设置的变量; 比如在请假流程流转时如果请假天数大于3天则由总经理审批,否则有人事直接审批,请假天
阅读全文
Activiti-个人任务
摘要:1.分配任务负责人 1.1 固定分配 在进行业务流程建模时指定固定的任务负责人; 在properties视图中,填写Assignee项为任务负责人; 注意事项:由固定分配方式,任务只管一步一步执行任务,执行到每一个任务将按照bpmn的配置去分配任务负责人; 1.2 表达式分配 1.2.1 UEL表达
阅读全文
hadoop-MapReduce框架原理之Shuffle机制
摘要:1.Shuffle机制 1.1 什么是shuffle机制 1.1.1 在hadoop中数据从map阶段传递给reduce阶段的过程就叫shuffle,shuffle机制是整个MapReduce框架中最核心的部分; 1.1.2 shuffle翻译成中文的意思为:洗牌,发牌(核心机制:数据分区,排序,缓
阅读全文
hadoop-MapReduce工作流程
摘要:1.MapReduce进程 一个完整的MapReduce程序在分布式运行时有三类实例过程 1.1 MrAppMaster:负责整个程序的过程调度及状态协调; 1.2 MapTask:负责map节点的整个数据处理流程; 1.3 ReduceTask:负责reduce阶段的整个数据处理流程; 2.工作流
阅读全文
Activiti-流程实例
摘要:1.什么是流程实例 参与者(可以是用户也可以是程序)按照流程定义内容发起一个流程,这就是一个流程实例,是动态的; 流程定义和流程实例的图解: 2.启动流程实例 流程定义部署在activiti后,就可以在系统中通过activiti去管理该流程的执行,执行流程表示流程的一次执行;比如部署系统请假流程后,
阅读全文
Activiti-流程定义
摘要:1.什么是流程定义 流程定义是线下bpmn2.0标椎去描述业务流程,通常使用activiti-explorer(web控制台)或 activiti-eclipse-designer 插件对业务流程进行建模,这两种方式都遵循 bpmn2.0 标准。本教程使用activiti-eclipse-desig
阅读全文
Activiti入门体验
摘要:1.流程定义 1.1 新建流程 1.2 创建hoilday.bpmn,绘制流程 1.3 将hoilday.bpmn文件改为hoilday.xml文件,然后右键该xml文件Diagrams-->show BPMN 2.0 Designer就能生成一张流程图,将流程图导出保存到项目对应的目录,然后将xm
阅读全文
Activiti服务架构图
摘要:在新版本中,我们通过实验可以发现IdentityService,FormService 两个Serivce 都已经删除了。 1.activiticfg.xml文件 Activiti的引擎配置文件,包括ProcessEngineConfiguration的定义,数据源定义,事务管理器等,此文件其实就是
阅读全文
浙公网安备 33010602011771号