随笔档案「2020年4月」 - wnwn

Hive-调优策略

摘要：1.Fetch抓取 Fetch抓取是，Hive中对某些情况的查询可以不必使用MapReduce计算；例如像select * from table这种的操作，在这种情况下，Hive可以简单地读取employee对应的存储目录下的文件，然后输出查询结果到控制台；在hive-default.xml.te 阅读全文

posted @ 2020-04-25 15:17 wnwn 阅读(200) 评论(0) 推荐(0)

Hive-数据倾斜

摘要：1.什么是数据倾斜由于数据分布不均匀，造成数据大量的集中到一点，造成数据热点；简单来说就是key的分化严重不均，造成一部分数据很多，一部分数据很少的情况；比如：wordcount，最后的输出阶段形成了（'aaa',1）这种格式，然后在reduce阶段进行value的增加操作，最后计算出value 阅读全文

posted @ 2020-04-25 14:41 wnwn 阅读(209) 评论(0) 推荐(0)

Hive-高级查询

摘要：1.视图和关系型数据库一样，Hive也提供了视图的功能，不过请注意，Hive的视图和关系型数据的视图还是有着很大的区别：（1）只要逻辑视图，没有物理视图；（2）视图只提供查询操作，不能执行LOAD/INSERT/UPDATE/DELETE （3）视图在创建的时候，只是保存了一份元数据，当查询视阅读全文

posted @ 2020-04-22 12:51 wnwn 阅读(440) 评论(0) 推荐(0)

HiVE-表库操作（三）

摘要：1.Hive的分区表操作 Hive开发中，在存储数据时，为了更快地查询数据和更好地管理数据，都会对hive表中数据进行分区存储；所谓的分区，在hive表中体现的是多了一个字段；而在底层文件存储系统中，比如HDFS上，分区则是一个文件夹，或者说是一个文件目录，不同的分区，就是数据存放在根目录下的不同子阅读全文

posted @ 2020-04-22 10:42 wnwn 阅读(326) 评论(0) 推荐(0)

Hive-表库操作（二）

摘要：1.Hive表文件的存储格式通过上述的stored as操作设置表的存储格式 hive文件的存储格式分为以下四种： TEXTFILE,SEQUENCEFILE,RCFILE,ORCFILE 其中TEXTFILE为默认格式，建表时不指定默认为这个格式，导入数据时直接把数据文件copy到HDFS上不进阅读全文

posted @ 2020-04-21 19:42 wnwn 阅读(479) 评论(0) 推荐(0)

Hive-表库操作（一）

摘要：1.Hive的数据库操作 Hive中数据库的概念本质上仅仅是表的一个目录或者命名空间；然而，对于具有很多组和用户的大集群来说，这是非常有用的，因为这样可以避免表命名冲突；如果用户没有使用use关键字显示指定数据库，那么将会使用默认的数据库default； 1.1 查看数据库 show databa 阅读全文

posted @ 2020-04-21 15:19 wnwn 阅读(381) 评论(0) 推荐(0)

Linux高级命令

摘要：1.grep grep命令是一种强大的文本搜索工具，它能使用正则表达式搜索文本，并把匹配的行打印出来； 1.1 匹配带有JAVA_HOME的行 grep JAVA_HOME profile 1.2 显示不被pattern匹配的行（-v） grep -v JAVA_HOME profile 1.3 忽阅读全文

posted @ 2020-04-21 12:03 wnwn 阅读(330) 评论(0) 推荐(0)

Hive-数据类型

摘要：1.Hive的基本数据类型由上表可以看出，Hive不支持日期类型，在Hive里日期都是字符串来标识的，而常用的日期格式转化操作则是通过自定义函数进行操作； Hive是用java开发的，Hive里的基本数据类型和java的基本数据类型也是一一对应的，除了String类型；有符号的整数类型：TINYI 阅读全文

posted @ 2020-04-20 12:47 wnwn 阅读(848) 评论(0) 推荐(0)

Hive-安裝与配置

摘要：1.下载下载地址:http://mirror.bit.edu.cn/apache/hive/ 2.上传并解压 tar -zxvf /usr/localhost/apache-hive-2.3.6-bin.tar.gz 3.将解压的目录重命名为hive mv apache-hive-2.3.6-bi 阅读全文

posted @ 2020-04-20 11:25 wnwn 阅读(149) 评论(0) 推荐(0)

Hive-介绍

摘要：1.Hive简介 Hive是构建在hadoop之上的数据操作平台； Hive是一个SQL解释引擎，它将SQL转译成MapReduce作业，并在hadoop上运行； Hive表是HDFS的一个文件目录，一个表名对应一个目录名，如果存在分区表的话，则分区值对应子目录名； 2.Hive的历史由来 Hive 阅读全文

posted @ 2020-04-20 11:06 wnwn 阅读(470) 评论(0) 推荐(0)

yum安装mysql

摘要：wget -i -c http://dev.mysql.com/get/mysql57-community-release-el7-10.noarch.rpm 下载安装包 yum -y install mysql57-community-release-el7-10.noarch.rpm yum安装阅读全文

posted @ 2020-04-18 11:00 wnwn 阅读(145) 评论(0) 推荐(0)

hadoop-MapReduce框架之计数器应用以及数据清洗（ETL）

摘要：1.计数器应用 hadoop为每个作业维护若干个内置计数器，以描述多项指标；例如：某些计数器记录已处理的字节数和记录数，使用户可监控已经处理的输入数据量和已产生的输出数据量； 1.1 计数器API 1.1.1 采用枚举的方式统计计数 enumMyCounter(MALFORORMED,NORMAL) 阅读全文

posted @ 2020-04-10 10:40 wnwn 阅读(362) 评论(0) 推荐(0)

hadoop-MapReduce框架之Join多种应用

摘要：1.Reduce Join 1.1 工作原理 map端的主要工作：为来自不同表或文件的key/value对，打标签以区别不同的来源记录；然后用连接字段作为key，其余部分和新加的标志作为是value，最后进行输出； reduce端的主要工作：在reduce端以连接字段作为key的分组已经完成，我们只阅读全文

posted @ 2020-04-10 09:36 wnwn 阅读(290) 评论(0) 推荐(0)

Activiti-springboot整合

摘要：Activiti7发布正式版之后，它与springboot2.x已经完全支持整合开发；我们可以将activiti7与springboot整合开发的坐标引入到工程中，从而达到springboot支持activiti7整合； springboot整个activiti7的具体步骤如下： 1.添加sprin 阅读全文

posted @ 2020-04-09 14:34 wnwn 阅读(417) 评论(1) 推荐(0)

Activiti-spring整合

摘要：1.导入依赖 <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <maven.compiler.source>1.7</maven.compiler.source> <maven.compi 阅读全文

posted @ 2020-04-09 13:54 wnwn 阅读(183) 评论(0) 推荐(0)

activiti-包含网关

摘要：1.什么是包含网关包含网关可以看做是排他网关和并行网关的结合体；和排他网关一样，你可以在外出顺序流上定义条件，包含网关会解析它们；但是主要的区别是包含网关可以选择多于一条顺序流，这和并行网关一样，包含网关的功能是基于进入和外出顺序流的；分支：所有外出顺序流的条件都会被解析，结果为true的顺序会阅读全文

posted @ 2020-04-08 11:53 wnwn 阅读(459) 评论(0) 推荐(0)

activiti-并行网关

摘要：1.什么是并行网关并行网关允许将流程分成多条分支，也可以把多条分支汇聚在一起，并行网关的功能是基于进入和外出顺序流的； fork分支：并行后的所有外出顺序流，为每个顺序流都创建一个并发分支； join汇聚：所有达到并行网关，在此等待的进入分支，直到所有进入顺序的分支都达到以后，流程就会通过汇聚阅读全文

posted @ 2020-04-08 11:18 wnwn 阅读(953) 评论(0) 推荐(0)

activiti-排他网关

摘要：1.什么是排他网关排他网关也叫异或网关，或叫基于数据的排他网关，用来在流程中实现决策；当流程执行到这个网关，所有分支都会判断条件是否为true，如果为true则执行该分支；注意：排他网关只会选择一个为true的分支执行（即使有两个分支条件都为true，排他网关也会只选择一条分支去执行）； 2.为阅读全文

posted @ 2020-04-07 14:07 wnwn 阅读(1135) 评论(0) 推荐(0)

activiti-组任务

摘要：1.Candidate-users候选人 1.1 需求在流程定义中在任务节点的assignee固定设置任务负责人，在流程定义时将参数者固定设置在.bpmn文件中，如果临时任务负责人变更则需要修改流程定义，系统可扩展性差；针对这种情况可以给任务设置多个候选人，可以从候选人中选择参与者来完成任务；阅读全文

posted @ 2020-04-07 13:45 wnwn 阅读(563) 评论(0) 推荐(0)

hadoop-MapReduce框架原理之OutputFormat数据输出

摘要：1.OutputFormat接口实现类 OutputFormat是MapReduce输出的基类，所有实现MapReduce输出都实现了OutputFormat接口； 1.1 文本输出TextOutputFormat 默认的输出格式是TextOutputFormat，它把每条记录写为文本行；它的键和值阅读全文

posted @ 2020-04-06 15:59 wnwn 阅读(328) 评论(0) 推荐(0)

Activiti-流程变量

摘要：1.什么是流程变量流程变量在activiti中是一个非常重要的角色，流程运转有时需要靠流程变量，业务系统和activiti结合时少不了流程变量，流程变量就是activiti在管理工作流程时根据管理需要而设置的变量；比如在请假流程流转时如果请假天数大于3天则由总经理审批，否则有人事直接审批，请假天阅读全文

posted @ 2020-04-06 14:23 wnwn 阅读(498) 评论(0) 推荐(0)

Activiti-个人任务

摘要：1.分配任务负责人 1.1 固定分配在进行业务流程建模时指定固定的任务负责人；在properties视图中，填写Assignee项为任务负责人；注意事项：由固定分配方式，任务只管一步一步执行任务，执行到每一个任务将按照bpmn的配置去分配任务负责人； 1.2 表达式分配 1.2.1 UEL表达阅读全文

posted @ 2020-04-06 13:35 wnwn 阅读(301) 评论(0) 推荐(0)

hadoop-MapReduce框架原理之Shuffle机制

摘要：1.Shuffle机制 1.1 什么是shuffle机制 1.1.1 在hadoop中数据从map阶段传递给reduce阶段的过程就叫shuffle，shuffle机制是整个MapReduce框架中最核心的部分； 1.1.2 shuffle翻译成中文的意思为：洗牌，发牌（核心机制：数据分区，排序，缓阅读全文

posted @ 2020-04-03 11:46 wnwn 阅读(932) 评论(0) 推荐(0)

hadoop-MapReduce工作流程

摘要：1.MapReduce进程一个完整的MapReduce程序在分布式运行时有三类实例过程 1.1 MrAppMaster：负责整个程序的过程调度及状态协调； 1.2 MapTask：负责map节点的整个数据处理流程； 1.3 ReduceTask：负责reduce阶段的整个数据处理流程； 2.工作流阅读全文

posted @ 2020-04-02 15:31 wnwn 阅读(313) 评论(0) 推荐(0)

Activiti-流程实例

摘要：1.什么是流程实例参与者（可以是用户也可以是程序）按照流程定义内容发起一个流程，这就是一个流程实例，是动态的；流程定义和流程实例的图解： 2.启动流程实例流程定义部署在activiti后，就可以在系统中通过activiti去管理该流程的执行，执行流程表示流程的一次执行；比如部署系统请假流程后，阅读全文

posted @ 2020-04-02 14:45 wnwn 阅读(395) 评论(0) 推荐(0)

Activiti-流程定义

摘要：1.什么是流程定义流程定义是线下bpmn2.0标椎去描述业务流程，通常使用activiti-explorer（web控制台）或 activiti-eclipse-designer 插件对业务流程进行建模，这两种方式都遵循 bpmn2.0 标准。本教程使用activiti-eclipse-desig 阅读全文

posted @ 2020-04-02 14:08 wnwn 阅读(550) 评论(0) 推荐(0)

Activiti入门体验

摘要：1.流程定义 1.1 新建流程 1.2 创建hoilday.bpmn，绘制流程 1.3 将hoilday.bpmn文件改为hoilday.xml文件，然后右键该xml文件Diagrams-->show BPMN 2.0 Designer就能生成一张流程图，将流程图导出保存到项目对应的目录，然后将xm 阅读全文

posted @ 2020-04-01 14:06 wnwn 阅读(157) 评论(0) 推荐(0)

Activiti服务架构图

摘要：在新版本中，我们通过实验可以发现IdentityService，FormService 两个Serivce 都已经删除了。 1.activiticfg.xml文件 Activiti的引擎配置文件，包括ProcessEngineConfiguration的定义，数据源定义，事务管理器等，此文件其实就是阅读全文

posted @ 2020-04-01 13:01 wnwn 阅读(455) 评论(0) 推荐(0)

公告