2020 年 2月 19 日随笔档案 - 啊啊啊啊鹏

2020年2月19日

摘要： Phoenix创建Hbase二级索引官方文档 1. 配置Hbase支持Phoenix创建二级索引 1. 添加如下配置到Hbase的Hregionserver节点的hbase-site.xml  <property> <name>h 阅读全文

posted @ 2020-02-19 13:58 啊啊啊啊鹏阅读(1234) 评论(1) 推荐(0)

Hbase原理| 优化

摘要： HBase的设计目标就是为了那些巨大的表，如数十亿行、数百万列。面向列，准确的说是面向列族。每行数据列可以不同。架构 HMaster会到ZK中进行注册，ZK中一主二备; 当主宕机时，zk通知备机, 备机中选择一个当主机;HRegionServer负责数据的存储读写;HMaster做负载均衡数据均阅读全文

posted @ 2020-02-19 13:57 啊啊啊啊鹏阅读(603) 评论(0) 推荐(0)

集成Hive和HBase

摘要： 1. 与Hive的集成 Hive和Hbase在大数据架构中处在不同位置，Hive是一个构建在Hadoop基础之上的数据仓库，主要解决分布式存储的大数据处理和计算问题，Hive提供了类SQL语句，叫HiveQL，通过它可以使用SQL查询存放在HDFS上的数据，sql语句最终被转化为Map/Reduc 阅读全文

posted @ 2020-02-19 13:56 啊啊啊啊鹏阅读(798) 评论(0) 推荐(0)

ClickHouse

摘要： ClickHouse 是俄罗斯的Yandex于2016年开源的列式存储数据库（DBMS），主要用于在线分析处理查询（OLAP），能够使用SQL查询实时生成分析数据报告 https://clickhouse.yandex/docs/zh/ 1 安装前的准备1.1 CentOS取消打开文件数限制在/e 阅读全文

posted @ 2020-02-19 13:54 啊啊啊啊鹏阅读(809) 评论(0) 推荐(0)

Phoenix |安装配置| 命令行操作| 与hbase的映射| spark对其读写

摘要： Phoenix Phoenix是HBase的开源SQL皮肤。可以使用标准JDBC API代替HBase客户端API来创建表，插入数据和查询HBase数据。 1.特点 1) 容易集成：如Spark，Hive，Pig，Flume和Map Reduce。 2) 性能好：直接使用HBase API以及协处理阅读全文

posted @ 2020-02-19 11:53 啊啊啊啊鹏阅读(898) 评论(0) 推荐(0)

HBase API操作

摘要： |的ascII最大ctrl+shift+t查找类 ctrl+p显示提示 HBase API操作依赖的jar包 <dependencies> <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server</arti 阅读全文

posted @ 2020-02-19 11:48 啊啊啊啊鹏阅读(208) 评论(0) 推荐(0)

Hbase 安装| shell操作

摘要： GFS -->hdfsmapreduce >hadoop mrbigtable-->hbase HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统海量存储；列式存储；极易扩展；高并发；稀疏（针对HBase列的灵活性，在列族中，你可以指定任意多的列；稀疏性体现了它的非结构化特点） hb 阅读全文

posted @ 2020-02-19 11:46 啊啊啊啊鹏阅读(339) 评论(0) 推荐(0)

maxwell实时同步mysql中binlog

摘要：概述 Maxwell是一个能实时读取MySQL二进制日志binlog，并生成 JSON 格式的消息，作为生产者发送给 Kafka，Kinesis、RabbitMQ、Redis、Google Cloud Pub/Sub、文件或其它平台的应用程序。它的常见应用场景有ETL、维护缓存、收集表级别的dml指阅读全文

posted @ 2020-02-19 11:44 啊啊啊啊鹏阅读(957) 评论(0) 推荐(0)

DataX

摘要： 1.什么是DataX DataX 是阿里巴巴开源的一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 https://github.com/kris-2018/Data 阅读全文

posted @ 2020-02-19 11:43 啊啊啊啊鹏阅读(296) 评论(0) 推荐(0)

canal

摘要： 1. 作用：同步mysql；做拉链表；更新redis 某些情况无法从日志中获取信息，而又无法利用sqoop等ETL工具对数据实时的监控 2. canal的工作原理： canal的工作原理很简单，就是把自己伪装成slave，假装从master复制数据。 3. mysql的binlog MySQL的二阅读全文

posted @ 2020-02-19 11:41 啊啊啊啊鹏阅读(858) 评论(0) 推荐(0)

sqoop

摘要： Sqoop主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。 http:/ 阅读全文

posted @ 2020-02-19 11:39 啊啊啊啊鹏阅读(211) 评论(0) 推荐(0)

linux定时运行命令脚本crontab

摘要：简介 Linux中，周期执行的任务一般由cron这个守护进程来处理 ps -ef | grep cron cron读取一个或多个配置文件，这些配置文件中包含了命令行及其调用时间。 cron的配置文件称为“crontab”，是“cron table”的简写。 1、/var/spool/cron/ 这个阅读全文

posted @ 2020-02-19 11:36 啊啊啊啊鹏阅读(212) 评论(0) 推荐(0)

Azkaban

摘要： 1. Azkaban安装部署 https://azkaban.github.io/azkaban/docs/2.5/ 安装Azkaban 1) 在/opt/module/目录下创建azkaban目录 [kris@hadoop101 module]$ mkdir azkaban 2) 解压azkaba 阅读全文

posted @ 2020-02-19 11:34 啊啊啊啊鹏阅读(245) 评论(0) 推荐(0)

Oozie

摘要： Oozie的功能模块 workflow 由多个工作单元组成工作单元之间有依赖关系 MR1->MR2->MR3->result hadoop jar:提交1个MR oozie：监控当前工作单元状态，完成之后自动提交下一个工作单元scheduler crontab:是linux简单调度脚本定时调度工阅读全文

posted @ 2020-02-19 11:33 啊啊啊啊鹏阅读(182) 评论(0) 推荐(0)

Mondb

摘要： 1. MongoDB简介 • MongoDB是为快速开发互联网Web应用而设计的数据库系统。• MongoDB的设计目标是极简、灵活、作为Web应用栈的一部分。• MongoDB的数据模型是面向文档的，所谓文档是一种类似于JSON的结构，简单理解MongoDB这个数据库中存的是各种各样的JSON。（阅读全文

posted @ 2020-02-19 11:31 啊啊啊啊鹏阅读(254) 评论(0) 推荐(0)

Redis数据库 02事务| 持久化| 主从复制| 集群

摘要： 1、 Redis事务 Redis不支持事务，此事务不是关系型数据库中的事务； Redis事务是一个单独的隔离操作：事务中的所有命令都会序列化、按顺序地执行。事务在执行的过程中，不会被其他客户端发送来的命令请求所打断。 Redis事务的主要作用就是串联多个命令防止别的命令插队； Multi（组队阶段）阅读全文

posted @ 2020-02-19 11:30 啊啊啊啊鹏阅读(159) 评论(0) 推荐(0)

Redis数据库 01概述| 五大数据类型

摘要： 1、NoSQL数据库简介解决应用服务器的CPU和内存压力；解决数据库服务的IO压力； >>> ① session存在缓存数据库（完全在内存里），速度快且数据结构简单；打破了传统关系型数据库以业务逻辑为依据的存储模式，而针对不同数据结构类型改为以性能为最优先的存储方式--非关系型数据库K， V。阅读全文

posted @ 2020-02-19 11:29 啊啊啊啊鹏阅读(202) 评论(0) 推荐(0)

MySQL高级01

摘要： MySQL支持大型数据库，支持5000万条记录的数据仓库，32位系统表文件最大可支持4GB，64位系统支持最大的表文件为8TB。官网下载地址：http://dev.mysql.com/downloads/mysql/ 拷贝&解压缩 1、CentOS6 rpm -qa|grep mysql如果存在m 阅读全文

posted @ 2020-02-19 11:28 啊啊啊啊鹏阅读(99) 评论(0) 推荐(0)

MySQL高级02

摘要：索引简介索引（Index）是帮助MySQL高效获取数据的数据结构。可以得到索引的本质：索引是数据结构。你可以简单理解为“排好序的快速查找数据结构”。在数据之外，数据库系统还维护着满足特定查找算法的数据结构，这些数据结构以某种方式引用（指向）数据，这样就可以在这些数据结构上实现高级查找算法。这种数阅读全文

posted @ 2020-02-19 11:27 啊啊啊啊鹏阅读(95) 评论(0) 推荐(0)

数据库

摘要： 1. MySQL概述为什么要用数据库（Database）？（1）数据要持久化（从内存中把数据永久的保存到文件中）（2）有结构的管理我们的数据：方便我们检索，查询等操作 2、几个名词： DBMS：Database ManageMent System 数据库管理系统 DB：Database 数据库阅读全文

posted @ 2020-02-19 11:25 啊啊啊啊鹏阅读(181) 评论(0) 推荐(0)

JDBC

摘要： JDBC(Java Database Connectivity)是一个独立于特定数据库管理系统（DBMS）、通用的SQL数据库存取和操作的公共接口（一组API），定义了用来访问数据库的标准Java类库，使用这个类库可以以一种标准的方法、方便地访问数据库资源 * JDBC：Java Database 阅读全文

posted @ 2020-02-19 11:23 啊啊啊啊鹏阅读(116) 评论(0) 推荐(0)

练习题|MySQL

摘要： MySQL主要内容： 1、数据库介绍、类型、特性2、MySQL数据库安装、连接、启动、停止3、表字段类型介绍、主键约束、表创建语句4、常用增删改查语句、分组、聚合5、外键管理、unique字段、表结构修改语法6、跨表查询，inner join、left join、right join、full jo 阅读全文

posted @ 2020-02-19 11:22 啊啊啊啊鹏阅读(236) 评论(0) 推荐(0)

3. MyAQL数据库|Navicat工具与pymysql模块 | 内置功能 | 索引原理

摘要： 1、Navicat工具与pymysql模块在生产环境中操作MySQL数据库还是推荐使用命令行工具mysql，但在我们自己开发测试时，可以使用可视化工具Navicat，以图形界面的形式操作MySQL数据库掌握： #1. 测试+链接数据库 #2. 新建库 #3. 新建表，新增字段+类型+约束 #4. 阅读全文

posted @ 2020-02-19 11:20 啊啊啊啊鹏阅读(150) 评论(0) 推荐(0)

mysql练习

摘要： MySQL 一、表关系请创建如下表，并创建相关约束班级表：class 学生表：student cid caption grade_id sid sname gender class_id 1 一年一班 1 1 乔丹女 1 2 二年一班 2 2 艾弗森女 1 3 三年二班 3 3 科比男 2 阅读全文

posted @ 2020-02-19 11:19 啊啊啊啊鹏阅读(126) 评论(0) 推荐(0)

2. MySQL数据库|数据操作| 权限管理

摘要： 1、数据操作 SQL（结构化查询语言），可以操作关系型数据库通过sql可以创建、修改账号并控制账号权限；通过sql可以创建、修改数据库、表；通过sql可以增删改查数据；可以通过SQL语句中的DML语言来实现数据的操作，包括使用INSERT实现数据的插入 UPDATE实现数据的更新使用DE 阅读全文

posted @ 2020-02-19 11:16 啊啊啊啊鹏阅读(141) 评论(0) 推荐(0)

1. MySQL数据库|库操作|表操作

摘要： 1、初识数据库我们在编写任何程序之前，都需要事先写好基于网络操作一台主机上文件的程序（socket服务端与客户端程序），于是有人将此类程序写成一个专门的处理软件，这就是mysql等数据库管理软件的由来，但mysql解决的不仅仅是数据共享的问题，还有查询效率，安全性等一系列问题，总之，把程序员从阅读全文

posted @ 2020-02-19 11:13 啊啊啊啊鹏阅读(224) 评论(0) 推荐(0)

Linux调Bug

posted @ 2020-02-19 11:09 啊啊啊啊鹏阅读(210) 评论(0) 推荐(0)

shell基本用法

摘要： shell是一个命令行解释器，它接收应用程序/ 用户命令，然后调用操作系统内核；功能强大的编程语言； 1. Shell解析器 Linux提供的Shell解析器有： [kris@hadoop datas]$ cat /etc/shells /bin/sh /bin/bash /sbin/nologin 阅读全文

posted @ 2020-02-19 11:08 啊啊啊啊鹏阅读(189) 评论(0) 推荐(0)

Linux常用命令

摘要： :q! 强制不保存退出关机：sudo halt 一般模式可以复制、粘贴、不能插入（除非进入另外一个模式） Linux文件与目录结构 Linux系统中一切皆文件。 Linux目录结构 /bin (/usr/bin 、 /usr/local/bin) 是Binary的缩写, 这个目录存放着最经常使用的阅读全文

posted @ 2020-02-19 11:06 啊啊啊啊鹏阅读(151) 评论(0) 推荐(0)

Shell工具| 流程控制

摘要： 1. 流程控制 if 判断（1）[ 条件判断式 ]，中括号和条件判断式之间必须有空格（2）if后要有空格 [kris@hadoop datas]$ vim if.sh #!/bin/bash if [ $1 -eq "1" ] then echo "one" elif [ $1 -eq "2" 阅读全文

posted @ 2020-02-19 11:00 啊啊啊啊鹏阅读(86) 评论(0) 推荐(0)

Kafka-API

摘要： ctrl+Hnew 它的实现类ctrl+r替换格式化ctrl+alt+l ctrl+fctrl+alt+v 替换 &lt " &lt < &gt > Kafka生产者Java API 创建生产者不带回调函数的 public class CustomProducer { public static 阅读全文

posted @ 2020-02-19 10:58 啊啊啊啊鹏阅读(118) 评论(0) 推荐(0)

Kafka Manager| KafkaMonitor

摘要： 1.kafka Manager 1.上传压缩包kafka-manager-1.3.3.15.zip到集群 2.解压到/opt/module 3.修改配置文件conf/application.conf kafka-manager.zkhosts="kafka-manager-zookeeper:218 阅读全文

posted @ 2020-02-19 10:57 啊啊啊啊鹏阅读(587) 评论(0) 推荐(0)

kafka工作流程| 命令行操作

摘要： 1. 概述数据层：结构化数据+非结构化数据+日志信息（大部分为结构化）传输层：flume（采集日志 >存储性框架（如HDFS、kafka、Hive、Hbase））+sqoop（关系型数据性数据库里数据 >hadoop）+kafka（将实时日志在线 >sparkstream在数据进行实时处理分析）阅读全文

posted @ 2020-02-19 10:55 啊啊啊啊鹏阅读(226) 评论(0) 推荐(0)

Hive常用函数

摘要： Hive常用函数大全一览 hive中split、coalesce及collect_list函数的用法（可举例）Split将字符串转化为数组。split('a,b,c,d' , ',') ==> ["a","b","c","d"]COALESCE(T v1, T v2, …) 返回参数中的第一个非空值阅读全文

posted @ 2020-02-19 10:53 啊啊啊啊鹏阅读(512) 评论(0) 推荐(0)

Hive参数调优

摘要：调优 Hive提供三种可以改变环境变量的方法，分别是：（1）修改${HIVE_HOME}/conf/hive-site.xml配置文件；所有的默认配置都在${HIVE_HOME}/conf/hive-default.xml文件中，如果需要对默认的配置进行修改，可以创建一个hive-site.xm 阅读全文

posted @ 2020-02-19 10:50 啊啊啊啊鹏阅读(1018) 评论(0) 推荐(1)

集成Hive和HBase

posted @ 2020-02-19 10:49 啊啊啊啊鹏阅读(176) 评论(0) 推荐(0)

Hive| 压缩| 存储| 调优

摘要：一、Hadoop压缩配置修改Hadoop集群具有Snappy压缩方式: 查看hadoop支持的压缩方式 [kris@hadoop101 datas]$ hadoop checknative 将编译好的支持Snappy压缩的hadoop-2.7.2.tar.gz包导入到hadoop101的/opt/ 阅读全文

posted @ 2020-02-19 10:47 啊啊啊啊鹏阅读(231) 评论(0) 推荐(0)

Hive| 查询

摘要： Hive中执行SQL语句时，出现类似于“Display all 469 possibilities? (y or n)”的错误，根本原因是因为SQL语句中存在tab键导致，tab键在linux系统中是有特殊含义的。基本查询 desc formatted stu_buck;desc stu_buck 阅读全文

posted @ 2020-02-19 10:45 啊啊啊啊鹏阅读(345) 评论(0) 推荐(0)

Hive| DDL| DML

摘要：类型转换可以使用CAST操作显示进行数据类型转换例如CAST('1' AS INT)将把字符串'1' 转换成整数1；如果强制类型转换失败，如执行CAST('X' AS INT)，表达式返回空值 NULL。 0: jdbc:hive2://hadoop101:10000> select '1'+2 阅读全文

posted @ 2020-02-19 10:09 啊啊啊啊鹏阅读(113) 评论(0) 推荐(0)

Hive的配置| 架构原理

摘要： Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序 1）Hive处理的数据存储在HDFS 2）Hive分析数据底层的实现是MapReduce 3）执行程序运行在Yarn上 1. Hive架构原理 h 阅读全文

posted @ 2020-02-19 10:05 啊啊啊啊鹏阅读(253) 评论(0) 推荐(0)

数据指南

公告