09 2020 档案
hive多分隔符支持
摘要:1.问题描述 如何将多个字符作为字段分割符的数据文件加载到Hive表中,事例数据如下: 字段分隔符为“@#$” test1@#$test1name@#$test2value test2@#$test2name@#$test2value test3@#$test3name@#$test4value 如 阅读全文
posted @ 2020-09-29 21:32 架构艺术 阅读(521) 评论(0) 推荐(0)
shell 遍历目录下的所有文件
摘要:dir=/usr/local/nginx/logs for file in $dir/*; do echo $file done //结果 ./test.sh /usr/local/nginx/logs/access1.log /usr/local/nginx/logs/access.log /us 阅读全文
posted @ 2020-09-29 20:32 架构艺术 阅读(309) 评论(0) 推荐(0)
使用ansible控制Hadoop服务的启动和停止【转】
摘要:https://www.cnblogs.com/sfccl/p/11247129.html 一、环境: 服务器一台,已安装centos7.5系统,做ansible服务器; 客户机三台:hadoop-master(192.168.1.18)、hadoop-slave1(192.168.1.19)、ha 阅读全文
posted @ 2020-09-29 11:05 架构艺术 阅读(158) 评论(0) 推荐(0)
Shell中的括号有其特殊的用法
摘要:Shell中的括号有其特殊的用法, 现总结如下:1. 符号$后的括号 ${a} 变量a的值, 在不引起歧义的情况下可以省略大括号. $(cmd) 命令替换, 结果为shell命令cmd的输出, 和`cmd`效果相同, 不过某些Shell版本不支持$()形式的命令替换, 如tcsh. $((exp)) 阅读全文
posted @ 2020-09-22 15:38 架构艺术 阅读(167) 评论(0) 推荐(0)
shell中括号[]的特殊用法 linux if多条件判断
摘要:一. bash [ ] 单双括号基本要素: [ ] 两个符号左右都要有空格分隔 内部操作符与操作变量之间要空格:如 [ “a” = “b” ] 字符串比较中,> < 需要写成\> \< 进行转义 [ ] 中字符串或者${}变量尽量使用"" 双引号扩住,避免值未定义引用而出错的好办法 [ ] 中可以使 阅读全文
posted @ 2020-09-22 15:33 架构艺术 阅读(1734) 评论(0) 推荐(0)
Linux中rz和sz命令用法详解
摘要:rz,sz是Linux/Unix同Windows进行ZModem文件传输的命令行工具。优点就是不用再开一个sftp工具登录上去上传下载文件。sz:将选定的文件发送(send)到本地机器rz:运行该命令会弹出一个文件选择窗口,从本地选择文件上传到Linux服务器 安装命令: yum install l 阅读全文
posted @ 2020-09-22 15:16 架构艺术 阅读(504) 评论(0) 推荐(0)
vim 去掉自动注释和自动回车
摘要:开启了自动注释和自动缩进对粘帖代码不方便 关闭自动注释:set fo-=r 关闭自动缩进(这个对C/C++代码好像无效):set noautoindent关闭C语言缩进 :set nocindent 再 Shift + Insert 恢复 :set fo=r :set autoindent:set 阅读全文
posted @ 2020-09-22 15:09 架构艺术 阅读(378) 评论(0) 推荐(0)
ping判断局域网ip使用情况
摘要:ping命令,判断局域网ip使用情况 for ((i=1; i<=254; i++)); do ping -q -n -c 10 -W 1 -i 0.5 -w 1 10.202.180.$i | grep -n1 -v '100\% packet loss';done 阅读全文
posted @ 2020-09-22 15:07 架构艺术 阅读(280) 评论(0) 推荐(0)
shell判断有效日期
摘要:shell判断有效日期 #!/bin/bash TODAY="20180106" DIR_TARGET="/home/appdeploy/tianjin/test/sigma" function valid_date { tt=`date -d "$1"` return $? } cd $DIR_T 阅读全文
posted @ 2020-09-22 15:05 架构艺术 阅读(458) 评论(0) 推荐(0)
Sqoop一些常用命令及参数
摘要:Sqoop一些常用命令及参数 5.1、常用命令列举 这里给大家列出来了一部分Sqoop操作时的常用参数,以供参考,需要深入学习的可以参看对应类的源代码。 序号 命令 类 说明 1 import ImportTool 将数据导入到集群 2 export ExportTool 将集群数据导出 3 cod 阅读全文
posted @ 2020-09-14 15:36 架构艺术 阅读(2612) 评论(0) 推荐(0)
Sqoop案例-脚本打包
摘要:脚本打包 使用opt格式的文件打包sqoop命令,然后执行 1) 创建一个.opt文件 $ mkdir opt $ touch opt/job_HDFS2RDBMS.opt 2) 编写sqoop脚本 $ vi opt/job_HDFS2RDBMS.opt export --connect jdbc: 阅读全文
posted @ 2020-09-14 15:34 架构艺术 阅读(194) 评论(0) 推荐(0)
Sqoop案例-导出:HIVE/HDFS到RDBMS
摘要:HIVE/HDFS到RDBMS $ bin/sqoop export \ --connect jdbc:mysql://linux01:3306/company \ --username root \ --password 123456 \ --table staff \ --num-mappers 阅读全文
posted @ 2020-09-14 15:33 架构艺术 阅读(178) 评论(0) 推荐(0)
Sqoop案例-导入:RDBMS到Hive
摘要:$ bin/sqoop import \ --connect jdbc:mysql://linux01:3306/company \ --username root \ --password 123456 \ --table staff \ --num-mappers 1 \ --hive-impo 阅读全文
posted @ 2020-09-14 15:29 架构艺术 阅读(141) 评论(0) 推荐(0)
Sqoop案例-导入:RDBMS到HDFS
摘要:Sqoop的简单使用案例 4.1.1、RDBMS到HDFS 1) 确定Mysql服务开启正常 2) 在Mysql中新建一张表并插入一些数据 $ mysql -uroot -p123456 mysql> create database company; mysql> create table comp 阅读全文
posted @ 2020-09-14 15:27 架构艺术 阅读(206) 评论(0) 推荐(0)
Sqoop原理基础与安装
摘要:一、Sqoop简介 Apache Sqoop(TM)是一种旨在有效地在Apache Hadoop和诸如关系数据库等结构化数据存储之间传输大量数据的工具。 Sqoop于2012年3月孵化出来,现在是一个顶级的Apache项目。 最新的稳定版本是1.4.6。Sqoop2的最新版本是1.99.7。请注意, 阅读全文
posted @ 2020-09-14 15:23 架构艺术 阅读(240) 评论(0) 推荐(0)
DataX案例:读取MongoDB的数据导入MySQL
摘要:读取MongoDB的数据导入MySQL 1)在MySQL中创建表 mysql> create table jason(name varchar(20),url varchar(20)); 2)编写DataX配置文件 [jason@hadoop102 datax]$ vim job/mongodb2m 阅读全文
posted @ 2020-09-14 15:14 架构艺术 阅读(2929) 评论(1) 推荐(0)
DataX案例:读取MongoDB的数据导入到HDFS
摘要:读取MongoDB的数据导入到HDFS 1)编写配置文件 [jason@hadoop102 datax]$ vim job/mongdb2hdfs.json { "job": { "content": [ { "reader": { "name": "mongodbreader", "paramet 阅读全文
posted @ 2020-09-14 15:12 架构艺术 阅读(2560) 评论(0) 推荐(0)
DataX案例:读取Oracle的数据存入HDFS中
摘要:读取Oracle的数据存入HDFS中 1)编写配置文件 [oracle@hadoop102 datax]$ vim job/oracle2hdfs.json { "job": { "content": [ { "reader": { "name": "oraclereader", "paramete 阅读全文
posted @ 2020-09-14 15:10 架构艺术 阅读(859) 评论(0) 推荐(0)
DataX案例:从Oracle中读取数据存到MySQL
摘要:从Oracle中读取数据存到MySQL 1)MySQL中创建表 [oracle@hadoop102 ~]$ mysql -uroot -p000000 mysql> create database oracle; mysql> use oracle; mysql> create table stud 阅读全文
posted @ 2020-09-14 15:07 架构艺术 阅读(655) 评论(0) 推荐(0)
Oracle数据库
摘要:Oracle数据库 以下操作使用root账号。 4.1 oracle数据库简介 Oracle Database,又名Oracle RDBMS,或简称Oracle。是甲骨文公司的一款关系数据库管理系统。它是在数据库领域一直处于领先地位的产品。可以说Oracle数据库系统是目前世界上流行的关系数据库管理 阅读全文
posted @ 2020-09-14 15:02 架构艺术 阅读(264) 评论(0) 推荐(0)
DataX案例:从stream流读取数据并打印到控制台
摘要:从stream流读取数据并打印到控制台 1)查看配置模板 [jason@hadoop102 bin]$ python datax.py -r streamreader -w streamwriter DataX (DATAX-OPENSOURCE-3.0), From Alibaba ! Copyr 阅读全文
posted @ 2020-09-14 10:29 架构艺术 阅读(2256) 评论(0) 推荐(0)
DataX基础与安装
摘要:第1章 概述 1.1 什么是DataX ​ DataX 是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 1.2 DataX的设计 为了解决异构数据源同步 阅读全文
posted @ 2020-09-09 18:21 架构艺术 阅读(192) 评论(0) 推荐(0)
MongoDB基础
摘要:MongoDB 5.1 什么是MongoDB MongoDB 是由C++语言编写的,是一个基于分布式文件存储的开源数据库系统。MongoDB 旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB 将数据存储为一个文档,数据结构由键值(key=>value)对组成。MongoDB 文档类 阅读全文
posted @ 2020-09-09 18:10 架构艺术 阅读(125) 评论(0) 推荐(0)
Flume拦截器-应用与配置
摘要:Flume最重要的组件是Source、Channel和Sink,另外,Flume Agent还有一些使Flume更加灵活的组件,如拦截器,Channel选择器,Sink组和Sink选择器。本文将讨论一下拦截器的应用。 拦截器 拦截器(Interceptor)是简单的插入式组件,设置在Source和S 阅读全文
posted @ 2020-09-09 10:34 架构艺术 阅读(442) 评论(0) 推荐(0)
Flume正则表达式
摘要:常见正则表达式语法 元字符 描述 ^ 匹配输入字符串的开始位置。如果设置了RegExp对象的Multiline属性,^也匹配“\n”或“\r”之后的位置。 $ 匹配输入字符串的结束位置。如果设置了RegExp对象的Multiline属性,$也匹配“\n”或“\r”之前的位置。 * 匹配前面的子表达式 阅读全文
posted @ 2020-09-08 19:57 架构艺术 阅读(677) 评论(0) 推荐(0)
自定义MySQLSource
摘要:自定义MySQLSource 1 自定义Source说明 Source是负责接收数据到Flume Agent的组件。Source组件可以处理各种类型、各种格式的日志数据,包括avro、thrift、exec、jms、spooling directory、netcat、sequence generat 阅读全文
posted @ 2020-09-08 19:54 架构艺术 阅读(372) 评论(0) 推荐(0)
Flume案例:多数据源汇总案例
摘要:多数据源汇总案例 1) 案例需求: hadoop103上的flume-1监控文件hive.log, hadoop104上的flume-2监控某一个端口的数据流, flume-1与flume-2将数据发送给hadoop102上的flume-3,flume-3将最终数据打印到控制台 2)需求分析: 3) 阅读全文
posted @ 2020-09-08 19:29 架构艺术 阅读(394) 评论(0) 推荐(0)
Flume案例:2个案例单数据源多出口
摘要:一、单数据源多出口案例1 1)案例需求: 使用flume-1监控文件变动,flume-1将变动内容传递给flume-2,flume-2负责存储到HDFS。 同时flume-1将变动内容传递给flume-3,flume-3负责输出到local filesystem。 2)需求分析: 3)实现步骤: 0 阅读全文
posted @ 2020-09-08 18:08 架构艺术 阅读(435) 评论(0) 推荐(0)
Flume案例:目录文件到HDFS
摘要:实时读取目录文件到HDFS案例 1)案例需求:使用flume监听整个目录的文件 2)需求分析: 创建一个文件 [jason@hadoop102 job]$ vim flume-dir-hdfs.conf 添加如下内容 a3.sources = r3 #定义source a3.sinks = k3 # 阅读全文
posted @ 2020-09-08 15:03 架构艺术 阅读(256) 评论(0) 推荐(0)
Flume案例:本地文件到HDFS
摘要:1)案例需求:实时监控Hive日志,并上传到HDFS中 2)需求分析: 3)实现步骤: Flume要想将数据输出到HDFS,必须持有Hadoop相关jar包 将commons-configuration-1.6.jar、 hadoop-auth-2.7.2.jar、 hadoop-common-2. 阅读全文
posted @ 2020-09-08 14:22 架构艺术 阅读(208) 评论(0) 推荐(0)
netstat命令
摘要:判断44444端口是否被占用 [jason@hadoop102 flume-telnet]$ sudo netstat -tunlp | grep 44444 功能描述:netstat命令是一个监控TCP/IP网络的非常有用的工具,它可以显示路由表、实际的网络连接以及每一个网络接口设备的状态信息。 阅读全文
posted @ 2020-09-08 11:36 架构艺术 阅读(156) 评论(0) 推荐(0)
Flume-基础
摘要:1、Flume概念 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 Flume很多时候和storm以及spark streaming等流式处理框架结合使用。 Flume最主要的作用就是,实时读取服务器本地磁盘的数据 阅读全文
posted @ 2020-09-08 11:31 架构艺术 阅读(175) 评论(0) 推荐(0)
编译hadoop
摘要:Hadoop2.4.0 重新编译 64 位本地库环境:虚拟机 VirtualBox,操作系统 64 位 CentOS 6.4 1、jdk环境 (export PATH=$JAVA_HOME/bin:$PATH $PATH放在后面)#export JAVA_HOME=/opt/jdk1.8.0_141 阅读全文
posted @ 2020-09-07 23:34 架构艺术 阅读(158) 评论(0) 推荐(0)
Hive支持的文件格式与压缩算法
摘要:概述 只要是配置了正确的文件类型和压缩类型(比如Textfile+Gzip、SequenceFile+Snappy等),Hive都可以预期读取并解析数据,提供SQL功能。SequenceFile本身的结构已经设计了内容进行压缩。所以对于SequenceFile文件的压缩,并不是先生成Sequence 阅读全文
posted @ 2020-09-07 16:43 架构艺术 阅读(1556) 评论(0) 推荐(0)
hive表管理
摘要:Hive 0.14.0版本,建表管理 https://blog.csdn.net/Thomson617/article/details/86153924 分桶表 分桶对应hdfs目录下的一个个文件,它是将1张大表进行hash(表行索引多分桶数hash,hash值相同的到同一个文件中去),将一份数据拆 阅读全文
posted @ 2020-09-07 16:12 架构艺术 阅读(318) 评论(0) 推荐(0)
5. hive ORC使用压缩
摘要:创建一个使用 Snappy 压缩的 ORC 格式的表 create table log_orc_snappy( track_time string, url string, session_id string, referer string, ip string, end_user_id strin 阅读全文
posted @ 2020-09-07 11:34 架构艺术 阅读(501) 评论(0) 推荐(0)
4. hive parquet使用压缩
摘要:DROP TABLE IF EXISTS dm_xx.t_adl_daily_all_users_v1; USE dm_xx; CREATE TABLE IF NOT EXISTS dm_xx.t_adl_daily_all_users_v1( aa string COMMENT ' ' ,bb s 阅读全文
posted @ 2020-09-07 11:25 架构艺术 阅读(1259) 评论(0) 推荐(0)
3. 文件存储格式
摘要:Hive 支持的存储数的格式主要有:TEXTFILE 、SEQUENCEFILE、ORC、PARQUET 1 默认存储格式:TEXTFILEHive 在创建表的时候的时候如果没有使用row format 或者 stored as 子句, 那么这个时候 Hive 所使用的默认存储格式就是TEXTFIL 阅读全文
posted @ 2020-09-07 11:23 架构艺术 阅读(665) 评论(0) 推荐(0)
2. Reduce 输出压缩
摘要:当 Hive 将输出写入到表中时,输出内容同样可以进行压缩。属性hive.exec.compress.output控制着这个功能。 用户可能需要保持默认设置文件中的默认值false,这样默认的输出就是非压缩的纯文本文件了。用户可以通过在查询语句或执行脚本中设置这个值为true,来在当前会话中开启输出 阅读全文
posted @ 2020-09-07 11:16 架构艺术 阅读(136) 评论(0) 推荐(0)
1. 开启 Map 输出阶段压缩(中间压缩)
摘要:1 开启 Map 输出阶段压缩(中间压缩) 开启 map 输出阶段压缩可以减少 job 中 map 和 Reduce task 间数据传输量。具体配置如下: 步骤1: 开启 Hive 中间传输数据压缩功能 map 任务和 reduce 任务之间的数据的压缩. hive.exec.compress.i 阅读全文
posted @ 2020-09-07 11:00 架构艺术 阅读(336) 评论(0) 推荐(0)
hadoop基础配置
摘要:1.配置历史服务器 在运行ResourceManager服务的服务器下进行如下配置,修改mapred-site.xml文件,添加如下内容 <property> <name>mapreduce.jobhistory.address</name> <value>hadoop-101:10020</val 阅读全文
posted @ 2020-09-04 11:24 架构艺术 阅读(124) 评论(0) 推荐(0)
hivesql常用set
摘要:hive常用参数设置 --并行 set hive.exec.parallel=true; --* 动态分区 set hive.exec.dynamic.partition.mode=nonstrict; set hive.exec.max.dynamic.partitions.pernode=500 阅读全文
posted @ 2020-09-04 11:19 架构艺术 阅读(2802) 评论(0) 推荐(0)
flume案例:netcat-console
摘要:flume案例:netcat-console Flume 1.8 1、一个hello world案例。 # example.conf: 一个单节点的 Flume 实例配置 # 配置Agent a1各个组件的名称 a1.sources = r1 #Agent a1 的source r1 a1.sink 阅读全文
posted @ 2020-09-02 17:42 架构艺术 阅读(302) 评论(0) 推荐(0)
ansible详解
摘要:一、ansible基础 1、介绍 ansible是一个自动化运维工具,基于Python开发,集合了众多运维工具(puppet、cfengine、chef、func、fabric)的优点,实现了批量系统配置、批量程序部署、批量运行命令等功能。 :ansible中文权威指南 2、特性: 无客户端:不使用 阅读全文
posted @ 2020-09-01 14:37 架构艺术 阅读(1626) 评论(0) 推荐(0)
linux下ping检查局域网ip使用情况
摘要:#for ((i=1; i<=254; i++)); do ping -q -n -c 10 -W 1 -i 0.5 -w 1 xx.xx.xx.$i | grep -n1 -v '100\% packet loss';done # for ((i=1; i<=254; i++)); do ping 阅读全文
posted @ 2020-09-01 14:30 架构艺术 阅读(323) 评论(0) 推荐(0)