上一页 1 ··· 4 5 6 7 8
摘要: 一、数据去重 日常工作中,使用Hive或者Impala查询导出来可能会存在数据重复的现象,但又不想重新执行一遍查询(查询时间稍长,导出文件内容多),因此想到了使用Linux命令将文件的内容重复数据进行去除。 案例如下: 可以看到aaa.txx有3条重复数据 想去掉多余的数据,只保留一条 sort a 阅读全文
posted @ 2020-07-22 16:54 楔子 阅读(596) 评论(0) 推荐(0)
摘要: Otter 简单介绍 名称:otter ['ɒtə(r)] 译意: 水獭,数据搬运工 语言: 纯java开发 定位: 基于数据库增量日志解析,准实时同步到本机房或异地机房的mysql/oracle数据库. 一个分布式数据库同步系统.。 1、基于Canal开源产品,获取数据库增量日志数据。 Canal 阅读全文
posted @ 2020-07-20 14:43 楔子 阅读(2779) 评论(0) 推荐(0)
摘要: 操作步骤 1)TmpBstAggZwTktModelD 按天读取Mysql表数据bst_agg_zw_tkt_model_d,存入hive临时表tmp_bst_agg_zw_tkt_model_d(临时表采用txt格式,按年月日进行分区) 2)HiveBstAggZwTktModelD 连接hive 阅读全文
posted @ 2020-07-20 11:55 楔子 阅读(1285) 评论(0) 推荐(0)
摘要: 详情见图 etl_bst_agg_zw_tkt_model_d.py 支持传递时间参数,不传递时,默认调度昨天的数据 如:python etl_bst_agg_zw_tkt_model_d.py 20200101 20200102 调度20200101这一天的数据 python etl_bst_ag 阅读全文
posted @ 2020-07-20 11:34 楔子 阅读(859) 评论(0) 推荐(1)
摘要: 设计效果如下: 详细介绍 1)设置变量: BEGIN_DATE、END_DATE,STOP_DATE 如图:当BEGIN_DATE=STOP_DATE时,将结束调度 2)检查字段值:检查BEGIN_DATE是否等于STOP_DATE,如果等于,停止Job,不等于的话执行 acc_bas_ticket 阅读全文
posted @ 2020-07-20 11:22 楔子 阅读(1811) 评论(0) 推荐(0)
摘要: 说明: 读取$HOME/shell_code/control/zw/下面的bst_bas_sqoop2hive_zw.txt和bst_agg_sqoop2hive_zw.txt,分别执行txt文件中的shell脚本,并输出日志到log下对应目录中 #!/bin/bash # corntab执行时需要 阅读全文
posted @ 2019-12-04 17:54 楔子 阅读(2571) 评论(0) 推荐(0)
摘要: ①one.sh #!/bin/bash begin_date=$1end_date=$2 v_dt_year=${begin_date:0:4}v_dt_month=${begin_date:4:2}v_dt_date=${begin_date} while [ ${begin_date} -lt 阅读全文
posted @ 2019-12-04 17:45 楔子 阅读(685) 评论(0) 推荐(0)
摘要: mysql_jdbc.py# -*- coding:UTF-8 -*-import pymysqlclass MYSQL: def __init__(self,host,port,user,pwd,db): self.host = host self.port = port self.user = 阅读全文
posted @ 2019-12-04 11:37 楔子 阅读(724) 评论(0) 推荐(0)
摘要: 说明:使用shell脚本增量调度至hive表。 操作步骤 1、使用sqoop蒋mysql数据调度到hive临时表tmp_bst_bas_dy_orders 2、将临时表中的数据覆盖写如hive对应分区内 临时表数据未压缩,以传统txt方式存取,hive表采用orc压缩,均为外部表,按年月日进行分区。 阅读全文
posted @ 2019-12-04 11:18 楔子 阅读(181) 评论(0) 推荐(0)
摘要: 1)从mysql中导入数据至hdfs指定目录 sqoop import --connect jdbc:mysql://${db_ip}:${db_port}/${db_database}?serverTimezone=Asia/Shanghai --username ${db_user} --pas 阅读全文
posted @ 2019-12-04 11:08 楔子 阅读(217) 评论(0) 推荐(0)
上一页 1 ··· 4 5 6 7 8