会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
楔子
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
4
5
6
7
8
2020年7月22日
Linux文件内容去重及文件求交并差集
摘要: 一、数据去重 日常工作中,使用Hive或者Impala查询导出来可能会存在数据重复的现象,但又不想重新执行一遍查询(查询时间稍长,导出文件内容多),因此想到了使用Linux命令将文件的内容重复数据进行去除。 案例如下: 可以看到aaa.txx有3条重复数据 想去掉多余的数据,只保留一条 sort a
阅读全文
posted @ 2020-07-22 16:54 楔子
阅读(596)
评论(0)
推荐(0)
2020年7月20日
Otter介绍及(Manager)安装
摘要: Otter 简单介绍 名称:otter ['ɒtə(r)] 译意: 水獭,数据搬运工 语言: 纯java开发 定位: 基于数据库增量日志解析,准实时同步到本机房或异地机房的mysql/oracle数据库. 一个分布式数据库同步系统.。 1、基于Canal开源产品,获取数据库增量日志数据。 Canal
阅读全文
posted @ 2020-07-20 14:43 楔子
阅读(2779)
评论(0)
推荐(0)
Kettle读取mysql数据存入Hive分区表中,使用Impala查询
摘要: 操作步骤 1)TmpBstAggZwTktModelD 按天读取Mysql表数据bst_agg_zw_tkt_model_d,存入hive临时表tmp_bst_agg_zw_tkt_model_d(临时表采用txt格式,按年月日进行分区) 2)HiveBstAggZwTktModelD 连接hive
阅读全文
posted @ 2020-07-20 11:55 楔子
阅读(1285)
评论(0)
推荐(0)
Kettle调度Python脚本
摘要: 详情见图 etl_bst_agg_zw_tkt_model_d.py 支持传递时间参数,不传递时,默认调度昨天的数据 如:python etl_bst_agg_zw_tkt_model_d.py 20200101 20200102 调度20200101这一天的数据 python etl_bst_ag
阅读全文
posted @ 2020-07-20 11:34 楔子
阅读(859)
评论(0)
推荐(1)
Kettle循环调度
摘要: 设计效果如下: 详细介绍 1)设置变量: BEGIN_DATE、END_DATE,STOP_DATE 如图:当BEGIN_DATE=STOP_DATE时,将结束调度 2)检查字段值:检查BEGIN_DATE是否等于STOP_DATE,如果等于,停止Job,不等于的话执行 acc_bas_ticket
阅读全文
posted @ 2020-07-20 11:22 楔子
阅读(1811)
评论(0)
推荐(0)
2019年12月4日
shell读取sh脚本配置文件并执行文件中对应脚本
摘要: 说明: 读取$HOME/shell_code/control/zw/下面的bst_bas_sqoop2hive_zw.txt和bst_agg_sqoop2hive_zw.txt,分别执行txt文件中的shell脚本,并输出日志到log下对应目录中 #!/bin/bash # corntab执行时需要
阅读全文
posted @ 2019-12-04 17:54 楔子
阅读(2571)
评论(0)
推荐(0)
shell 并行调度脚本
摘要: ①one.sh #!/bin/bash begin_date=$1end_date=$2 v_dt_year=${begin_date:0:4}v_dt_month=${begin_date:4:2}v_dt_date=${begin_date} while [ ${begin_date} -lt
阅读全文
posted @ 2019-12-04 17:45 楔子
阅读(685)
评论(0)
推荐(0)
Python连接Mysql数据库
摘要: mysql_jdbc.py# -*- coding:UTF-8 -*-import pymysqlclass MYSQL: def __init__(self,host,port,user,pwd,db): self.host = host self.port = port self.user =
阅读全文
posted @ 2019-12-04 11:37 楔子
阅读(724)
评论(0)
推荐(0)
MySQL数据离线加载至hive应用实践
摘要: 说明:使用shell脚本增量调度至hive表。 操作步骤 1、使用sqoop蒋mysql数据调度到hive临时表tmp_bst_bas_dy_orders 2、将临时表中的数据覆盖写如hive对应分区内 临时表数据未压缩,以传统txt方式存取,hive表采用orc压缩,均为外部表,按年月日进行分区。
阅读全文
posted @ 2019-12-04 11:18 楔子
阅读(181)
评论(0)
推荐(0)
sqoop简单应用案例
摘要: 1)从mysql中导入数据至hdfs指定目录 sqoop import --connect jdbc:mysql://${db_ip}:${db_port}/${db_database}?serverTimezone=Asia/Shanghai --username ${db_user} --pas
阅读全文
posted @ 2019-12-04 11:08 楔子
阅读(217)
评论(0)
推荐(0)
上一页
1
···
4
5
6
7
8