随笔分类 - 大数据
摘要:import pandas as pd import matplotlib.pyplot as plt from scorecardbundle.feature_discretization import ChiMerge as cm # ChiMerge特征离散 from scorecardbun
阅读全文
摘要:本文主要介绍关系型数据库的三种同步方式,并提供相关代码。这三种方案在我的实际工作中都有用到,欢迎在评论区交流! 增量同步 表设计 表名:ods_{数据源缩写}_{原始表名},以订单为例:ods_ord_order 表性质:每日全量分区表 生命周期:保留近30天的历史数据 抽取增量 常规情况下,我们按
阅读全文
摘要:内关联 import pandas as pd df1 = pd.read_csv(r'score_20200625.csv', encoding='utf_8', low_memory=False) df2 = pd.read_csv(r'score_20200727.csv', encoding
阅读全文
摘要:一、预处理阶段 二、Map阶段 一个Map任务被JobTracker(管家)分配到多个TaskTracker(弟弟)执行,如下图所示,弟弟的map()只负责拆分,虽然map()输出两个相同的键值对,但它并不会对两个重复的键值对进行合并,而且输出的键值对也是无序的,没有按照字母顺序排列。而这些工作都会
阅读全文
摘要:一、问题描述 在用sqoop连接mysql时,会报错如下图所示,原因是mysql在默认情况下是使用了auth_socket plugin进行认证,即每次登陆都需要sudo mysql -u localhost -p, sqoop命令中是不能识别sudo关键字的,所以需要去掉sudo关键字连接mysq
阅读全文
摘要:一、问题描述 1.由于当前集群没有配置Zookeeper、hcatalog、accumlo,因此应该在sqoop的配置文件中注释掉判断Zookeeper、hcatalog、accumlo路径是否正确的代码。 2.由于sqoop-1.4.5 之后的版本没有sqoop.*.*.*.jar包,因此需要手动
阅读全文

浙公网安备 33010602011771号