随笔分类 -  大数据

摘要:import pandas as pd import matplotlib.pyplot as plt from scorecardbundle.feature_discretization import ChiMerge as cm # ChiMerge特征离散 from scorecardbun 阅读全文
posted @ 2020-08-13 00:25 Jwsmai 阅读(483) 评论(0) 推荐(0)
摘要:本文主要介绍关系型数据库的三种同步方式,并提供相关代码。这三种方案在我的实际工作中都有用到,欢迎在评论区交流! 增量同步 表设计 表名:ods_{数据源缩写}_{原始表名},以订单为例:ods_ord_order 表性质:每日全量分区表 生命周期:保留近30天的历史数据 抽取增量 常规情况下,我们按 阅读全文
posted @ 2020-08-02 22:43 Jwsmai 阅读(1377) 评论(0) 推荐(0)
摘要:内关联 import pandas as pd df1 = pd.read_csv(r'score_20200625.csv', encoding='utf_8', low_memory=False) df2 = pd.read_csv(r'score_20200727.csv', encoding 阅读全文
posted @ 2020-08-01 16:56 Jwsmai 阅读(5028) 评论(0) 推荐(0)
摘要:一、预处理阶段 二、Map阶段 一个Map任务被JobTracker(管家)分配到多个TaskTracker(弟弟)执行,如下图所示,弟弟的map()只负责拆分,虽然map()输出两个相同的键值对,但它并不会对两个重复的键值对进行合并,而且输出的键值对也是无序的,没有按照字母顺序排列。而这些工作都会 阅读全文
posted @ 2019-04-07 22:11 Jwsmai 阅读(482) 评论(0) 推荐(0)
摘要:一、问题描述 在用sqoop连接mysql时,会报错如下图所示,原因是mysql在默认情况下是使用了auth_socket plugin进行认证,即每次登陆都需要sudo mysql -u localhost -p, sqoop命令中是不能识别sudo关键字的,所以需要去掉sudo关键字连接mysq 阅读全文
posted @ 2019-04-07 09:55 Jwsmai 阅读(3754) 评论(0) 推荐(1)
摘要:一、问题描述 1.由于当前集群没有配置Zookeeper、hcatalog、accumlo,因此应该在sqoop的配置文件中注释掉判断Zookeeper、hcatalog、accumlo路径是否正确的代码。 2.由于sqoop-1.4.5 之后的版本没有sqoop.*.*.*.jar包,因此需要手动 阅读全文
posted @ 2019-04-07 09:28 Jwsmai 阅读(1738) 评论(0) 推荐(0)