大葱拌豆腐 - 博客园

2019年9月16日

摘要：根据table2的表结构，创建tables1 根据table2的表结构，创建tables1，同时将table2的数据插入table1 根据table2的表结构，创建tables1,重命名列，并复制数据阅读全文

posted @ 2019-09-16 18:09 大葱拌豆腐阅读(8859) 评论(0) 推荐(0)

2019年8月19日

Hadoop的三种调度器FIFO、Capacity Scheduler、Fair Scheduler（转载）

摘要：目前Hadoop有三种比较流行的资源调度器：FIFO 、Capacity Scheduler、Fair Scheduler。目前Hadoop2.7默认使用的是Capacity Scheduler容量调度器。一、FIFO（先入先出调度器） Hadoop1.x使用的默认调度器就是FIFO。FIFO采用阅读全文

posted @ 2019-08-19 19:06 大葱拌豆腐阅读(1816) 评论(0) 推荐(0)

2019年7月25日

Spark连续特征转化成离散特征

摘要：当数据量很大的时候，分类任务通常使用【离散特征+LR】集成【连续特征+xgboost】，如果把连续特征加入到LR、决策树中，容易造成overfit。如果想用上连续型特征，使用集成学习集成多种算法是一种方法，但是一是过程复杂了一些，另外训练过程会非常耗时，在不损失很多特征信息的情况下，可以考虑将连续阅读全文

posted @ 2019-07-25 16:45 大葱拌豆腐阅读(2838) 评论(1) 推荐(1)

2019年7月20日

Spark SQL里concat_ws和collect_set的作用

摘要： concat_ws: 用指定的字符连接字符串例如：连接字符串： concat_ws("_", field1, field2)，输出结果将会是：“field1_field2”。数组元素连接： concat_ws("_", [a,b,c])，输出结果将会是："a_b_c"。 collect_set 阅读全文

posted @ 2019-07-20 15:13 大葱拌豆腐阅读(12954) 评论(0) 推荐(0)

2019年7月18日

Hive的两种操作模式

摘要： Hive的客户端操作 Hive的客户端操作通过JDBC操作Hive 通过Thrift操作Hive Hive的客户端操作通过JDBC操作Hive 通过Thrift操作Hive Hive的客户端操作通过JDBC操作Hive 通过Thrift操作Hive 首先 Hive 启动远程服务 hive -- 阅读全文

posted @ 2019-07-18 23:48 大葱拌豆腐阅读(782) 评论(0) 推荐(0)

2019年7月11日

zp本地包

摘要： https://pan.baidu.com/s/13670pdPNvG_o1coYFnovXA 密码: 3pk3 阅读全文

posted @ 2019-07-11 20:50 大葱拌豆腐阅读(200) 评论(0) 推荐(0)

2019年7月7日

Spark无法读取hive 3.x的表数据

摘要：通过Ambari2.7.3安装HDP3.1.0成功之后，通过spark sql去查询hive表的数据发现竟然无法查询 HDP3.0 集成了hive 3.0和 spark 2.3，然而spark却读取不了hive表的数据，准确来说是内表的数据。原因hive 3.0之后默认开启ACID功能，而且新建的阅读全文

posted @ 2019-07-07 22:21 大葱拌豆腐阅读(3113) 评论(2) 推荐(0)

2019年7月2日

spark 监控--WebUi、Metrics System（转载）

摘要：转载自：https://www.cnblogs.com/barrenlake/p/4364644.html Spark 监控相关的部分有WebUi 及 Metrics System; WebUi用于展示Spark 资源状态、Metrics System 整合的指标信息。 Ui相关流程 Spark集群阅读全文

posted @ 2019-07-02 17:48 大葱拌豆腐阅读(1651) 评论(0) 推荐(0)

Spark Streaming Backpressure分析

摘要： 1、为什么引入Backpressure 默认情况下，Spark Streaming通过Receiver以生产者生产数据的速率接收数据，计算过程中会出现batch processing time > batch interval的情况，其中batch processing time 为实际计算一个批次阅读全文

posted @ 2019-07-02 11:51 大葱拌豆腐阅读(594) 评论(0) 推荐(0)

2019年7月1日

Spark任务调度流程及调度策略分析

摘要： Spark任务调度 TaskScheduler调度入口：（1）CoarseGrainedSchedulerBackend 在启动时会创建DriverEndPoint. 而DriverEndPoint中存在一定时任务，每隔一定时间（spark.scheduler.revive.interval, 默阅读全文

posted @ 2019-07-01 15:44 大葱拌豆腐阅读(2877) 评论(0) 推荐(0)

公告