会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
大葱拌豆腐
专注于Spark、Flink、Kafka、HBase、大数据、机器学习
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
9
···
45
下一页
2019年9月16日
Create table as select
摘要: 根据table2的表结构,创建tables1 根据table2的表结构,创建tables1,同时将table2的数据插入table1 根据table2的表结构,创建tables1,重命名列,并复制数据
阅读全文
posted @ 2019-09-16 18:09 大葱拌豆腐
阅读(8852)
评论(0)
推荐(0)
2019年8月19日
Hadoop的三种调度器FIFO、Capacity Scheduler、Fair Scheduler(转载)
摘要: 目前Hadoop有三种比较流行的资源调度器:FIFO 、Capacity Scheduler、Fair Scheduler。目前Hadoop2.7默认使用的是Capacity Scheduler容量调度器。 一、FIFO(先入先出调度器) Hadoop1.x使用的默认调度器就是FIFO。FIFO采用
阅读全文
posted @ 2019-08-19 19:06 大葱拌豆腐
阅读(1807)
评论(0)
推荐(0)
2019年7月25日
Spark连续特征转化成离散特征
摘要: 当数据量很大的时候,分类任务通常使用【离散特征+LR】集成【连续特征+xgboost】,如果把连续特征加入到LR、决策树中,容易造成overfit。 如果想用上连续型特征,使用集成学习集成多种算法是一种方法,但是一是过程复杂了一些,另外训练过程会非常耗时,在不损失很多特征信息的情况下,可以考虑将连续
阅读全文
posted @ 2019-07-25 16:45 大葱拌豆腐
阅读(2831)
评论(1)
推荐(1)
2019年7月20日
Spark SQL里concat_ws和collect_set的作用
摘要: concat_ws: 用指定的字符连接字符串 例如: 连接字符串: concat_ws("_", field1, field2),输出结果将会是:“field1_field2”。 数组元素连接: concat_ws("_", [a,b,c]),输出结果将会是:"a_b_c"。 collect_set
阅读全文
posted @ 2019-07-20 15:13 大葱拌豆腐
阅读(12909)
评论(0)
推荐(0)
2019年7月18日
Hive的两种操作模式
摘要: Hive的客户端操作 Hive的客户端操作 通过JDBC操作Hive 通过Thrift操作Hive Hive的客户端操作 通过JDBC操作Hive 通过Thrift操作Hive Hive的客户端操作 通过JDBC操作Hive 通过Thrift操作Hive 首先 Hive 启动远程服务 hive --
阅读全文
posted @ 2019-07-18 23:48 大葱拌豆腐
阅读(779)
评论(0)
推荐(0)
2019年7月11日
zp本地包
摘要: https://pan.baidu.com/s/13670pdPNvG_o1coYFnovXA 密码: 3pk3
阅读全文
posted @ 2019-07-11 20:50 大葱拌豆腐
阅读(198)
评论(0)
推荐(0)
2019年7月7日
Spark无法读取hive 3.x的表数据
摘要: 通过Ambari2.7.3安装HDP3.1.0成功之后,通过spark sql去查询hive表的数据发现竟然无法查询 HDP3.0 集成了hive 3.0和 spark 2.3,然而spark却读取不了hive表的数据,准确来说是内表的数据。 原因hive 3.0之后默认开启ACID功能,而且新建的
阅读全文
posted @ 2019-07-07 22:21 大葱拌豆腐
阅读(3103)
评论(2)
推荐(0)
2019年7月2日
spark 监控--WebUi、Metrics System(转载)
摘要: 转载自:https://www.cnblogs.com/barrenlake/p/4364644.html Spark 监控相关的部分有WebUi 及 Metrics System; WebUi用于展示Spark 资源状态、Metrics System 整合的指标信息。 Ui相关流程 Spark集群
阅读全文
posted @ 2019-07-02 17:48 大葱拌豆腐
阅读(1647)
评论(0)
推荐(0)
Spark Streaming Backpressure分析
摘要: 1、为什么引入Backpressure 默认情况下,Spark Streaming通过Receiver以生产者生产数据的速率接收数据,计算过程中会出现batch processing time > batch interval的情况,其中batch processing time 为实际计算一个批次
阅读全文
posted @ 2019-07-02 11:51 大葱拌豆腐
阅读(586)
评论(0)
推荐(0)
2019年7月1日
Spark任务调度流程及调度策略分析
摘要: Spark任务调度 TaskScheduler调度入口: (1)CoarseGrainedSchedulerBackend 在启动时会创建DriverEndPoint. 而DriverEndPoint中存在一定时任务,每隔一定时间(spark.scheduler.revive.interval, 默
阅读全文
posted @ 2019-07-01 15:44 大葱拌豆腐
阅读(2870)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
9
···
45
下一页
公告