会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
勤奋的园
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
9
10
···
29
下一页
2020年11月3日
spark提交命令 spark-submit 的参数 executor-memory、executor-cores、num-executors、spark.default.parallelism分析
摘要: 转载:https://blog.csdn.net/zimiao552147572/article/details/96482120 nohup spark-submit --master yarn --deploy-mode cluster --jars /xx/xx/xx/xx.jar --cla
阅读全文
posted @ 2020-11-03 14:16 勤奋的园
阅读(1576)
评论(0)
推荐(0)
2020年11月2日
Cloudera Manager简介
摘要: 1、简介 Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具,使得安装集群从几天的时间缩短在几个小时内,运维人员从数十人降低到几人以内,极大的提高集群管理的效率。 2、阿里云服务器准备 阿里云网址为:https://cn.aliyun.com/,注册账
阅读全文
posted @ 2020-11-02 17:24 勤奋的园
阅读(1347)
评论(0)
推荐(0)
2020年10月27日
shell脚本将字符串按指定分隔符切分成数组
摘要: Shell 数组用括号来表示,元素用"空格"符号分割开,语法格式如下: array_name=(value1 value2 ... valuen) keyword=1,sdg,ddd array=(${keyword//,/ }) len=${#array[*]} 本质是利用了将keyword变量中
阅读全文
posted @ 2020-10-27 17:23 勤奋的园
阅读(5151)
评论(0)
推荐(1)
2020年10月25日
SparkStreaming
摘要: 一、Spark Streaming概述 1.1 Spark Streaming是什么 Spark Streaming用于流式数据的处理。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的
阅读全文
posted @ 2020-10-25 23:07 勤奋的园
阅读(507)
评论(0)
推荐(0)
SparkSQL
摘要: 一、Spark SQL概述 1.1 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集
阅读全文
posted @ 2020-10-25 17:36 勤奋的园
阅读(284)
评论(0)
推荐(0)
SparkCore2
摘要: 二、RDD编程 2.5 RDD中的函数传递 在实际开发中我们往往需要自己定义一些对于RDD的操作,那么此时需要主要的是,初始化工作是在Driver端进行的,而实际运行程序是在Executor端进行的,这就涉及到了跨进程通信,是需要序列化的。下面我们看几个例子: 2.5.1 传递一个方法 1.创建一个
阅读全文
posted @ 2020-10-25 16:09 勤奋的园
阅读(100)
评论(0)
推荐(0)
2020年10月19日
SparkCore
摘要: 一、RDD概述 1.1 什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。 1.2 RDD的属性 1) 一组分区(Partition),即数据集
阅读全文
posted @ 2020-10-19 22:14 勤奋的园
阅读(264)
评论(0)
推荐(0)
SQL
摘要: 非数字列都要加引号 where是对原表过滤,having是对结果表,where不能使用聚合函数 GROUP BY 和 HAVING 是从表中选取数据时用来改变抽取数据形式的, 而 ORDER BY 是用来指定取得结果显示顺序的
阅读全文
posted @ 2020-10-19 20:31 勤奋的园
阅读(74)
评论(0)
推荐(0)
2020年10月18日
Spark基础
摘要: 一、Spark概述 1.1 什么是Spark 1.2 Spark内置模块 Spark Core:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed DataSet,简称RDD
阅读全文
posted @ 2020-10-18 15:58 勤奋的园
阅读(145)
评论(0)
推荐(0)
2020年10月14日
idea使用maven的打包工具package不会打上主类解决方法
摘要:
阅读全文
posted @ 2020-10-14 20:54 勤奋的园
阅读(599)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
9
10
···
29
下一页
公告