会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
赤兔胭脂小吕布
天行健,君子以自强不息!
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
···
46
下一页
2022年3月17日
精准搜索需求、通过IDEA将数据格式化
摘要: 精准搜索需求 数据: {"recordMap":{"screenwriter":,"publishtime":"2021-08-21","year":"2021","score":"0.0"},"processDate":"2021-11-03","cid":"c370201","itemId":"
阅读全文
posted @ 2022-03-17 19:00 赤兔胭脂小吕布
阅读(104)
评论(0)
推荐(0)
2022年3月15日
spark 调优、spark 代码的优化
摘要: spark 调优 三个方面: 代码的优化 参数的优化 数据倾斜的优化 spark 代码的优化 加粗的为重点 1、避免创建重复的RDD 2、尽可能复用同一个RDD 3、对多次使用的RDD进行持久化 4、尽量避免使用shuffle类算子 5、使用map-side预聚合的shuffle操作 6、使用高性能
阅读全文
posted @ 2022-03-15 22:00 赤兔胭脂小吕布
阅读(126)
评论(0)
推荐(0)
Spark MLlib
摘要: Spark MLlib Spark 机器学习 机器学习是人工智能的一个分支 注意:我们学习一个框架的时候一定要学会看官网 导入依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-mllib_2.11</artif
阅读全文
posted @ 2022-03-15 11:38 赤兔胭脂小吕布
阅读(99)
评论(0)
推荐(0)
2022年3月14日
机器学习、算法
摘要: 机器学习数学模型 机器学习简单理解:坐标系中有很多点,要画一条线,尽量穿过所有的点。那么画这条线的过程就是机器学习的过程 机器学习是模仿人的学习过程 有监督和无监督 机器学习流程 K-近邻算法(KNN) 朴素贝叶斯分类算法 决策树算法 随机森林算法 逻辑回归算法 k-means聚类 人工神经网络 深
阅读全文
posted @ 2022-03-14 21:24 赤兔胭脂小吕布
阅读(55)
评论(0)
推荐(0)
2022年3月13日
DStream、RDD、DataFrame 的相互转换、spark 比 MapReduce 快的原因
摘要: DStream、RDD、DataFrame 的相互转换 DStream → RDD → DataFrame package com.shujia.stream import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD i
阅读全文
posted @ 2022-03-13 15:18 赤兔胭脂小吕布
阅读(295)
评论(0)
推荐(0)
有状态算子、滑动窗口和滚动窗口
摘要: 有状态算子 之前我们在运行 Spark Streaming 的时候发现微批处理之中,每一个批次都是相对独立的 如何让其能够产生累加的效果呢? package com.shujia.stream import org.apache.spark.streaming.dstream.{DStream, R
阅读全文
posted @ 2022-03-13 14:24 赤兔胭脂小吕布
阅读(179)
评论(0)
推荐(0)
Spark Streaming、离线计算、实时计算、实时查询、Spark Streaming 原理、Spark Streaming WordCount、Spark Streaming 架构图
摘要: Spark Streaming spark 中 最重要的就是 spark core 和 spark sql (也就是之前笔记的内容) 离线计算、实时计算、实时查询 Spark Streaming 原理 Spark Streaming WordCount 1、导入依赖 <dependency> <gr
阅读全文
posted @ 2022-03-13 00:33 赤兔胭脂小吕布
阅读(434)
评论(0)
推荐(0)
2022年3月12日
查看 spark-sql 的 SQL语法树、spark-sql 的优化、整合 hive 之后通过代码操作
摘要: 查看 spark-sql 的 SQL语法树 查看 spark-sql 的web界面的一种方式 在通过 spark-sql --master yarn-client 命令进入 spark-sql 的时候 可以在yarn的web界面中通过下图所示的步骤进入spark-sql 的web界面,并查看 spa
阅读全文
posted @ 2022-03-12 22:36 赤兔胭脂小吕布
阅读(276)
评论(0)
推荐(0)
spark 写代码的三种方式、spark 整合 Hive
摘要: spark 写代码的方式 1、在IDEA中将代码编写好然后打包上传到集群中运行(使用最多) 将代码提交到集群运行,不需要指定master(运行模式) 注意以后只要涉及到路径,就不能出现中文或空格,不然可能会报莫名其妙的错误 代码示例 package com.shujia.sql import org
阅读全文
posted @ 2022-03-12 21:42 赤兔胭脂小吕布
阅读(455)
评论(0)
推荐(0)
DSL练习、array函数、map函数、sum() 在 over(窗口函数) 中的两种用法、expr()--转换成列的对象、when(表达式,为true返回的值).otherwise(为false返回的值)--用法
摘要: DSL练习 统计每科都及格的学生 需要显示[学号,姓名,班级,性别,科目名,科目分数] package com.shujia.sql import org.apache.spark.sql.expressions.Window import org.apache.spark.sql.{DataFra
阅读全文
posted @ 2022-03-12 00:17 赤兔胭脂小吕布
阅读(171)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
···
46
下一页
公告