06 2022 档案

摘要:一、前言 对于并行处理,Apache Spark使用共享变量。当驱动程序将任务发送到集群上的执行程序时,共享变量的副本将在集群的每个节点上运行,以便可以将其用于执行任务。 累加器(Accumulators)与广播变量(Broadcast Variables)共同作为Spark提供的两大共享变量,主要 阅读全文
posted @ 2022-06-30 17:09 干了这瓶老干妈 阅读(208) 评论(0) 推荐(0)
摘要:1、打开Maven项目,选择File-Project Structure。2、在打开的窗口中左边菜单列表中选择Modules,点击上方的dependencies,然后点击+,在弹出的菜单栏中选择JARs or directories。3、在打开的文件管理器中,选择要导入的jar包即可引入到项目中来。 阅读全文
posted @ 2022-06-28 16:00 干了这瓶老干妈 阅读(5334) 评论(0) 推荐(0)
摘要:原文地址:Using Scala code in PySpark applications (diogoalexandrefranco.github.io) 前言 虽然有充分的理由使用Python API开发Spark应用程序,但不可否认的是,Scala是Spark的母语。如果您需要PySpark不 阅读全文
posted @ 2022-06-28 13:33 干了这瓶老干妈 阅读(772) 评论(0) 推荐(1)
摘要:一、目录操作 1, ls 查看目录下文件 例1:ls -a 查看全部目录,包含隐藏目录 例2:ls -l 查看当前目录详细列表, 例3:ls -lt 查看当前目录详细列表,按时间顺序排序,最近修改的文件在前面 例3:ls -ltr 查看当前目录详细列表,按时间顺序逆序排序,最近修改的文件在后面 2, 阅读全文
posted @ 2022-06-27 16:33 干了这瓶老干妈 阅读(213) 评论(0) 推荐(0)
摘要:sbt下载官网地址:https://www.scala-sbt.org/download.html 一、Ubuntu安装 echo "deb https://repo.scala-sbt.org/scalasbt/debian all main" | sudo tee /etc/apt/source 阅读全文
posted @ 2022-06-24 16:19 干了这瓶老干妈 阅读(519) 评论(0) 推荐(0)
摘要:文章转载自https://zhuanlan.zhihu.com/p/81016622 1. GBDT简介 Boosting、Bagging和Stacking是集成学习(Ensemble Learning)的三种主要方法。Boosting是一族可将弱学习器提升为强学习器的算法,不同于Bagging、S 阅读全文
posted @ 2022-06-14 19:59 干了这瓶老干妈 阅读(416) 评论(0) 推荐(0)
摘要:XGBoost算法 文章转载自microstrong的深入理解XGBoost 1. XGBoost简介 XGBoost的全称是eXtreme Gradient Boosting,它是经过优化的分布式梯度提升库,旨在高效、灵活且可移植。XGBoost是大规模并行boosting tree的工具,它是目 阅读全文
posted @ 2022-06-14 19:58 干了这瓶老干妈 阅读(667) 评论(0) 推荐(0)
摘要:必须了解的PySpark 的背后原理 文章转载自《必须了解的PySpark 的背后原理》 Spark主要是由Scala语言开发,为了方便和其他系统集成而不引入scala相关依赖,部分实现使用Java语言开发,例如External Shuffle Service等。总体来说,Spark是由JVM语言实 阅读全文
posted @ 2022-06-14 19:55 干了这瓶老干妈 阅读(407) 评论(0) 推荐(0)
摘要:一、Pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换: # pandas转spark values = pandas_df.values.tolist() columns = pandas_df.columns.tolist() spark_df = spa 阅读全文
posted @ 2022-06-02 13:53 干了这瓶老干妈 阅读(1896) 评论(0) 推荐(0)

Live2D