2022 年 6月随笔档案 - 干了这瓶老干妈

Spark中的广播变量和累加器

摘要：一、前言对于并行处理，Apache Spark使用共享变量。当驱动程序将任务发送到集群上的执行程序时，共享变量的副本将在集群的每个节点上运行，以便可以将其用于执行任务。累加器（Accumulators）与广播变量（Broadcast Variables）共同作为Spark提供的两大共享变量，主要阅读全文

posted @ 2022-06-30 17:09 干了这瓶老干妈阅读(208) 评论(0) 推荐(0)

IDEA中手动引入JAR包

摘要：1、打开Maven项目，选择File-Project Structure。2、在打开的窗口中左边菜单列表中选择Modules，点击上方的dependencies,然后点击+，在弹出的菜单栏中选择JARs or directories。3、在打开的文件管理器中，选择要导入的jar包即可引入到项目中来。阅读全文

posted @ 2022-06-28 16:00 干了这瓶老干妈阅读(5334) 评论(0) 推荐(0)

在pyspark中调用scala/java代码

摘要：原文地址：Using Scala code in PySpark applications (diogoalexandrefranco.github.io) 前言虽然有充分的理由使用Python API开发Spark应用程序，但不可否认的是，Scala是Spark的母语。如果您需要PySpark不阅读全文

posted @ 2022-06-28 13:33 干了这瓶老干妈阅读(772) 评论(0) 推荐(1)

Linux中常用命令

摘要：一、目录操作 1, ls 查看目录下文件例1：ls -a 查看全部目录，包含隐藏目录例2：ls -l 查看当前目录详细列表，例3：ls -lt 查看当前目录详细列表，按时间顺序排序，最近修改的文件在前面例3：ls -ltr 查看当前目录详细列表，按时间顺序逆序排序，最近修改的文件在后面 2, 阅读全文

posted @ 2022-06-27 16:33 干了这瓶老干妈阅读(213) 评论(0) 推荐(0)

Linux中安装sbt

摘要：sbt下载官网地址：https://www.scala-sbt.org/download.html 一、Ubuntu安装 echo "deb https://repo.scala-sbt.org/scalasbt/debian all main" | sudo tee /etc/apt/source 阅读全文

posted @ 2022-06-24 16:19 干了这瓶老干妈阅读(519) 评论(0) 推荐(0)

GBDT回归算法

摘要：文章转载自https://zhuanlan.zhihu.com/p/81016622 1. GBDT简介 Boosting、Bagging和Stacking是集成学习(Ensemble Learning)的三种主要方法。Boosting是一族可将弱学习器提升为强学习器的算法，不同于Bagging、S 阅读全文

posted @ 2022-06-14 19:59 干了这瓶老干妈阅读(416) 评论(0) 推荐(0)

XGBoost算法原理

摘要：XGBoost算法文章转载自microstrong的深入理解XGBoost 1. XGBoost简介 XGBoost的全称是eXtreme Gradient Boosting，它是经过优化的分布式梯度提升库，旨在高效、灵活且可移植。XGBoost是大规模并行boosting tree的工具，它是目阅读全文

posted @ 2022-06-14 19:58 干了这瓶老干妈阅读(667) 评论(0) 推荐(0)

pyspark运行原理

摘要：必须了解的PySpark 的背后原理文章转载自《必须了解的PySpark 的背后原理》 Spark主要是由Scala语言开发，为了方便和其他系统集成而不引入scala相关依赖，部分实现使用Java语言开发，例如External Shuffle Service等。总体来说，Spark是由JVM语言实阅读全文

posted @ 2022-06-14 19:55 干了这瓶老干妈阅读(407) 评论(0) 推荐(0)

Pandas中的DataFrame和pyspark中的DataFrame互相转换

摘要：一、Pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换： # pandas转spark values = pandas_df.values.tolist() columns = pandas_df.columns.tolist() spark_df = spa 阅读全文

posted @ 2022-06-02 13:53 干了这瓶老干妈阅读(1896) 评论(0) 推荐(0)

成长小港

06 2022 档案

公告