2022 年 3月随笔档案 - 版田一giao

4.RDD操作

摘要：一、 RDD创建 1.从本地文件系统中加载数据创建RDD 2.从HDFS加载数据创建RDD 2.1启动hdfs 2.2上传文件 2.3查看文件 2.4加载 2.5停止hdfs 3.通过并行集合（列表）创建RDD 3.1输入列表 3.2字符串 3.3numpy生成数组二、 RDD操作 1.转换操作阅读全文

posted @ 2022-03-22 14:02 版田一giao 阅读(25) 评论(0) 推荐(0)

3.Spark设计与运行原理，基本操作

摘要：1、图文阐述Spark生态系统的组成及各组件的功能。 Spark生态圈即BDAS.Spark具有很强的适应性，能够读取HDFS、Cassandra、HBase、S3和Techyon为持久层读写原生数据，能够以Mesos、YARN和自身携带的Standalone作为资源管理器调度job，来完成Spar 阅读全文

posted @ 2022-03-14 17:04 版田一giao 阅读(136) 评论(0) 推荐(0)

2.安装Spark与Python练习

摘要：一、安装Spark 1、检查基础环境hadoop,jdk 2、下载spark 3、解压，文件夹重命名、权限 4、配置文件配置spark的classpath $ cd /usr/local/spark $ cp ./conf/spark-env.sh.template ./conf/spark-en 阅读全文

posted @ 2022-03-06 23:22 版田一giao 阅读(54) 评论(0) 推荐(0)

世炯

03 2022 档案

公告