2022 年 1月随笔档案 - 戈瑾

遇到问题：连接数据库报错Exception in thread “main” com.mysql.jdbc.exceptions.jdbc4.CommunicationsException

摘要：遇到问题：连接数据库报错Exception in thread “main” com.mysql.jdbc.exceptions.jdbc4.CommunicationsException 提示连接数据库失败，原因是导入的jdbc的jar包版本不匹配。解决方法：删除不匹配的jar包，重新导入与m 阅读全文

posted @ 2022-01-20 16:16 戈瑾阅读(1076) 评论(0) 推荐(0)

spark学习进度18——SparkSQL

摘要：Spark SQL是Spark用于结构化数据处理的Spark模块作用： SparkSQL是Spark用来处理结构化数据 [json，csv，Excel, MySQL] 的一个模块，它提供了一个编程抽象叫做DataFrame / DataSet。如果想使用SparkSQL处理文本数据或者非结构化数阅读全文

posted @ 2022-01-18 20:17 戈瑾阅读(38) 评论(0) 推荐(0)

spark学习进度17——案例

摘要：需求：计算每个城市的访问量 ip.txt： ipaccess.log：解决： 1 package com.bigdata.spark.core.wc 2 3 import org.apache.spark.rdd.RDD 4 import org.apache.spark.{SparkConf, 阅读全文

posted @ 2022-01-17 13:50 戈瑾阅读(35) 评论(0) 推荐(0)

spark学习进度16——spark运行出现问题

摘要：一、maven项目运行spark时遇到hadoop相关问题解决方法：在http://hadoop.apache.org/releases.html下载对应版本hadoop并解压下载对应版本的hadoop-common，我下载的是hadoop-common-3.0.0-bin-master.zi 阅读全文

posted @ 2022-01-16 22:51 戈瑾阅读(111) 评论(0) 推荐(0)

spark学习进度13——RDD的算子

摘要：spark中的算子分为两类： [or 三类 ] 说明：RDD一旦创建不能修改，但是可以使用算子让一个RDD转换成新的RDD，这个过程的所有操作都要基于算子进行操作。 1、transformation 转换类根据数据集创建一个新的数据集，计算后返回一个新RDD；例如：一个rdd进行map操作后生了一阅读全文

posted @ 2022-01-13 22:39 戈瑾阅读(47) 评论(0) 推荐(0)

spark学习进度12——RDD简介

摘要：RDD简介、创建方式、分区阅读全文

posted @ 2022-01-12 22:39 戈瑾阅读(109) 评论(0) 推荐(0)

spark学习进度11——Spark运行方式

摘要：一、spark-submit 1、类似于：hadoop jar; [主要负责jar包的提交]; 2、语法：spark-submit [options] <app jar | python file> [app arguments] 通过- -help 查看参数：参数options： -master 阅读全文

posted @ 2022-01-11 22:38 戈瑾阅读(93) 评论(0) 推荐(0)

spark学习进度10——spark概述与安装

摘要：一、spark概述 1、Spark是什么 Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。（1） Spark是一种由Scala语言开发的快速、通用、可扩展的大数据分析引擎（2）Spark Core中提供了Spark最基础与最核心的功能（3） Spark SQL是Spark用来阅读全文

posted @ 2022-01-10 20:30 戈瑾阅读(90) 评论(0) 推荐(0)

spark学习进度9——Scala集合的常用方法

摘要：1、Map方法说明：map 方法主要是一对一映射，取出集合中的每个元素，执行操作，返回值和集合的类型一致。示例：将数组 val array=Array(1,2,3,4,5) 中的每个元素*10 阅读全文

posted @ 2022-01-09 23:48 戈瑾阅读(36) 评论(0) 推荐(0)

spark学习进度8——Scala中的set集合

摘要：1、特点无序、不能重复 2、声明（1）不可变 val set=Set(1,2,3,4,1,2,3)——自动去重（2）可变 var set = scala.collection.immutable.Set(1,2,3) 3、常用方法 +=、++=、-=、、head、tail等没有insert 阅读全文

posted @ 2022-01-08 23:14 戈瑾阅读(152) 评论(0) 推荐(0)

spark学习进度7——Scala中的Map集合

摘要：一、不可变集合 1、声明（1）使用 -> 的方式声明备注：声明的Map集合的时候如果不加泛型，必须保证声明的map集合中有数据，因为有数据会自动适配，没有数据会返回Nothing （2）使用对偶元组的方式声明（3）Map集合在创建的时候不能使用new关键字，因为Map是一个接口 Java中也阅读全文

posted @ 2022-01-07 23:04 戈瑾阅读(864) 评论(0) 推荐(0)

spark学习进度6——Scala中的List

摘要：一、List集合 1、分类 mutable 可变——元素个数和值等可以改变（ListBuffer） immutable不可变——长度和元素的值都不可变（List）在scala.collection.mutable/immutable包中，常用的List就是immutable下面的集合。 2、Lis 阅读全文

posted @ 2022-01-06 23:48 戈瑾阅读(660) 评论(0) 推荐(0)

spark学习进度5——Scala中的数组

摘要：一、数组分类 mutable 可变——元素个数和值等可以改变（需要导包） immutable不可变——数组的长度不能被改变，但是值可以被改变在scala.collection.mutable/immutable包中，常用的Array就是immutable下面的数组。二、不可变数组 1、语法 va 阅读全文

posted @ 2022-01-05 19:57 戈瑾阅读(338) 评论(0) 推荐(0)

spark学习进度4——Scala中的元组

摘要：一、Scala中的集合 1、按照常用性进行排序： 1-元组 2-数组（Array，在scala中Array是单独存在的，直接声明Array[type]） 3-List 4-Map 5-Set (去重) 2、以上的集合数据都分为两种（除了元组）： mutable 可变集合——集合声明以后，元素个数和值阅读全文

posted @ 2022-01-04 20:23 戈瑾阅读(369) 评论(0) 推荐(0)

spark学习进度3——Scala方法与函数

摘要：Scala中的方法与函数阅读全文

posted @ 2022-01-03 20:22 戈瑾阅读(149) 评论(0) 推荐(0)

Spark学习进度2——Scala基础

摘要：一、Scala介绍 1、Scala 是一门多范式（multi-paradigm）的编程语言，集成面向对象编程和函数式编程的各种特性。 2、特征： java和scala可以混编运行在jvm之上，可以和java混编； scala可以调用java的包或类，Java也可以调用Scala的包或类类型推断阅读全文

posted @ 2022-01-02 07:37 戈瑾阅读(65) 评论(0) 推荐(0)

Spark学习进度1——Scala安装

摘要：Spark 由 Scala 语言开发的，所以在学习Spark之前，我们需要先简单学习一下Scala语言一、安装要求 1、确保本地已经安装了JDK，并且设置了JAVA_HOME环境编辑和JDK的bin目录。可通过cmd输入java -version来检查。 2、不能安装在带有中文或者空格的目录下面阅读全文

posted @ 2022-01-01 00:11 戈瑾阅读(55) 评论(0) 推荐(0)