摘要: 在介绍 Spark SQL之前,我们先了解两种基本的数据分析方式。 一、数据分析的两种方式 数据分析的方式大致上可以划分为 SQL 和 命令式两种。 命令式 在前面的 RDD部分,非常明显可以感觉的到是命令式的,主要特征是通过一个算子,可以得到一个结果,通过结果再进行后续计算。例如: sc.para 阅读全文
posted @ 2021-02-13 09:07 大雪初晴丶 阅读(311) 评论(0) 推荐(0) 编辑
摘要: Anaconda Navigator 闪退或者出现绿色图表但始终出不来界面,与打开Navigator后的 base 环境一直转圈加载是一个问题,解决方法都是如下几步。 我们使用 管理员打开 Anaconda Prompt,依次输入以下几条命令,其中几条需要根据提示再次输入 yes。 1、升级navi 阅读全文
posted @ 2021-02-07 13:33 大雪初晴丶 阅读(2816) 评论(0) 推荐(0) 编辑
摘要: 第一个神经元网络就使用最简单的全连接神经网络。 使用tensorflow里的 fashion_mnist 服饰数据集 来完成此次的入门案例,建议使用 jupyter 分步执行,每步都理解掌握。 数据集介绍:大概60000张图片,分成了衣服帽子鞋子等等10个类别。每张图片是由 28*28 个像素组成的 阅读全文
posted @ 2021-02-06 18:06 大雪初晴丶 阅读(391) 评论(0) 推荐(0) 编辑
摘要: 一、tf.Keras 介绍 在 tensorflow中使用 keras库 来进行神经网络模型的训练。它是tensorflow的高阶API,可以快速搭建和训练神经网络模型。 特点: 面向对象,完全模块化 支持神经网络和深度学习的主流算法 支持多操作系统的多GPU并行计算 可以将其作为深度学习库的前端 阅读全文
posted @ 2021-02-04 12:02 大雪初晴丶 阅读(720) 评论(0) 推荐(0) 编辑
摘要: 一、Variable 可训练变量 对Tensor对象的进一步封装 在模型训练过程中自动记录梯度信息,由算法自动优化 可以被训练的变量 在机器学习中作为模型参数 1、创建 Variable 对象 使用如下命令进行 variable 对象的创建。 tf.Variable(initial_value, d 阅读全文
posted @ 2021-02-03 15:02 大雪初晴丶 阅读(233) 评论(0) 推荐(0) 编辑
摘要: 一、维度变换 多维张量在物理上以一维的方式连续存储,通过定义维度和形状,在逻辑上把它理解为多维张量。 当对多维张量进行维度变换时,只是改变了逻辑上索引的方式,没有改变内存中的存储方式。 1、改变张量形状 使用函数:tf.reshape(tensor, shape) shape参数=-1:表示自动推导 阅读全文
posted @ 2021-01-28 22:05 大雪初晴丶 阅读(778) 评论(0) 推荐(0) 编辑
摘要: Tensorflow2.0特性 相较于1.0,tensorflow2.0是一次重大革命性的改进,主要是以下几个方面。 (1)1.0 使用的是静态图机制,即分为构建阶段和部署阶段,构建阶段只描述了计算图,并没有实质的进行计算,而是在执行阶段中,在会话层进行统一的一次性计算,优点是高效节省资源,却没有中 阅读全文
posted @ 2021-01-27 22:08 大雪初晴丶 阅读(258) 评论(0) 推荐(0) 编辑
摘要: 在上篇讲解完常用的RDD算子的具体使用后,我们本节来理解RDD的特性,包括三个方面: 1、RDD 的分区和Shuffle过程 2、RDD 缓存 3、RDD 的 CheckPoint RDD的Shuffle和分区 分区的作用 (1)RDD经常需要通过读取外部系统的数据来创建,外部存储系统往往是支持分片 阅读全文
posted @ 2021-01-20 20:59 大雪初晴丶 阅读(381) 评论(0) 推荐(0) 编辑
摘要: RDD算子分类 RDD 中的算子从功能上分为两大类 Transformation(转换) 它会在一个已经存在的 RDD 上创建一个新的 RDD, 将旧的 RDD 的数据转换为另外一种形式后放入新的 RDD,让RDD之间具有联系,只是生成RDD链条,并不会真的执行整个程序,只有在动作Action时,程 阅读全文
posted @ 2021-01-18 10:38 大雪初晴丶 阅读(109) 评论(0) 推荐(0) 编辑
摘要: RDD概念 Spark 的核心是建立在统一的抽象弹性分布式数据集(Resiliennt Distributed Datasets,RDD)之上的,这使得 Spark 的各个组件可以无缝地进行集成,能够在同一个应用程序中完成大数据的处理。 RDD是什么 RDD,全称 弹性分布式数据集 (Resilie 阅读全文
posted @ 2021-01-16 16:40 大雪初晴丶 阅读(105) 评论(0) 推荐(0) 编辑
摘要: 基于上篇的Scala基础语法,本篇讲解Scala的面向对象编程和函数式编程。 一、面向对象编程 1、类 最简单的类的定义形式: class Counter{ private var value = 0 def increment(): Unit ={ value += 1 } def current 阅读全文
posted @ 2021-01-14 19:52 大雪初晴丶 阅读(223) 评论(0) 推荐(0) 编辑
摘要: 本篇博客主要了解基础重要的Scala语法,为 spark 的学习打下基础。 1、基本语法 1.1 声明值和变量 Scala有两种类型的变量: val: 是不可变的,在声明时就必须被初始化,而且初始化以后就不能再赋值; var: 是可变的,声明的时候需要进行初始化,初始化以后还可以再次对其赋值。 1. 阅读全文
posted @ 2021-01-13 19:19 大雪初晴丶 阅读(329) 评论(0) 推荐(0) 编辑
摘要: 每天进度一总结,月底打满二十天。 Spark的集群配置与启动 在已有的Hadoop集群上安装spark集群,需要注意两者的版本对应问题。本人Hadoop为2.7.7,Spark为2.4.7,Scala为2.11.8,Java为1.8。 将下载好的spark解压到自己指定的目录,然后进行如下配置。 1 阅读全文
posted @ 2021-01-11 22:10 大雪初晴丶 阅读(211) 评论(0) 推荐(0) 编辑
摘要: 问题描述 今天运行IDEA,莫名其妙没反应,不报错,也打不开,资源管理器中也没有相应的 IDEA 进程,卸载重装也没能解决,捣鼓了一天发现,原来是 IDEA 破解失效的原因! 解决方法 主要问题便是之前使用的破解方法失效,而这个破解已经写入了C盘的相应位置,卸载重装并不能重置这部分内容。 我们到C盘 阅读全文
posted @ 2020-12-27 09:42 大雪初晴丶 阅读(7635) 评论(0) 推荐(0) 编辑
摘要: 所学时间(包括上课) 12个小时 代码量(行) 1400百左右 博客量 3篇 了解到的知识点 vs2019写C#程序 重大需求基本功能实现 阅读全文
posted @ 2020-12-19 21:50 大雪初晴丶 阅读(70) 评论(0) 推荐(0) 编辑