随笔分类 -  大数据

摘要:大数据系列文章:​​👉 目录 👈​​ 文章目录​​一、Spark Core​​​​二、RDD​​​​1. RDD 简介​​​​2. RDD 的特性(核心属性)​​​​Ⅰ)一系列的分区信息(分区列表)​​​​2)由一个函数计算每一个分片(分区计算函数)​​​​3)RDD 之间的依赖关系​​​​4) 阅读全文
posted @ 2022-12-28 11:38 繁依Fanyi 阅读(12) 评论(0) 推荐(0)
摘要:大数据系列文章:​​👉 目录 👈​​ 文章目录​​一、WordCount 案例简介​​​​二、WordCount 实现​​​​1、WordCount 实现分析​​​​Ⅰ、Map 阶段​​​​Ⅱ、Reduce 阶段​​​​2、WordCount 代码实现​​​​Ⅰ、Maven 依赖配置​​​​Ⅱ、 阅读全文
posted @ 2022-12-28 11:35 繁依Fanyi 阅读(27) 评论(0) 推荐(0)
摘要:大数据系列文章:👉 目录 👈 文章目录 一、下载安装包1. 下载 VMware Workstation2. 小技巧 二、安装软件1. 软件安装2. 虚拟环境搭建 一、下载安装包 1. 下载 VMware Workstation ① 打开 VMware Workstation 官方下载网站 VMw 阅读全文
posted @ 2022-11-11 20:08 繁依Fanyi 阅读(32) 评论(0) 推荐(0)
摘要:大数据系列文章:👉 目录 👈 文章目录 一、题目描述0、背景1、题目一2、题目二3、题目三 二、题解1、题目一详解 —— 学校学生使用频次最多的前30所学校① 相关知识点讲解Ⅰ、Pyecharts Bar 相关使用 ② 本题题解 2、题目二详解 —— 使用频次前五学校学生中男女使用比例① 相关知 阅读全文
posted @ 2022-10-28 21:08 繁依Fanyi 阅读(22) 评论(0) 推荐(0)
摘要:大数据系列文章:👉 目录 👈 文章目录 一、虚拟机环境准备1. 虚拟机网络模式设置为 NAT2. 克隆虚拟机3. 修改虚拟机为静态 IP4. 修改主机名5. 关闭防火墙6. 设置 ssh 免密码登录(只在 Master 这台主机操作) 二、用户及文件权限配置1. 创建用户2. 配置用户具有 ro 阅读全文
posted @ 2022-09-02 23:30 繁依Fanyi 阅读(24) 评论(0) 推荐(0)
摘要:文章目录 问题描述解决方法 问题描述 Hadoop 运行 jar 包出现以下问题 22/09/03 00:34:34 INFO mapreduce.Job: Task Id : attempt_1662133271274_0002_m_000000_1, Status : FAILED Error: 阅读全文
posted @ 2022-09-02 16:55 繁依Fanyi 阅读(15) 评论(0) 推荐(0)
摘要:大数据系列文章:👉 目录 👈 文章目录 ① 通过反射获取 RDD 内的 Scheme② 通过编程接口执行 Scheme 在 Spark SQL 中有两种方式可以在 DataFrame 和 RDD 中进行转换: ① 利用反射机制,推导包含某种类型的 RDD,通过反射将其转换为指定类型的 DataF 阅读全文
posted @ 2022-09-01 17:54 繁依Fanyi 阅读(28) 评论(0) 推荐(0)
摘要:大数据系列文章:👉 目录 👈 文章目录 一、DataFrame SQL 数据操作二、DataFrame API 数据操作 DataFrame 数据操作有两种操作数据的方式,一种是使用 DataFrame所支持的 SQL 语法进行数据操作,另一种使用 DataFrame 提供的相关 API 对数据 阅读全文
posted @ 2022-09-01 07:25 繁依Fanyi 阅读(17) 评论(0) 推荐(0)
摘要:大数据系列文章:👉 目录 👈 文章目录 一、 开发环境准备二、 创建 DataFrame基于 JSON 文件创建 DataFrame 示例 一、 开发环境准备 在项目的 pom.xml 中添加 Maven 的依赖: <!--Spark SQL 基础依赖--> <dependency> <grou 阅读全文
posted @ 2022-09-01 00:03 繁依Fanyi 阅读(7) 评论(0) 推荐(0)
摘要:大数据系列文章:👉 目录 👈 文章目录 一、从集合(内存)中创建 RDD二、从加载文件(外存)创建 RDD三、从 RDD 转换成新的 RDD 一、从集合(内存)中创建 RDD Spark 会将集合中的数据拷贝到集群上去,形成一个分布式的数据集合,也就是形成一个 RDD。也就是说,集合中的部分数据 阅读全文
posted @ 2022-08-27 06:32 繁依Fanyi 阅读(22) 评论(0) 推荐(0)
摘要:大数据系列文章:👉 目录 👈 文章目录 一、Scala 环境搭建1. 首先确保 JDK1.8 安装成功2. 下载对应的 Scala 安装文件。3. 解压 Scala 安装4. 配置 Scala 环境变量 二、Scala 插件安装1. 插件离线安装(建议)2. 插件在线安装(可选) 一、Scala 阅读全文
posted @ 2022-08-26 19:06 繁依Fanyi 阅读(16) 评论(0) 推荐(0)
摘要:大数据系列文章:👉 目录 👈 文章目录 〇、安装前准备一、Spark 安装1、配置 Spark 环境变量2、修改 Spark 配置文件a、配置 workers(slaves)b、配置 spark-env.shc、拷贝 Spark 到其它节点 3、测试 二、Spark Maven 项目配置 〇、安 阅读全文
posted @ 2022-08-18 10:46 繁依Fanyi 阅读(156) 评论(0) 推荐(0)
摘要:文章目录 问题描述解决方法 问题描述 MySQL 只能远程登录,不能本地登录。(这个问题最直观的表现就是这样,还有下面的表现) ① 本地登不上去 [root@master ~]# mysql -uroot -p123456 ERROR 1045 (28000): Access denied for 阅读全文
posted @ 2022-08-11 01:35 繁依Fanyi 阅读(12) 评论(0) 推荐(0)
摘要:大数据系列文章:👉 目录 👈 文章目录 一、Hadoop 概述二、 Hadoop 组件介绍三、Hadoop 版本介绍① Apache Hadoop② Cloudera Hadoop(CDH)③ HortonWorks Hadoop(HDP) 一、Hadoop 概述 Hadoop 是 Apache 阅读全文
posted @ 2022-07-03 23:58 繁依Fanyi 阅读(78) 评论(0) 推荐(0)
摘要:大数据系列文章:👉 目录 👈 文章目录 一、安装前准备1. MySQL rpm 包准备2. CentOS7 环境准备3. XShell 与 Xftp 二、开始安装1. 卸载 MySQL2. 发送 MySQL 安装包到节点主机上3. 安装 MySQL 安装包 三、简单配置1. 配置开机启动2. 修 阅读全文
posted @ 2022-07-01 19:13 繁依Fanyi 阅读(24) 评论(0) 推荐(0)
摘要:文章目录 问题描述解决方法 问题描述 安装 MySQL 与 glibc 冲突,报错如下 [root@localhost share]# rpm -ivh MySQL-server-5.1.73-1.glibc23.x86_64.rpm Preparing... ################### 阅读全文
posted @ 2022-07-01 18:45 繁依Fanyi 阅读(15) 评论(0) 推荐(0)
摘要:大数据系列文章:👉 目录 👈 文章目录 〇、概述一、XShell 免费获取 〇、概述 在使用 Linux 虚拟机 需要敲击命令时,当只有一台虚拟机还好,不用来回切换;但如果我们有多台虚拟机同时使用呢? 搭建 Hadoop 集群需要多台虚拟机,只在虚拟机上管理时会有些麻烦,因此需要一个可以方便管理 阅读全文
posted @ 2022-06-19 00:09 繁依Fanyi 阅读(44) 评论(0) 推荐(0)
摘要:大数据系列文章:👉 目录 👈 文章目录 一、环境准备1. 虚拟机准备2. 镜像准备 二、镜像安装1. 虚拟环境准备2. 硬件配置3. CentOS 镜像安装 一、环境准备 1. 虚拟机准备 目前常见的虚拟机有 VMware Workstation、VritualBox等等,在这里我们使用 VMw 阅读全文
posted @ 2022-06-06 19:49 繁依Fanyi 阅读(20) 评论(0) 推荐(0)
摘要:文章目录 编程语言基础Linux 基础环境搭建HadoopHiveScalaSparkSpark CoreSpark SQLSpark Streaming 🎈问题随记环境搭建MySQL 搭建 HadoopMapReduce Hive 编程语言基础 Linux 基础 内容链接CentOS 安装大数据 阅读全文
posted @ 2022-06-05 10:48 繁依Fanyi 阅读(13) 评论(0) 推荐(0)