随笔分类 - 大数据
摘要:大数据系列文章:👉 目录 👈 文章目录一、Spark Core二、RDD1. RDD 简介2. RDD 的特性(核心属性)Ⅰ)一系列的分区信息(分区列表)2)由一个函数计算每一个分片(分区计算函数)3)RDD 之间的依赖关系4)
阅读全文
摘要:大数据系列文章:👉 目录 👈 文章目录一、WordCount 案例简介二、WordCount 实现1、WordCount 实现分析Ⅰ、Map 阶段Ⅱ、Reduce 阶段2、WordCount 代码实现Ⅰ、Maven 依赖配置Ⅱ、
阅读全文
摘要:大数据系列文章:👉 目录 👈 文章目录 一、下载安装包1. 下载 VMware Workstation2. 小技巧 二、安装软件1. 软件安装2. 虚拟环境搭建 一、下载安装包 1. 下载 VMware Workstation ① 打开 VMware Workstation 官方下载网站 VMw
阅读全文
摘要:大数据系列文章:👉 目录 👈 文章目录 一、题目描述0、背景1、题目一2、题目二3、题目三 二、题解1、题目一详解 —— 学校学生使用频次最多的前30所学校① 相关知识点讲解Ⅰ、Pyecharts Bar 相关使用 ② 本题题解 2、题目二详解 —— 使用频次前五学校学生中男女使用比例① 相关知
阅读全文
摘要:大数据系列文章:👉 目录 👈 文章目录 一、虚拟机环境准备1. 虚拟机网络模式设置为 NAT2. 克隆虚拟机3. 修改虚拟机为静态 IP4. 修改主机名5. 关闭防火墙6. 设置 ssh 免密码登录(只在 Master 这台主机操作) 二、用户及文件权限配置1. 创建用户2. 配置用户具有 ro
阅读全文
摘要:文章目录 问题描述解决方法 问题描述 Hadoop 运行 jar 包出现以下问题 22/09/03 00:34:34 INFO mapreduce.Job: Task Id : attempt_1662133271274_0002_m_000000_1, Status : FAILED Error:
阅读全文
摘要:大数据系列文章:👉 目录 👈 文章目录 ① 通过反射获取 RDD 内的 Scheme② 通过编程接口执行 Scheme 在 Spark SQL 中有两种方式可以在 DataFrame 和 RDD 中进行转换: ① 利用反射机制,推导包含某种类型的 RDD,通过反射将其转换为指定类型的 DataF
阅读全文
摘要:大数据系列文章:👉 目录 👈 文章目录 一、DataFrame SQL 数据操作二、DataFrame API 数据操作 DataFrame 数据操作有两种操作数据的方式,一种是使用 DataFrame所支持的 SQL 语法进行数据操作,另一种使用 DataFrame 提供的相关 API 对数据
阅读全文
摘要:大数据系列文章:👉 目录 👈 文章目录 一、 开发环境准备二、 创建 DataFrame基于 JSON 文件创建 DataFrame 示例 一、 开发环境准备 在项目的 pom.xml 中添加 Maven 的依赖: <!--Spark SQL 基础依赖--> <dependency> <grou
阅读全文
摘要:大数据系列文章:👉 目录 👈 文章目录 一、从集合(内存)中创建 RDD二、从加载文件(外存)创建 RDD三、从 RDD 转换成新的 RDD 一、从集合(内存)中创建 RDD Spark 会将集合中的数据拷贝到集群上去,形成一个分布式的数据集合,也就是形成一个 RDD。也就是说,集合中的部分数据
阅读全文
摘要:大数据系列文章:👉 目录 👈 文章目录 一、Scala 环境搭建1. 首先确保 JDK1.8 安装成功2. 下载对应的 Scala 安装文件。3. 解压 Scala 安装4. 配置 Scala 环境变量 二、Scala 插件安装1. 插件离线安装(建议)2. 插件在线安装(可选) 一、Scala
阅读全文
摘要:大数据系列文章:👉 目录 👈 文章目录 〇、安装前准备一、Spark 安装1、配置 Spark 环境变量2、修改 Spark 配置文件a、配置 workers(slaves)b、配置 spark-env.shc、拷贝 Spark 到其它节点 3、测试 二、Spark Maven 项目配置 〇、安
阅读全文
摘要:文章目录 问题描述解决方法 问题描述 MySQL 只能远程登录,不能本地登录。(这个问题最直观的表现就是这样,还有下面的表现) ① 本地登不上去 [root@master ~]# mysql -uroot -p123456 ERROR 1045 (28000): Access denied for
阅读全文
摘要:大数据系列文章:👉 目录 👈 文章目录 一、Hadoop 概述二、 Hadoop 组件介绍三、Hadoop 版本介绍① Apache Hadoop② Cloudera Hadoop(CDH)③ HortonWorks Hadoop(HDP) 一、Hadoop 概述 Hadoop 是 Apache
阅读全文
摘要:大数据系列文章:👉 目录 👈 文章目录 一、安装前准备1. MySQL rpm 包准备2. CentOS7 环境准备3. XShell 与 Xftp 二、开始安装1. 卸载 MySQL2. 发送 MySQL 安装包到节点主机上3. 安装 MySQL 安装包 三、简单配置1. 配置开机启动2. 修
阅读全文
问题随记 —— file /usr/share/mysql/charsets/README from install of MySQL-server-5.1.73-1.glibc23.x86_64 c
摘要:文章目录 问题描述解决方法 问题描述 安装 MySQL 与 glibc 冲突,报错如下 [root@localhost share]# rpm -ivh MySQL-server-5.1.73-1.glibc23.x86_64.rpm Preparing... ###################
阅读全文
摘要:大数据系列文章:👉 目录 👈 文章目录 〇、概述一、XShell 免费获取 〇、概述 在使用 Linux 虚拟机 需要敲击命令时,当只有一台虚拟机还好,不用来回切换;但如果我们有多台虚拟机同时使用呢? 搭建 Hadoop 集群需要多台虚拟机,只在虚拟机上管理时会有些麻烦,因此需要一个可以方便管理
阅读全文
摘要:大数据系列文章:👉 目录 👈 文章目录 一、环境准备1. 虚拟机准备2. 镜像准备 二、镜像安装1. 虚拟环境准备2. 硬件配置3. CentOS 镜像安装 一、环境准备 1. 虚拟机准备 目前常见的虚拟机有 VMware Workstation、VritualBox等等,在这里我们使用 VMw
阅读全文
摘要:文章目录 编程语言基础Linux 基础环境搭建HadoopHiveScalaSparkSpark CoreSpark SQLSpark Streaming 🎈问题随记环境搭建MySQL 搭建 HadoopMapReduce Hive 编程语言基础 Linux 基础 内容链接CentOS 安装大数据
阅读全文

浙公网安备 33010602011771号