大数据 - 随笔分类 - 繁依Fanyi

大数据随记 —— Spark Core 与 RDD 简介

摘要：大数据系列文章：👉 目录 👈 文章目录一、Spark Core二、RDD1. RDD 简介2. RDD 的特性（核心属性）Ⅰ）一系列的分区信息（分区列表）2）由一个函数计算每一个分片（分区计算函数）3）RDD 之间的依赖关系4）阅读全文

posted @ 2022-12-28 11:38 繁依Fanyi 阅读(12) 评论(0) 推荐(0)

大数据随记 —— WordCount 案例

摘要：大数据系列文章：👉 目录 👈 文章目录一、WordCount 案例简介二、WordCount 实现1、WordCount 实现分析Ⅰ、Map 阶段Ⅱ、Reduce 阶段2、WordCount 代码实现Ⅰ、Maven 依赖配置Ⅱ、阅读全文

posted @ 2022-12-28 11:35 繁依Fanyi 阅读(27) 评论(0) 推荐(0)

大数据环境搭建 —— VMware Workstation 安装详细教程

摘要：大数据系列文章：👉 目录 👈 文章目录一、下载安装包1. 下载 VMware Workstation2. 小技巧二、安装软件1. 软件安装2. 虚拟环境搭建一、下载安装包 1. 下载 VMware Workstation ① 打开 VMware Workstation 官方下载网站 VMw 阅读全文

posted @ 2022-11-11 20:08 繁依Fanyi 阅读(33) 评论(0) 推荐(0)

大数据随记 —— 利用Python分析快手APP全国大学生用户数据（2022 年初赛第四题）

摘要：大数据系列文章：👉 目录 👈 文章目录一、题目描述0、背景1、题目一2、题目二3、题目三二、题解1、题目一详解 —— 学校学生使用频次最多的前30所学校① 相关知识点讲解Ⅰ、Pyecharts Bar 相关使用 ② 本题题解 2、题目二详解 —— 使用频次前五学校学生中男女使用比例① 相关知阅读全文

posted @ 2022-10-28 21:08 繁依Fanyi 阅读(24) 评论(0) 推荐(0)

大数据随记 —— Hadoop 环境搭建

摘要：大数据系列文章：👉 目录 👈 文章目录一、虚拟机环境准备1. 虚拟机网络模式设置为 NAT2. 克隆虚拟机3. 修改虚拟机为静态 IP4. 修改主机名5. 关闭防火墙6. 设置 ssh 免密码登录（只在 Master 这台主机操作）二、用户及文件权限配置1. 创建用户2. 配置用户具有 ro 阅读全文

posted @ 2022-09-02 23:30 繁依Fanyi 阅读(25) 评论(0) 推荐(0)

问题随记 —— org.apache.hadoop.io.LongWritable cannot be cast to org.apache.hadoop.io.IntWritable

摘要：文章目录问题描述解决方法问题描述 Hadoop 运行 jar 包出现以下问题 22/09/03 00:34:34 INFO mapreduce.Job: Task Id : attempt_1662133271274_0002_m_000000_1, Status : FAILED Error: 阅读全文

posted @ 2022-09-02 16:55 繁依Fanyi 阅读(15) 评论(0) 推荐(0)

大数据随记 —— DataFrame 与 RDD 之间的相互转换

摘要：大数据系列文章：👉 目录 👈 文章目录 ① 通过反射获取 RDD 内的 Scheme② 通过编程接口执行 Scheme 在 Spark SQL 中有两种方式可以在 DataFrame 和 RDD 中进行转换： ① 利用反射机制，推导包含某种类型的 RDD，通过反射将其转换为指定类型的 DataF 阅读全文

posted @ 2022-09-01 17:54 繁依Fanyi 阅读(29) 评论(0) 推荐(0)

大数据随记 —— DataFrame 数据操作

摘要：大数据系列文章：👉 目录 👈 文章目录一、DataFrame SQL 数据操作二、DataFrame API 数据操作 DataFrame 数据操作有两种操作数据的方式，一种是使用 DataFrame所支持的 SQL 语法进行数据操作，另一种使用 DataFrame 提供的相关 API 对数据阅读全文

posted @ 2022-09-01 07:25 繁依Fanyi 阅读(17) 评论(0) 推荐(0)

大数据随记 —— DataFrame 的创建与 Maven 配置

摘要：大数据系列文章：👉 目录 👈 文章目录一、开发环境准备二、创建 DataFrame基于 JSON 文件创建 DataFrame 示例一、开发环境准备在项目的 pom.xml 中添加 Maven 的依赖：  <dependency> <grou 阅读全文

posted @ 2022-09-01 00:03 繁依Fanyi 阅读(7) 评论(0) 推荐(0)

大数据随记 —— RDD 的创建

摘要：大数据系列文章：👉 目录 👈 文章目录一、从集合（内存）中创建 RDD二、从加载文件（外存）创建 RDD三、从 RDD 转换成新的 RDD 一、从集合（内存）中创建 RDD Spark 会将集合中的数据拷贝到集群上去，形成一个分布式的数据集合，也就是形成一个 RDD。也就是说，集合中的部分数据阅读全文

posted @ 2022-08-27 06:32 繁依Fanyi 阅读(23) 评论(0) 推荐(0)

大数据随记 —— Scala 环境搭建、插件安装

摘要：大数据系列文章：👉 目录 👈 文章目录一、Scala 环境搭建1. 首先确保 JDK1.8 安装成功2. 下载对应的 Scala 安装文件。3. 解压 Scala 安装4. 配置 Scala 环境变量二、Scala 插件安装1. 插件离线安装（建议）2. 插件在线安装（可选）一、Scala 阅读全文

posted @ 2022-08-26 19:06 繁依Fanyi 阅读(16) 评论(0) 推荐(0)

大数据随记 —— Spark 基本安装及相关配置

摘要：大数据系列文章：👉 目录 👈 文章目录〇、安装前准备一、Spark 安装1、配置 Spark 环境变量2、修改 Spark 配置文件a、配置 workers（slaves）b、配置 spark-env.shc、拷贝 Spark 到其它节点 3、测试二、Spark Maven 项目配置〇、安阅读全文

posted @ 2022-08-18 10:46 繁依Fanyi 阅读(156) 评论(0) 推荐(0)

大数据随记 —— MySQL 只能远程登录，不能本地登录

摘要：文章目录问题描述解决方法问题描述 MySQL 只能远程登录，不能本地登录。（这个问题最直观的表现就是这样，还有下面的表现） ① 本地登不上去 [root@master ~]# mysql -uroot -p123456 ERROR 1045 (28000): Access denied for 阅读全文

posted @ 2022-08-11 01:35 繁依Fanyi 阅读(13) 评论(0) 推荐(0)

大数据随记 —— Hadoop 概述

摘要：大数据系列文章：👉 目录 👈 文章目录一、Hadoop 概述二、 Hadoop 组件介绍三、Hadoop 版本介绍① Apache Hadoop② Cloudera Hadoop（CDH）③ HortonWorks Hadoop（HDP）一、Hadoop 概述 Hadoop 是 Apache 阅读全文

posted @ 2022-07-03 23:58 繁依Fanyi 阅读(79) 评论(0) 推荐(0)

Linux基础 —— CentOS7 离线安装 MySQL

摘要：大数据系列文章：👉 目录 👈 文章目录一、安装前准备1. MySQL rpm 包准备2. CentOS7 环境准备3. XShell 与 Xftp 二、开始安装1. 卸载 MySQL2. 发送 MySQL 安装包到节点主机上3. 安装 MySQL 安装包三、简单配置1. 配置开机启动2. 修阅读全文

posted @ 2022-07-01 19:13 繁依Fanyi 阅读(24) 评论(0) 推荐(0)

问题随记 —— file /usr/share/mysql/charsets/README from install of MySQL-server-5.1.73-1.glibc23.x86_64 c

摘要：文章目录问题描述解决方法问题描述安装 MySQL 与 glibc 冲突，报错如下 [root@localhost share]# rpm -ivh MySQL-server-5.1.73-1.glibc23.x86_64.rpm Preparing... ################### 阅读全文

posted @ 2022-07-01 18:45 繁依Fanyi 阅读(16) 评论(0) 推荐(0)

Linux基础 —— XShell 免费获取指南

摘要：大数据系列文章：👉 目录 👈 文章目录〇、概述一、XShell 免费获取〇、概述在使用 Linux 虚拟机需要敲击命令时，当只有一台虚拟机还好，不用来回切换；但如果我们有多台虚拟机同时使用呢？搭建 Hadoop 集群需要多台虚拟机，只在虚拟机上管理时会有些麻烦，因此需要一个可以方便管理阅读全文

posted @ 2022-06-19 00:09 繁依Fanyi 阅读(46) 评论(0) 推荐(0)

大数据环境搭建 —— CentOS 安装

摘要：大数据系列文章：👉 目录 👈 文章目录一、环境准备1. 虚拟机准备2. 镜像准备二、镜像安装1. 虚拟环境准备2. 硬件配置3. CentOS 镜像安装一、环境准备 1. 虚拟机准备目前常见的虚拟机有 VMware Workstation、VritualBox等等，在这里我们使用 VMw 阅读全文

posted @ 2022-06-06 19:49 繁依Fanyi 阅读(20) 评论(0) 推荐(0)

大数据系列教程 —— 目录

摘要：文章目录编程语言基础Linux 基础环境搭建HadoopHiveScalaSparkSpark CoreSpark SQLSpark Streaming 🎈问题随记环境搭建MySQL 搭建 HadoopMapReduce Hive 编程语言基础 Linux 基础内容链接CentOS 安装大数据阅读全文

posted @ 2022-06-05 10:48 繁依Fanyi 阅读(13) 评论(0) 推荐(0)

techfanyi

随笔分类 - 大数据

公告