hadoop - 文章分类 - jhtchina

4.3 Sqoop增量数据导入（Hadoop3.0）

摘要：4.3 Sqoop增量数据导入（Hadoop3.0）【实验目的】 1.掌握Sqoop的时间增量抽取 2.掌握Sqoop的字段增量抽取【实验原理】 Sqoop在import时，需要制定split-by参数。Sqoop根据不同的split-by参数值来进行切分，然后将切分出来的区域分配到不同Map中阅读全文

posted @ 2024-06-05 10:45 jhtchina 阅读(189) 评论(0) 推荐(0)

hadoop安全报警

摘要：【漏洞名词】Hadoop 未授权访问【原理扫描】【漏洞说明】Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。在默认情况下，Hadoop允许任意用户访问管理接口。【加固建议】1. 配置Ser 阅读全文

posted @ 2024-06-05 10:43 jhtchina 阅读(25) 评论(0) 推荐(0)

4.4 案例：利用Sqoop进行数据迁移至Mysql数据库

摘要：4.4 案例：利用Sqoop进行数据迁移至Mysql数据库【实验目的】【实验原理】【实验环境】【实验内容】【实验步骤】 1.Sqoop概述 Sqoop是一款开源的工具，主要用于在Hadoop生态系统（Hadoop、Hive等)与传统的数据库(MySQL、Oracle等)间进行数据的传递，可阅读全文

posted @ 2024-06-05 10:42 jhtchina 阅读(148) 评论(0) 推荐(0)

4.2 Sqoop数据导入导出（Hadoop3.0）

摘要：4.2 Sqoop数据导入导出（Hadoop3.0）【实验目的】 1.掌握Sqoop的各种导入操作 2.掌握Sqoop的各种导出操作【实验原理】在导入开始之前，Sqoop使用JDBC来检查将要导入的表。他检索出表中所有的列以及列的SQL数据类型。这些SQL类型（varchar、integer）阅读全文

posted @ 2024-06-05 10:41 jhtchina 阅读(198) 评论(0) 推荐(0)

4.1 Sqoop 安装（Hadoop3.0）

摘要：4.1 Sqoop 安装（Hadoop3.0）【实验目的】 1.了解Sqoop的安装部署 2.了解Sqoop的工作原理【实验原理】 Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(Mysql、Oracle...)间进行数据的传递，可以将一个关系型数据库中的数据导入到阅读全文

posted @ 2024-06-05 10:40 jhtchina 阅读(103) 评论(0) 推荐(0)

3.5 案例：利用HiveSQL离线分析评论数据

摘要：3.5 案例：利用HiveSQL离线分析评论数据【实验目的】利用HiveSQL离线分析评论数据【实验原理】【实验环境】【实验内容】【实验步骤】 1.基础概述 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语阅读全文

posted @ 2024-06-05 10:39 jhtchina 阅读(78) 评论(0) 推荐(0)

3.4 Hive 分组排序（Hadoop3.0系列）

摘要：3.4 Hive 分组排序（Hadoop3.0系列）【实验目的】 1.了解Hive中Order by 、Sort by的用法以及区别 2.了解Hive中Distribute by、Group by以及Cluster by的用法于区别【实验原理】 Hive中支持多种分组操作：Order by、So 阅读全文

posted @ 2024-06-05 10:38 jhtchina 阅读(80) 评论(0) 推荐(0)

3.3 Hive查询（Hadoop3.0系列）

摘要：3.3 Hive查询（Hadoop3.0系列）【实验目的】 1.了解Hive的SQL基本语法 2.掌握Hive多种查询方式【实验原理】 Hive查询操作过程严格遵守Hadoop MapReduce的作业执行模型，Hive将用户的HQL语句通过解释器转换为MapReduce作业提交到Hadoop集阅读全文

posted @ 2024-06-05 10:37 jhtchina 阅读(59) 评论(0) 推荐(0)

3.2 Hive 基本操作（Hadoop3.0）

摘要：3.2 Hive 基本操作（Hadoop3.0）【实验目的】 1.了解Hive的基本操作 2.了解Hive的外部表与普通表的区别【实验原理】 Hive定义了一套自己的SQL，简称HQL，它与关系型数据库的SQL略有不同，但支持了绝大多数的语句如DDL、DML以及常见的聚合函数、连接查询、条件查询阅读全文

posted @ 2024-06-05 10:36 jhtchina 阅读(141) 评论(0) 推荐(0)

3.1 Hive 安装部署（Hadoop3.0）

摘要：3.1 Hive 安装部署（Hadoop3.0）【实验目的】 1.了解Hive的安装部署 2.了解Hive的工作原理【实验原理】 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运阅读全文

posted @ 2024-06-05 10:34 jhtchina 阅读(178) 评论(0) 推荐(0)

2.8 案例：PySpark 处理数据并进行图表分

摘要：2.8 案例：PySpark 处理数据并进行图表分【实验目的】 1.学习PySpark的一些算子 2.结合Python的一些包进行图表分析【实验原理】 PySpark 是 Spark 为 Python 开发者提供的 API ，位于 $SPARK_HOME/bin 目录，其依赖于 Py4J。大体阅读全文

posted @ 2024-06-05 10:33 jhtchina 阅读(67) 评论(0) 推荐(0)

2.7 案例：用户价值分类结果可视化展示

摘要：2.7 案例：用户价值分类结果可视化展示【实验目的】将用户价值分类结果导入MySQL数据库 1.掌握Python连接数据库方式 2.掌握python导入数据到数据库的方式【实验原理】常见的Python读取数据源文件格式和文件系统。对于存储在本地文件系统或分布式文件系统（比如HDFS）中的数阅读全文

posted @ 2024-06-05 10:32 jhtchina 阅读(30) 评论(0) 推荐(0)

2.6 案例：PySpark实现用户价值分类

摘要：2.6 案例：PySpark实现用户价值分类【实验目的】 1.分析RFM各自的含义 2.创建RFM(R值)得分表 3.创建RFM(F值)得分表 4.创建用户价值分类表【实验原理】 RFM解读： RFM分析法对用户进行量化分类，便于对客户进行差异化营销。RFM模型含义如下： R，Recency，近阅读全文

posted @ 2024-06-05 10:30 jhtchina 阅读(58) 评论(0) 推荐(0)

2.5 PySpark SQL-数据表操作

摘要：2.5 PySpark SQL-数据表操作【实验目的】 1.了解PySpark Shell 2.学习使用PySpark Shell模式，创建表及查询数据【实验原理】 Spark SQL的前身是Shark，Shark是伯克利实验室Spark生态环境的组件之一，它能运行在Spark引擎上，从而使得S 阅读全文

posted @ 2024-06-05 10:28 jhtchina 阅读(53) 评论(0) 推荐(0)

2.4 PySpark SQL-DataFrame文件处理

摘要：2.4 PySpark SQL-DataFrame文件处理【实验目的】 1.掌握PySpark SQL的基本操作 2.了解PySpark SQL对文件的存储【实验原理】 Spark SQL重要的是操作DataFrame，DataFrame本身提供了Save和Load的操作， Load：可以创建D 阅读全文

posted @ 2024-06-05 10:28 jhtchina 阅读(60) 评论(0) 推荐(0)

2.3 PySpark安装（Hadoop3.0）

摘要：2.3 PySpark安装（Hadoop3.0）【实验目的】1.学习PySpark的安装配置2.了解PySpark的运行原理【实验原理】PySpark简介：官方对PySpark的释义为：“PySpark is the Python API for Spark”。也就是说pyspark为Spark提阅读全文

posted @ 2024-06-05 10:26 jhtchina 阅读(104) 评论(0) 推荐(0)

2.2 Spark Shell 操作（Hadoop3.0）

摘要：2.2 Spark Shell 操作（Hadoop3.0）【实验目的】 1.了解Scala语言的基本语法 2.了解Spark Shell数据处理的原理 3.了解Spark算子的使用 4.了解Spark Shell和MapReduce对数据处理的不同点【实验原理】 Spark shell是一个特别阅读全文

posted @ 2024-06-05 10:25 jhtchina 阅读(475) 评论(0) 推荐(0)

2.1 Spark Standalone 伪分布模式安装（Hadoop3.0）

摘要：2.1 Spark Standalone 伪分布模式安装（Hadoop3.0）【实验目的】 1.熟练掌握Spark Standalone伪分布模式的安装流程 2.准确理解Spark Standalone伪分布模式的运行原理 3.学会独立进行SparkStandalone伪分布模式安装【实验原理】阅读全文

posted @ 2024-06-05 10:23 jhtchina 阅读(109) 评论(0) 推荐(0)

1.7MapReduce 实例：求平均值（Hadoop3.0）

摘要：1.7MapReduce 实例：求平均值（Hadoop3.0）【实验目的】 1.准确理解Mapreduce求平均值的设计原理 2.熟练掌握Mapreduce求平均值程序的编写 3.学会编写Mapreduce求平均值程序代码解决问题【实验原理】求平均数是MapReduce比较常见的算法，求平均数阅读全文

posted @ 2024-06-05 10:20 jhtchina 阅读(159) 评论(0) 推荐(0)

1.6MapReduce 实例：行统计（Hadoop3.0）

摘要：1.6MapReduce 实例：行统计（Hadoop3.0）【实验目的】 1.准确理解Mapreduce的设计原理 2.熟练掌握mapreduce行统计程序代码编写【实验原理】 MapReduce采用的是“分而治之”的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个从节点共同完成，然后阅读全文

posted @ 2024-06-05 10:19 jhtchina 阅读(126) 评论(0) 推荐(0)

厚道善良守信宽容诚实谦虚正直执着

文章分类 - hadoop

公告

厚道 善良 守信 宽容 诚实 谦虚 正直 执着

文章分类 - hadoop

公告

厚道善良守信宽容诚实谦虚正直执着