文章分类 -  hadoop

摘要:4.3 Sqoop增量数据导入(Hadoop3.0) 【实验目的】 1.掌握Sqoop的时间增量抽取 2.掌握Sqoop的字段增量抽取 【实验原理】 Sqoop在import时,需要制定split-by参数。Sqoop根据不同的split-by参数值来进行切分,然后将切分出来的区域分配到不同Map中 阅读全文
posted @ 2024-06-05 10:45 jhtchina 阅读(189) 评论(0) 推荐(0)
摘要:【漏洞名词】Hadoop 未授权访问【原理扫描】【漏洞说明】Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。在默认情况下,Hadoop允许任意用户访问管理接口。【加固建议】1. 配置Ser 阅读全文
posted @ 2024-06-05 10:43 jhtchina 阅读(25) 评论(0) 推荐(0)
摘要:4.4 案例:利用Sqoop进行数据迁移至Mysql数据库 【实验目的】 【实验原理】 【实验环境】 【实验内容】 【实验步骤】 1.Sqoop概述 Sqoop是一款开源的工具,主要用于在Hadoop生态系统(Hadoop、Hive等)与传统的数据库(MySQL、Oracle等)间进行数据的传递,可 阅读全文
posted @ 2024-06-05 10:42 jhtchina 阅读(148) 评论(0) 推荐(0)
摘要:4.2 Sqoop数据导入导出(Hadoop3.0) 【实验目的】 1.掌握Sqoop的各种导入操作 2.掌握Sqoop的各种导出操作 【实验原理】 在导入开始之前,Sqoop使用JDBC来检查将要导入的表。他检索出表中所有的列以及列的SQL数据类型。这些SQL类型(varchar、integer) 阅读全文
posted @ 2024-06-05 10:41 jhtchina 阅读(198) 评论(0) 推荐(0)
摘要:4.1 Sqoop 安装(Hadoop3.0) 【实验目的】 1.了解Sqoop的安装部署 2.了解Sqoop的工作原理 【实验原理】 Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(Mysql、Oracle...)间进行数据的传递,可以将一个关系型数据库中的数据导入到 阅读全文
posted @ 2024-06-05 10:40 jhtchina 阅读(103) 评论(0) 推荐(0)
摘要:3.5 案例:利用HiveSQL离线分析评论数据 【实验目的】 利用HiveSQL离线分析评论数据 【实验原理】 【实验环境】 【实验内容】 【实验步骤】 1.基础概述 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语 阅读全文
posted @ 2024-06-05 10:39 jhtchina 阅读(78) 评论(0) 推荐(0)
摘要:3.4 Hive 分组排序(Hadoop3.0系列) 【实验目的】 1.了解Hive中Order by 、Sort by的用法以及区别 2.了解Hive中Distribute by、Group by以及Cluster by的用法于区别 【实验原理】 Hive中支持多种分组操作:Order by、So 阅读全文
posted @ 2024-06-05 10:38 jhtchina 阅读(80) 评论(0) 推荐(0)
摘要:3.3 Hive查询(Hadoop3.0系列) 【实验目的】 1.了解Hive的SQL基本语法 2.掌握Hive多种查询方式 【实验原理】 Hive查询操作过程严格遵守Hadoop MapReduce的作业执行模型,Hive将用户的HQL语句通过解释器转换为MapReduce作业提交到Hadoop集 阅读全文
posted @ 2024-06-05 10:37 jhtchina 阅读(59) 评论(0) 推荐(0)
摘要:3.2 Hive 基本操作(Hadoop3.0) 【实验目的】 1.了解Hive的基本操作 2.了解Hive的外部表与普通表的区别 【实验原理】 Hive定义了一套自己的SQL,简称HQL,它与关系型数据库的SQL略有不同,但支持了绝大多数的语句如DDL、DML以及常见的聚合函数、连接查询、条件查询 阅读全文
posted @ 2024-06-05 10:36 jhtchina 阅读(141) 评论(0) 推荐(0)
摘要:3.1 Hive 安装部署(Hadoop3.0) 【实验目的】 1.了解Hive的安装部署 2.了解Hive的工作原理 【实验原理】 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运 阅读全文
posted @ 2024-06-05 10:34 jhtchina 阅读(178) 评论(0) 推荐(0)
摘要:2.8 案例:PySpark 处理数据并进行图表分 【实验目的】 1.学习PySpark的一些算子 2.结合Python的一些包进行图表分析 【实验原理】 PySpark 是 Spark 为 Python 开发者提供的 API ,位于 $SPARK_HOME/bin 目录,其依赖于 Py4J。 大体 阅读全文
posted @ 2024-06-05 10:33 jhtchina 阅读(67) 评论(0) 推荐(0)
摘要:2.7 案例:用户价值分类结果可视化展示 【实验目的】 将用户价值分类结果导入MySQL数据库 1.掌握Python连接数据库方式 2.掌握python导入数据到数据库的方式 【实验原理】 常见的Python读取数据源 文件格式和文件系统。对于存储在本地文件系统或分布式文件系统(比如HDFS)中的数 阅读全文
posted @ 2024-06-05 10:32 jhtchina 阅读(30) 评论(0) 推荐(0)
摘要:2.6 案例:PySpark实现用户价值分类 【实验目的】 1.分析RFM各自的含义 2.创建RFM(R值)得分表 3.创建RFM(F值)得分表 4.创建用户价值分类表 【实验原理】 RFM解读: RFM分析法对用户进行量化分类,便于对客户进行差异化营销。RFM模型含义如下: R,Recency,近 阅读全文
posted @ 2024-06-05 10:30 jhtchina 阅读(58) 评论(0) 推荐(0)
摘要:2.5 PySpark SQL-数据表操作 【实验目的】 1.了解PySpark Shell 2.学习使用PySpark Shell模式,创建表及查询数据 【实验原理】 Spark SQL的前身是Shark,Shark是伯克利实验室Spark生态环境的组件之一,它能运行在Spark引擎上,从而使得S 阅读全文
posted @ 2024-06-05 10:28 jhtchina 阅读(53) 评论(0) 推荐(0)
摘要:2.4 PySpark SQL-DataFrame文件处理 【实验目的】 1.掌握PySpark SQL的基本操作 2.了解PySpark SQL对文件的存储 【实验原理】 Spark SQL重要的是操作DataFrame,DataFrame本身提供了Save和Load的操作, Load:可以创建D 阅读全文
posted @ 2024-06-05 10:28 jhtchina 阅读(60) 评论(0) 推荐(0)
摘要:2.3 PySpark安装(Hadoop3.0)【实验目的】1.学习PySpark的安装配置2.了解PySpark的运行原理【实验原理】PySpark简介:官方对PySpark的释义为:“PySpark is the Python API for Spark”。 也就是说pyspark为Spark提 阅读全文
posted @ 2024-06-05 10:26 jhtchina 阅读(104) 评论(0) 推荐(0)
摘要:2.2 Spark Shell 操作(Hadoop3.0) 【实验目的】 1.了解Scala语言的基本语法 2.了解Spark Shell数据处理的原理 3.了解Spark算子的使用 4.了解Spark Shell和MapReduce对数据处理的不同点 【实验原理】 Spark shell是一个特别 阅读全文
posted @ 2024-06-05 10:25 jhtchina 阅读(475) 评论(0) 推荐(0)
摘要:2.1 Spark Standalone 伪分布模式安装(Hadoop3.0) 【实验目的】 1.熟练掌握Spark Standalone伪分布模式的安装流程 2.准确理解Spark Standalone伪分布模式的运行原理 3.学会独立进行SparkStandalone伪分布模式安装 【实验原理】 阅读全文
posted @ 2024-06-05 10:23 jhtchina 阅读(109) 评论(0) 推荐(0)
摘要:1.7MapReduce 实例:求平均值(Hadoop3.0) 【实验目的】 1.准确理解Mapreduce求平均值的设计原理 2.熟练掌握Mapreduce求平均值程序的编写 3.学会编写Mapreduce求平均值程序代码解决问题 【实验原理】 求平均数是MapReduce比较常见的算法,求平均数 阅读全文
posted @ 2024-06-05 10:20 jhtchina 阅读(159) 评论(0) 推荐(0)
摘要:1.6MapReduce 实例:行统计(Hadoop3.0) 【实验目的】 1.准确理解Mapreduce的设计原理 2.熟练掌握mapreduce行统计程序代码编写 【实验原理】 MapReduce采用的是“分而治之”的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个从节点共同完成,然后 阅读全文
posted @ 2024-06-05 10:19 jhtchina 阅读(126) 评论(0) 推荐(0)