会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
厚道 善良 守信 宽容 诚实 谦虚 正直 执着
首页
联系
管理
文章分类 -
hadoop
1
2
下一页
4.3 Sqoop增量数据导入(Hadoop3.0)
摘要:4.3 Sqoop增量数据导入(Hadoop3.0) 【实验目的】 1.掌握Sqoop的时间增量抽取 2.掌握Sqoop的字段增量抽取 【实验原理】 Sqoop在import时,需要制定split-by参数。Sqoop根据不同的split-by参数值来进行切分,然后将切分出来的区域分配到不同Map中
阅读全文
posted @
2024-06-05 10:45
jhtchina
阅读(189)
评论(0)
推荐(0)
hadoop安全报警
摘要:【漏洞名词】Hadoop 未授权访问【原理扫描】【漏洞说明】Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。在默认情况下,Hadoop允许任意用户访问管理接口。【加固建议】1. 配置Ser
阅读全文
posted @
2024-06-05 10:43
jhtchina
阅读(25)
评论(0)
推荐(0)
4.4 案例:利用Sqoop进行数据迁移至Mysql数据库
摘要:4.4 案例:利用Sqoop进行数据迁移至Mysql数据库 【实验目的】 【实验原理】 【实验环境】 【实验内容】 【实验步骤】 1.Sqoop概述 Sqoop是一款开源的工具,主要用于在Hadoop生态系统(Hadoop、Hive等)与传统的数据库(MySQL、Oracle等)间进行数据的传递,可
阅读全文
posted @
2024-06-05 10:42
jhtchina
阅读(148)
评论(0)
推荐(0)
4.2 Sqoop数据导入导出(Hadoop3.0)
摘要:4.2 Sqoop数据导入导出(Hadoop3.0) 【实验目的】 1.掌握Sqoop的各种导入操作 2.掌握Sqoop的各种导出操作 【实验原理】 在导入开始之前,Sqoop使用JDBC来检查将要导入的表。他检索出表中所有的列以及列的SQL数据类型。这些SQL类型(varchar、integer)
阅读全文
posted @
2024-06-05 10:41
jhtchina
阅读(198)
评论(0)
推荐(0)
4.1 Sqoop 安装(Hadoop3.0)
摘要:4.1 Sqoop 安装(Hadoop3.0) 【实验目的】 1.了解Sqoop的安装部署 2.了解Sqoop的工作原理 【实验原理】 Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(Mysql、Oracle...)间进行数据的传递,可以将一个关系型数据库中的数据导入到
阅读全文
posted @
2024-06-05 10:40
jhtchina
阅读(103)
评论(0)
推荐(0)
3.5 案例:利用HiveSQL离线分析评论数据
摘要:3.5 案例:利用HiveSQL离线分析评论数据 【实验目的】 利用HiveSQL离线分析评论数据 【实验原理】 【实验环境】 【实验内容】 【实验步骤】 1.基础概述 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语
阅读全文
posted @
2024-06-05 10:39
jhtchina
阅读(78)
评论(0)
推荐(0)
3.4 Hive 分组排序(Hadoop3.0系列)
摘要:3.4 Hive 分组排序(Hadoop3.0系列) 【实验目的】 1.了解Hive中Order by 、Sort by的用法以及区别 2.了解Hive中Distribute by、Group by以及Cluster by的用法于区别 【实验原理】 Hive中支持多种分组操作:Order by、So
阅读全文
posted @
2024-06-05 10:38
jhtchina
阅读(80)
评论(0)
推荐(0)
3.3 Hive查询(Hadoop3.0系列)
摘要:3.3 Hive查询(Hadoop3.0系列) 【实验目的】 1.了解Hive的SQL基本语法 2.掌握Hive多种查询方式 【实验原理】 Hive查询操作过程严格遵守Hadoop MapReduce的作业执行模型,Hive将用户的HQL语句通过解释器转换为MapReduce作业提交到Hadoop集
阅读全文
posted @
2024-06-05 10:37
jhtchina
阅读(59)
评论(0)
推荐(0)
3.2 Hive 基本操作(Hadoop3.0)
摘要:3.2 Hive 基本操作(Hadoop3.0) 【实验目的】 1.了解Hive的基本操作 2.了解Hive的外部表与普通表的区别 【实验原理】 Hive定义了一套自己的SQL,简称HQL,它与关系型数据库的SQL略有不同,但支持了绝大多数的语句如DDL、DML以及常见的聚合函数、连接查询、条件查询
阅读全文
posted @
2024-06-05 10:36
jhtchina
阅读(141)
评论(0)
推荐(0)
3.1 Hive 安装部署(Hadoop3.0)
摘要:3.1 Hive 安装部署(Hadoop3.0) 【实验目的】 1.了解Hive的安装部署 2.了解Hive的工作原理 【实验原理】 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运
阅读全文
posted @
2024-06-05 10:34
jhtchina
阅读(178)
评论(0)
推荐(0)
2.8 案例:PySpark 处理数据并进行图表分
摘要:2.8 案例:PySpark 处理数据并进行图表分 【实验目的】 1.学习PySpark的一些算子 2.结合Python的一些包进行图表分析 【实验原理】 PySpark 是 Spark 为 Python 开发者提供的 API ,位于 $SPARK_HOME/bin 目录,其依赖于 Py4J。 大体
阅读全文
posted @
2024-06-05 10:33
jhtchina
阅读(67)
评论(0)
推荐(0)
2.7 案例:用户价值分类结果可视化展示
摘要:2.7 案例:用户价值分类结果可视化展示 【实验目的】 将用户价值分类结果导入MySQL数据库 1.掌握Python连接数据库方式 2.掌握python导入数据到数据库的方式 【实验原理】 常见的Python读取数据源 文件格式和文件系统。对于存储在本地文件系统或分布式文件系统(比如HDFS)中的数
阅读全文
posted @
2024-06-05 10:32
jhtchina
阅读(30)
评论(0)
推荐(0)
2.6 案例:PySpark实现用户价值分类
摘要:2.6 案例:PySpark实现用户价值分类 【实验目的】 1.分析RFM各自的含义 2.创建RFM(R值)得分表 3.创建RFM(F值)得分表 4.创建用户价值分类表 【实验原理】 RFM解读: RFM分析法对用户进行量化分类,便于对客户进行差异化营销。RFM模型含义如下: R,Recency,近
阅读全文
posted @
2024-06-05 10:30
jhtchina
阅读(58)
评论(0)
推荐(0)
2.5 PySpark SQL-数据表操作
摘要:2.5 PySpark SQL-数据表操作 【实验目的】 1.了解PySpark Shell 2.学习使用PySpark Shell模式,创建表及查询数据 【实验原理】 Spark SQL的前身是Shark,Shark是伯克利实验室Spark生态环境的组件之一,它能运行在Spark引擎上,从而使得S
阅读全文
posted @
2024-06-05 10:28
jhtchina
阅读(53)
评论(0)
推荐(0)
2.4 PySpark SQL-DataFrame文件处理
摘要:2.4 PySpark SQL-DataFrame文件处理 【实验目的】 1.掌握PySpark SQL的基本操作 2.了解PySpark SQL对文件的存储 【实验原理】 Spark SQL重要的是操作DataFrame,DataFrame本身提供了Save和Load的操作, Load:可以创建D
阅读全文
posted @
2024-06-05 10:28
jhtchina
阅读(60)
评论(0)
推荐(0)
2.3 PySpark安装(Hadoop3.0)
摘要:2.3 PySpark安装(Hadoop3.0)【实验目的】1.学习PySpark的安装配置2.了解PySpark的运行原理【实验原理】PySpark简介:官方对PySpark的释义为:“PySpark is the Python API for Spark”。 也就是说pyspark为Spark提
阅读全文
posted @
2024-06-05 10:26
jhtchina
阅读(104)
评论(0)
推荐(0)
2.2 Spark Shell 操作(Hadoop3.0)
摘要:2.2 Spark Shell 操作(Hadoop3.0) 【实验目的】 1.了解Scala语言的基本语法 2.了解Spark Shell数据处理的原理 3.了解Spark算子的使用 4.了解Spark Shell和MapReduce对数据处理的不同点 【实验原理】 Spark shell是一个特别
阅读全文
posted @
2024-06-05 10:25
jhtchina
阅读(475)
评论(0)
推荐(0)
2.1 Spark Standalone 伪分布模式安装(Hadoop3.0)
摘要:2.1 Spark Standalone 伪分布模式安装(Hadoop3.0) 【实验目的】 1.熟练掌握Spark Standalone伪分布模式的安装流程 2.准确理解Spark Standalone伪分布模式的运行原理 3.学会独立进行SparkStandalone伪分布模式安装 【实验原理】
阅读全文
posted @
2024-06-05 10:23
jhtchina
阅读(109)
评论(0)
推荐(0)
1.7MapReduce 实例:求平均值(Hadoop3.0)
摘要:1.7MapReduce 实例:求平均值(Hadoop3.0) 【实验目的】 1.准确理解Mapreduce求平均值的设计原理 2.熟练掌握Mapreduce求平均值程序的编写 3.学会编写Mapreduce求平均值程序代码解决问题 【实验原理】 求平均数是MapReduce比较常见的算法,求平均数
阅读全文
posted @
2024-06-05 10:20
jhtchina
阅读(159)
评论(0)
推荐(0)
1.6MapReduce 实例:行统计(Hadoop3.0)
摘要:1.6MapReduce 实例:行统计(Hadoop3.0) 【实验目的】 1.准确理解Mapreduce的设计原理 2.熟练掌握mapreduce行统计程序代码编写 【实验原理】 MapReduce采用的是“分而治之”的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个从节点共同完成,然后
阅读全文
posted @
2024-06-05 10:19
jhtchina
阅读(126)
评论(0)
推荐(0)
1
2
下一页
公告