会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
技术栈
匠人精神,持之以恒!
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
22
23
24
25
26
27
28
29
30
···
37
下一页
2022年5月8日
大数据Hadoop之——部署hadoop+hive环境(window10)
摘要: 一、安装JDK8 【温馨提示】这里使用jdk8,这里不要用其他jdk了,可能会出现一些其他问题的,我用jdk11有些包就找不到,好像jdk9都不行 1)JDK下载地址 http://www.oracle.com/technetwork/java/javase/downloads/index.html
阅读全文
posted @ 2022-05-08 00:02 大数据老司机
阅读(1946)
评论(1)
推荐(0)
2022年5月5日
大数据Hadoop之——Flink Table API 和 SQL(单机Kafka)
摘要: 一、Table API 和 Flink SQL 是什么 Table API 和 SQL 集成在同一套 API 中。 这套 API 的核心概念是Table,用作查询的输入和输出,这套 API 都是批处理和流处理统一的上层 API,这意味着在无边界的实时数据流和有边界的历史记录数据流上,关系型 API
阅读全文
posted @ 2022-05-05 22:55 大数据老司机
阅读(1442)
评论(0)
推荐(0)
2022年5月4日
大数据Hadoop之——实时计算流计算引擎Flink(Flink环境部署)
摘要: 一、概述 Flink核心是一个流式的数据流执行引擎,并且能够基于同一个Flink运行时,提供支持流处理和批处理两种类型应用。其针对数据流的分布式计算提供了数据分布,数据通信及容错机制等功能。基于流执行引擎,Flink提供了跟多高抽象层的API便于用户编写分布式任务,下面稍微介绍一下Flink的几种A
阅读全文
posted @ 2022-05-04 22:18 大数据老司机
阅读(3571)
评论(0)
推荐(0)
Java-Maven详解
摘要: 一、什么是Maven? Apache Maven是一个软件项目管理的综合工具。基于项目对象模型(POM)的概念,提供了帮助管理构建、文档、报告、依赖、发布等方法,Maven简化和标准化项目建设过程。处理编译,分配,文档,团队协作和其他任务的无缝连接。 Maven增加可重用性并负责建立相关的任务。 1
阅读全文
posted @ 2022-05-04 15:20 大数据老司机
阅读(2059)
评论(0)
推荐(0)
2022年5月2日
大数据Hadoop之——Spark Streaming原理
摘要: 一、概述 Spark Streaming是对核心Spark API的一个扩展,它能够实现对实时数据流的流式处理,并具有很好的可扩展性、高吞吐量和容错性。Spark Streaming支持从多种数据源提取数据,如:Kafka、Flume、Twitter、ZeroMQ、Kinesis以及TCP套接字,并
阅读全文
posted @ 2022-05-02 11:09 大数据老司机
阅读(807)
评论(0)
推荐(0)
2022年4月30日
大数据Hadoop之——Spark on Hive 和 Hive on Spark的区别与实现
摘要: 一、Spark on Hive 和 Hive on Spark的区别 1)Spark on Hive Spark on Hive 是Hive只作为存储角色,Spark负责sql解析优化,执行。这里可以理解为Spark 通过Spark SQL 使用Hive 语句操作Hive表 ,底层运行的还是 Spa
阅读全文
posted @ 2022-04-30 08:34 大数据老司机
阅读(7297)
评论(1)
推荐(0)
2022年4月23日
大数据Hadoop之——Spark SQL+Spark Streaming
摘要: 一、Spark SQL概述 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了两个编程抽象叫做DataFrame和DataSet并且作为分布式SQL查询引擎的作用,其实也是对RDD的再封装。大数据Hadoop之——计算引擎Spark,官方文档:https://spark.apach
阅读全文
posted @ 2022-04-23 17:38 大数据老司机
阅读(2327)
评论(0)
推荐(1)
2022年4月16日
大数据Hadoop之——Spark集群部署(Standalone)
摘要: 一、Spark概述 Spark基础概念和原理讲解可以参考我上篇博文:大数据Hadoop之——计算引擎Spark 二、Spark的运行模式 1)Standalone(本章讲解) 独立模式,自己独立一套集群(master/client/slave),Spark 原生的简单集群管理器, 自带完整的服务,
阅读全文
posted @ 2022-04-16 15:36 大数据老司机
阅读(6935)
评论(0)
推荐(1)
2022年4月9日
大数据Hadoop之——计算引擎Spark
摘要: 一、概述 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于
阅读全文
posted @ 2022-04-09 17:54 大数据老司机
阅读(3792)
评论(0)
推荐(1)
2022年4月5日
大数据Hadoop之——数据仓库Hive
摘要: 一、概述 Hive是基于Hadoop的一个数据仓库(Data Aarehouse,简称数仓、DW),可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。是用于存储、分析、报告的数据系统。 在Hadoop生态系统中,HDFS用于存储数据,Yarn用于资源管理,MapReduce用于数据处
阅读全文
posted @ 2022-04-05 23:17 大数据老司机
阅读(4124)
评论(0)
推荐(0)
上一页
1
···
22
23
24
25
26
27
28
29
30
···
37
下一页
公告