strongmore

2023年6月3日

摘要： ### Sqoop下载及安装 Sqoop目前有两大版本，Sqoop1和Sqoop2，这两个版本都是一直在维护者的，所以使用哪个版本都可以。这两个版本我都用过，还是感觉Sqoop1用起来比较方便，使用Sqoop1的时候可以将具体的命令全部都写到脚本中，这样看起来是比较清晰的，但是有一个弊端，就是在操阅读全文

posted @ 2023-06-03 08:11 strongmore 阅读(203) 评论(0) 推荐(0)

数据仓库之数据生成与采集

摘要： ### 数据生成我们需要先生成测试数据，一份是服务端数据，还有一份是客户端数据 ### 【客户端数据】用户行为数据首先我们模拟生成用户行为数据，也就是客户端数据，主要包含用户打开APP、点击、浏览等行为数据用户行为数据：通过埋点上报，后端日志服务器(http)负责接收数据埋点上报数据基本格式阅读全文

posted @ 2023-06-03 08:10 strongmore 阅读(192) 评论(0) 推荐(0)

数据仓库项目介绍与分析

摘要： ### 项目效果展示 ![image](https://img2023.cnblogs.com/blog/1681090/202305/1681090-20230502091704068-510499366.png) 本身我们这个数据仓库项目其实是一个纯后台项目，不过为了让大家能够更加直观的感受项目阅读全文

posted @ 2023-06-03 08:10 strongmore 阅读(504) 评论(0) 推荐(0)

2023年6月2日

Spark集成Hive

摘要： ### 命令行集成Hive 将hive中的`hive-site.xml`配置文件拷贝到spark配置文件目录下，仅需要以下内容 ```xml hive.metastore.warehouse.dir /user/hive/warehouse javax.jdo.option.ConnectionUR 阅读全文

posted @ 2023-06-02 20:33 strongmore 阅读(170) 评论(0) 推荐(0)

Spark3.x扩展内容

摘要： ### 3.0.0主要的新特性： 1. 在TPC-DS基准测试中，通过启用自适应查询执行、动态分区裁剪等其他优化措施，相比于Spark 2.4，性能提升了2倍 2. 兼容ANSI SQL 3. 对pandas API的重大改进，包括python类型hints及其他的pandas UDFs 4. 简化阅读全文

posted @ 2023-06-02 20:21 strongmore 阅读(116) 评论(0) 推荐(0)

SparkSQL入门

摘要： ### Spark SQL Spark SQL和我们之前讲Hive的时候说的hive on spark是不一样的。 hive on spark是表示把底层的mapreduce引擎替换为spark引擎。而Spark SQL是Spark自己实现的一套SQL处理引擎。 Spark SQL是Spark中的阅读全文

posted @ 2023-06-02 08:37 strongmore 阅读(46) 评论(0) 推荐(0)

Spark性能优化

摘要： ### 性能优化分析一个计算任务的执行主要依赖于CPU、内存、带宽 Spark是一个基于内存的计算引擎，所以对它来说，影响最大的可能就是内存，一般我们的任务遇到了性能瓶颈大概率都是内存的问题，当然了CPU和带宽也可能会影响程序的性能，这个情况也不是没有的，只是比较少。 Spark性能优化，其实主要阅读全文

posted @ 2023-06-02 08:18 strongmore 阅读(442) 评论(0) 推荐(0)

Spark扩展内容

摘要： ### 宽依赖和窄依赖 - 窄依赖(Narrow Dependency)：指父RDD的每个分区只被子RDD的一个分区所使用，例如map、filter等这些算子一个RDD，对它的父RDD只有简单的一对一的关系，也就是说，RDD的每个partition仅仅依赖于父RDD中的一个partition，父R 阅读全文

posted @ 2023-06-02 07:34 strongmore 阅读(60) 评论(0) 推荐(0)

Spark之RDD相关

摘要： ### 创建RDD RDD是Spark编程的核心，在进行Spark编程时，首要任务是创建一个初始的RDD，这样就相当于设置了Spark应用程序的输入源数据然后在创建了初始的RDD之后，才可以通过Spark 提供的一些高阶函数，对这个RDD进行操作，来获取其它的RDD Spark提供三种创建RDD方阅读全文

posted @ 2023-06-02 07:31 strongmore 阅读(49) 评论(0) 推荐(0)

Spark实战

摘要： ### WordCount程序这个需求就是类似于我们在学习MapReduce的时候写的案例需求这样的：读取文件中的所有内容，计算每个单词出现的次数注意：由于Spark支持Java、Scala这些语言，目前在企业中大部分公司都是使用Scala语言进行开发，个别公司会使用java进行开发，为了加深阅读全文

posted @ 2023-06-02 07:07 strongmore 阅读(94) 评论(0) 推荐(0)

怕什么真理无穷，进一寸有一寸的欢喜。

公告