突破铁皮 - 博客园

2024年4月8日

摘要：数据结构分析：（1）京津冀三省的2015年度的科技成果数据原始表，为Access数据库，；（2）要求将三省的科技成果数据汇总到同一表中（要求结果表为MySql数据表）；（3）三个原始数据表结构不一致，要求结果表中包括所有的字段，表达意思相同或相似的字段要进行合并，不允许丢失字段（若只有本表独有阅读全文

posted @ 2024-04-08 17:12 突破铁皮阅读(15) 评论(0) 推荐(1) 编辑

2024年2月21日

Spark实践之Spark Streaming

摘要：首先需要安装flume，我选择的是1.9.0版本，然后对于配置文件只需要配置相关的环境和jdk即可 flume-env.sh # Licensed to the Apache Software Foundation (ASF) under one # or more contributor lice 阅读全文

posted @ 2024-02-21 21:10 突破铁皮阅读(2) 评论(0) 推荐(0) 编辑

2024年2月7日

今日总结

摘要：今天忙于各种事务，只查看了有关v2x的相关资料阅读全文

posted @ 2024-02-07 23:40 突破铁皮阅读(2) 评论(0) 推荐(0) 编辑

2024年2月4日

今日总结

摘要：今天完成了地图的导入阅读全文

posted @ 2024-02-04 23:00 突破铁皮阅读(3) 评论(0) 推荐(0) 编辑

2024年2月3日

今日总结

摘要：学习了spark的相关知识并编写了一些实例阅读全文

posted @ 2024-02-03 22:50 突破铁皮阅读(1) 评论(0) 推荐(0) 编辑

2024年2月2日

Spark实践之SparkSQL

摘要： Spark SQL Spark为结构化数据处理引入了一个称为Spark SQL的编程模块。它提供了一个称为DataFrame的编程抽象，并且可以充当分布式SQL查询引擎。 Spark SQL的特性集成无缝地将SQL查询与Spark程序混合。 Spark SQL允许将结构化数据作为Spark中的分阅读全文

posted @ 2024-02-02 23:02 突破铁皮阅读(24) 评论(0) 推荐(0) 编辑

2024年2月1日

spark之RDD实验

摘要：实验内容某大学计算机系的成绩，数据格式如下所示：Tom,DataBase,80Tom,Algorithm,50Tom,DataStructure,60Jim,DataBase,90Jim,Algorithm,60Jim,DataStructure,80……请根据给定的实验数据，在 spark-sh 阅读全文

posted @ 2024-02-01 22:22 突破铁皮阅读(4) 评论(0) 推荐(0) 编辑

2024年1月31日

Scala应用实例之统计学生成绩

摘要：学生的成绩清单格式如下所示，第一行为表头，各字段意思分别为学号、性别、课程名1、课程名 2 等，后面每一行代表一个学生的信息，各字段之间用空白符隔开 Id gender Math English Physics301610 male 80 64 78301611 female 65 87 58... 阅读全文

posted @ 2024-01-31 01:04 突破铁皮阅读(97) 评论(0) 推荐(0) 编辑

2024年1月30日

spark三大数据结构之累加器和广播变量

摘要：累加器：定义：累加器是一种分布式共享的只写变量，用于在Spark任务之间进行累加操作。由于任务在Executor端执行，不能直接使用for循环进行累加。使用场景：在进行累加计算时，为了避免大量的数据传输和重复占用内存，需要使用累加器，即Accumulator（缩写为ACC）。累加器的作用：阅读全文

posted @ 2024-01-30 17:42 突破铁皮阅读(6) 评论(0) 推荐(0) 编辑

2024年1月29日

saprk三大数据结构之RDD的依赖关系

摘要： RDD依赖关系（1）RDD血缘关系相邻两个RDD的关系称之为依赖关系多个连续的RDD依赖关系称之为血缘关系每个RDD会保存血缘关系 RDD不保存数据因此一旦出现报错需要从头开始读取 RDD为了提供容错性，需要将RDD间的关系保存下来一旦出现错误就可以根据血缘关系将数据源重新读取进行计算阅读全文

posted @ 2024-01-29 23:58 突破铁皮阅读(2) 评论(0) 推荐(0) 编辑

liyiyang

公告