大数据技术 - 随笔分类(第2页) - 喜欢爬的孩子

spark学习进度09（RDD算子-action-针对KV类型的数据-针对数字类型的数据）

摘要：（所有转换操作的算子都是惰性的，在执行的时候。并不会真的去调度运行，求得结果。而是是生成对应的RDD，只有在Action操作的时候，才会真的运行求得结果）一、Action操作： 1、collect（并不能适应所有的场景） 2、reduce 作用对整个结果集规约, 最终生成一条数据, 是整个数据集阅读全文

posted @ 2021-01-10 10:58 喜欢爬的孩子阅读(242) 评论(0) 推荐(0)

spark学习进度08（RDD算子-转换）

摘要：一、转换操作： 1、mapPartitions的相关操作 @Test def mapPartitions():Unit={ //1、数据生成 //2、算子使用 //3、获取结果 sc.parallelize(Seq(1,2,3,4,5,6),2) .mapPartitions(iter=>{ ite 阅读全文

posted @ 2021-01-09 23:50 喜欢爬的孩子阅读(162) 评论(0) 推荐(0)

spark学习进度07（深入了解RDD）

摘要：一、案例： 1、明确需求：在访问日志中，统计独立ip数量TOP10 2、查看数据结构： ip：是时间戳Http Method Url..... 3、明确编码步骤： 3.1 取出ip，生成一个只有ip的数据集 3.2简单清晰 3.3统计ip出现的次数 3.4排序按照ip出现的次数 3.5取出前十 4 阅读全文

posted @ 2021-01-08 22:14 喜欢爬的孩子阅读(274) 评论(0) 推荐(0)

spark学习进度06（RDD的Map算子、FlatMap算子、ReduceByKey算子）

摘要：一、Map算子：作用把 RDD 中的数据一对一的转为另一种形式调用 def map[U: ClassTag](f: T ⇒ U): RDD[U] 参数 f → Map 算子是原RDD → 新RDD 的过程, 这个函数的参数是原 RDD 数据, 返回值是经过函数转换的新 RDD 的数据注阅读全文

posted @ 2021-01-08 20:27 喜欢爬的孩子阅读(487) 评论(0) 推荐(0)

spark学习进度05（RDD概念、代码、三种创建方式）

摘要：一、RDD概念 1、RDD在哪里： 2、RDD是什么：是一个容错的, 并行的数据结构, 可以让用户显式地将数据存储到磁盘和内存中, 并能控制数据的分区.RDD 作为数据结构, 本质上是一个只读的分区记录集合. 一个 RDD 可以包含多个分区, 每个分区就是一个 DataSet 片段.RDD 之间可阅读全文

posted @ 2021-01-08 19:31 喜欢爬的孩子阅读(327) 评论(0) 推荐(0)

spark学习进度04（独立应用的两种形式）

摘要：1、独立应用的形式（上线、放在集群中运行） 1.1本地运行的方式 idea创建web项目添加scala和maven依赖。配置pom文件： <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/ 阅读全文

posted @ 2021-01-08 15:02 喜欢爬的孩子阅读(128) 评论(0) 推荐(0)

scala配置、idea运行第一个scala程序

摘要：一、下载相应的sdk进行变量配置： ScalaSDK下载地址：http://www.scala-lang.org/download/ idea下载地址：https://www.jetbrains.com/idea/ 根据解压的路径配置环境变量和系统变量。之后再配置环境变量就好了（双击系统变量中的p 阅读全文

posted @ 2021-01-08 10:59 喜欢爬的孩子阅读(1048) 评论(0) 推荐(0)

spark学习进度03（入门案例、sparkshell本地文件读取，hdfs读取、本地运行、提交运行）

摘要：一、编写spark代码的几种方式：（主要看重的方面：1、观察数据集 2、编写代码测试数据集 3、固化代码、提交集群运行上线） 1、spark-shell （数据集的探索、测试） Spark shell 简介启动 Spark shell进入 Spark 安装目录后执行 spark-shell -- 阅读全文

posted @ 2021-01-08 10:29 喜欢爬的孩子阅读(802) 评论(0) 推荐(0)

spark学习进度02（集群搭建——第一个案例）

摘要：第一步：第二步：第三步：运行结果如下： spark比较擅长做迭代的操作的相关计算。阅读全文

posted @ 2021-01-07 20:49 喜欢爬的孩子阅读(66) 评论(0) 推荐(0)

spark学习进度01（安装环境搭建集群搭建）

摘要：1、spark的相关特点速度快、易用、通用、兼容速度快::+--* Spark 的在内存时的运行速度是 Hadoop MapReduce 的100倍* 基于硬盘的运算速度大概是 Hadoop MapReduce 的10倍* Spark 实现了一种叫做 RDDs 的 DAG 执行引擎, 其数据缓存阅读全文

posted @ 2021-01-07 20:20 喜欢爬的孩子阅读(85) 评论(0) 推荐(0)

Hive的交互方式

摘要：1、第一种交互方式：（bin/hive）启动会有一些慢类似于mysql的终端查看有哪些数据库创建数据库操作在数据库中创建表查看表 2、第二种交互方式：（使用sql语句或者sql脚本进行交互） 2.1不进入hive的客户端直接执行hive的hql语句 2.2将hql语句写成一个sql脚本然阅读全文

posted @ 2021-01-06 19:01 喜欢爬的孩子阅读(117) 评论(0) 推荐(0)

Hbase学习03-api操作02

摘要：1、根据表名查询他所有的rowkey /* 根据表名查询所有的rowkey*/ @Test public void getRowKey() throws IOException { String tableName="WATER_BILL"; Table table = connection.get 阅读全文

posted @ 2020-10-19 23:33 喜欢爬的孩子阅读(175) 评论(0) 推荐(0)

Hbase学习02-API操作

摘要：重要的部分 1.创建hbase连接以及admin管理对象要操作hbase也需要建立hbase的连接，此处我们仍然使用TestNG来进行测试，使用@BeforeTest初始化Hbase的连接，然后创建admin的对象，@AfterTest来关闭连接实现步骤:“1.1使用HbaseConfigura 阅读全文

posted @ 2020-10-19 19:31 喜欢爬的孩子阅读(362) 评论(0) 推荐(0)

HBase中的部分api操作

摘要：阅读全文

posted @ 2020-10-19 17:26 喜欢爬的孩子阅读(80) 评论(0) 推荐(0)

Hbase学习01-shell操作

摘要：1、创建表在hbase中没所有的数据也都是保存再表中秘钥将数据保存再hbase中。首先要先创建出来。 1.1首先启动hbase shell、（list可以查看。然后先disable表名，才可以通过drop表名进行删除操作） 1.2创建表创建订单表，表的名称是ORDER_INFO，该表有一个列蔟阅读全文

posted @ 2020-10-17 20:20 喜欢爬的孩子阅读(340) 评论(0) 推荐(0)

Hdfs的java必会Api操作

摘要：1、创建目录操作： //创建目录 public static void mkdir(String filePath) throws URISyntaxException, IOException, InterruptedException{ FileSystem fs = FileSystem.ge 阅读全文

posted @ 2020-10-15 16:34 喜欢爬的孩子阅读(137) 评论(0) 推荐(0)

hadoop的知识点复习-相关命令的操作

摘要：阅读全文

posted @ 2020-10-11 17:07 喜欢爬的孩子阅读(68) 评论(0) 推荐(0)

zookeeper学习2

摘要：一、zNode节点属性 dataVersion 数据版本, 每次当 Znode 中的数据发生变化的时候, dataVersion都会自增一下cversion 节点版本, 每次当 Znode 的节点发生变化的时候, cversion 都会自增aclVersion ACL(Access Control 阅读全文

posted @ 2020-08-28 12:10 喜欢爬的孩子阅读(113) 评论(0) 推荐(0)

关于zookeeper的相关学习

摘要：一、zookeeper理解与选举机制 ①Zookeeper理解概念：Zookeeper 是一个开源的分布式协调服务框架，主要用来解决分布式集群中应用系统的一致性问题和数据管理问题特点：Zookeeper 本质上是一个分布式文件系统, 适合存放小文件，也可以理解为一个数据库。 Zookeeper 阅读全文

posted @ 2020-08-25 21:05 喜欢爬的孩子阅读(150) 评论(0) 推荐(0)

Combiner+GroupingComparator+shuffle原理+Reduce原理

摘要：1、Combiner Combiner的输入输出对象必须一样。 2、GroupingComparator 运行代码： map package groupcompartor; import org.apache.hadoop.io.LongWritable; import org.apache.had 阅读全文

posted @ 2020-08-24 20:59 喜欢爬的孩子阅读(196) 评论(0) 推荐(0)

悄悄成长

随笔分类 - 大数据技术

公告