03 2022 档案

摘要:Python数据分析 Pandas pandas提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数 . pandas兼具NumPy高性能的数组计算功能以及电子表格和关系型数据库灵活的数据处理功能 . 对于金融行业的用户,pandas提供了大量适合于金融数据的高性能时间序列功能和工具 . 学 阅读全文
posted @ 2022-03-30 22:15 阿伟宝座 阅读(235) 评论(0) 推荐(0)
摘要:通过网页写代码的工具 Jupyter Notebook 之前我们学习 Python 的时候,代码都是在 PyCharm 或者是 IDEA 中运行的,每当代码写到后面的时候, 运行代码都会把前面的代码执行一遍,很不方便。 Jupyter Notebook :就是一个脱离了 PyCharm 或者是 ID 阅读全文
posted @ 2022-03-30 22:11 阿伟宝座 阅读(930) 评论(0) 推荐(0)
摘要:Python科学计算 Numpy Numpy 是一个专门用于矩阵化运算、科学计算的开源Python NumPy将Python相当于变成一种免费的更强大的Matlab系统 (1)强大的 ndarray 多维数组结构 (2)成熟的函数库 (3)用于整合C/C++和Fortran代码的工具包 (4)实用的 阅读全文
posted @ 2022-03-30 22:09 阿伟宝座 阅读(740) 评论(0) 推荐(0)
摘要:python的类和模块 内置电池(batteries included) :基础代码库,覆盖了网络通信、文件处理、数据库接口、图形系统、XML处理 第三方工具包 • Pandas:数据处理与分析 • Numpy:科学计算 • Scikit-learn:基于SciPy和Numpy的开源机器学习模块 • 阅读全文
posted @ 2022-03-30 22:07 阿伟宝座 阅读(359) 评论(0) 推荐(0)
摘要:一、解释型语言Python Python语言是一种解释型、面向对象、动态数据类型的高级程序设计语言 二、命名规则 Java、Scala命名规则 1、项目名:小写,多个单词用-分割 2、包名:小写,多个包用.分割 3、类名:首字母大写,驼峰命名 4、变量:首字母小写,驼峰命名 5、常量:大写,单词之间 阅读全文
posted @ 2022-03-29 15:21 阿伟宝座 阅读(260) 评论(0) 推荐(0)
摘要:Combiner编程、reduce join、map join、mapreduce优化总结、通过自定义分区类避免数据倾斜、MapReduce自定义排序 Combiner编程 reduce join map join mapreduce优化总结 通过自定义分区类避免数据倾斜 #每一个reduce任务生 阅读全文
posted @ 2022-03-25 10:57 阿伟宝座 阅读(81) 评论(0) 推荐(0)
摘要:常用的Writable实现类 Java基本类型 Writable 序列化大小(字节) 布尔型(boolean) BooleanWritable 1 字节型(byte) ByteWritable 1 整型(int) IntWritable 4 VIntWritable 1~5 浮点型(float) F 阅读全文
posted @ 2022-03-25 10:40 阿伟宝座 阅读(133) 评论(0) 推荐(0)
摘要:什么是序列化?为什么要序列化? 序列化(Serialization):将对象的状态信息转换为可以存储或传输的形式的过程。 在序列化期间,对象将其当前状态写入到临时或持久性存储区。 以后,可以通过从存储区中读取或反序列化对象的状态,重新创建该对象。 当两个进程在进行远程通信时,彼此可以发送各种类型的数 阅读全文
posted @ 2022-03-25 09:46 阿伟宝座 阅读(1023) 评论(0) 推荐(0)
摘要:spark 数据倾斜优化 倾斜优化 数据倾斜产生的原因 1、数据分布不均,有的key很多,有的key很少 2、有shuffle的过程 这两个原因也是解决数据倾斜的两个入手的方面 数据倾斜七种解决方案 其中 3、4、5、6 最重要 3和4 -- 聚合 5和6 -- 关联 1、使用Hive ETL预处理 阅读全文
posted @ 2022-03-23 15:26 阿伟宝座 阅读(325) 评论(0) 推荐(0)
摘要:spark 参数调优 参数调优 num-executors 一般为Task数的1/3或1/2左右,这个参数是必须要设置的 参数说明:该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时,YARN集群管理器会尽可能按照你的设置来在集群的各个 阅读全文
posted @ 2022-03-23 15:24 阿伟宝座 阅读(726) 评论(0) 推荐(0)
摘要:spark案例 精准搜索需求 数据: {"recordMap":{"screenwriter":,"publishtime":"2021-08-21","year":"2021","score":"0.0"},"processDate":"2021-11-03","cid":"c370201","i 阅读全文
posted @ 2022-03-23 15:16 阿伟宝座 阅读(59) 评论(0) 推荐(0)
摘要:数据案例 数据写入Kafka、flink消费 1、创建生产者,将数据写入Kafka package com.shujia.flink.dx import java.util.Properties import org.apache.kafka.clients.producer.{KafkaProdu 阅读全文
posted @ 2022-03-23 15:03 阿伟宝座 阅读(608) 评论(0) 推荐(0)
摘要:通过 java(Scala) 来读写 Kafka 1、导入依赖 <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.11</artifactId> <version>1.0.0</version> </depend 阅读全文
posted @ 2022-03-23 14:49 阿伟宝座 阅读(697) 评论(0) 推荐(0)
摘要:Kafka整合Flink使用 使用Flink消费kafka内的数据 添加依赖(代码参照kafka官网:https://kafka.apache.org/) <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-conne 阅读全文
posted @ 2022-03-23 10:33 阿伟宝座 阅读(1452) 评论(0) 推荐(0)
摘要:kafka 高吞吐的分布式消息系统 离线与实时: kafka是实时计算的数据源 1、kafka是什么 kafka是高吞吐的分布式消息系统 2、消息队列的应用场景 消息就是数据 队列就是排队 (1)系统之间解耦合 queue模型 publish-subscribe模型 (2)峰值压力缓冲 (3)异步通 阅读全文
posted @ 2022-03-22 20:57 阿伟宝座 阅读(198) 评论(0) 推荐(0)
摘要:基于 DataStream API 实现欺诈检测 实时场景 Flink的定时器 package com.shujia.flink.core import org.apache.flink.api.common.functions.RuntimeContext import org.apache.fl 阅读全文
posted @ 2022-03-22 15:41 阿伟宝座 阅读(183) 评论(0) 推荐(0)
摘要:Flink基石 State and Checkpoint Flink State and Checkpoint Flink 通过 State 和 Checkpoint 来实现容错和数据处理的唯一一次 State 丰富的State API。 ValueState<T>: 保存一个可以更新和检索的值(如 阅读全文
posted @ 2022-03-22 15:40 阿伟宝座 阅读(246) 评论(0) 推荐(0)
摘要:Flink 窗口的底层 API 使用窗口的复杂处理 process : flink 底层 API , 可以操作 flink 的时间,事件,状态 W <: Wondow -- Scala泛型通配符,向下限定,W可以是Wondow及其子类 package com.shujia.flink.window 阅读全文
posted @ 2022-03-22 15:34 阿伟宝座 阅读(99) 评论(0) 推荐(0)
摘要:Flink基石 Window Flink中的Window包含三部分: 1、Time Window 时间窗口 2、Session Window 会话窗口(待没有数据的时候开始计算) 3、Count Window 统计窗口(每n条数据计算一次) 一、Time Window 时间窗口 时间窗口包含四部分: 阅读全文
posted @ 2022-03-21 21:55 阿伟宝座 阅读(160) 评论(0) 推荐(0)
摘要:spark 调优、spark 代码的优化 目录 spark 调优 spark 代码的优化 对多次使用的RDD进行持久化 使用高性能的算子 使用foreachPartitions替代foreach Action算子 重分区 使用filter之后进行coalesce操作 广播大变量 使用Kryo优化序列 阅读全文
posted @ 2022-03-21 17:18 阿伟宝座 阅读(191) 评论(0) 推荐(0)
摘要:Flink 基石、Flink Time、事件时间、Watermark水位线 Flink 基石 Flink Time 事件时间 代码示例 package com.shujia.flink.core import org.apache.flink.streaming.api.TimeCharacteri 阅读全文
posted @ 2022-03-20 21:59 阿伟宝座 阅读(79) 评论(0) 推荐(0)
摘要:Flink 共享槽位、如何判断Flink需要使用多少资源 并行数据流 上图中有5个Task,那么这5个task是如何部署的呢? 任务槽和资源 Flink 并不是这样部署的 共享槽位 Flink并不是将task合并,而是上游的task和下游的task可以共享一个槽位 所以Flink需要使用多少资源和t 阅读全文
posted @ 2022-03-20 20:41 阿伟宝座 阅读(550) 评论(0) 推荐(0)
摘要:Flink的并行度问题 package com.shujia.flink.core import org.apache.flink.streaming.api.datastream.DataStreamSink import org.apache.flink.streaming.api.scala. 阅读全文
posted @ 2022-03-20 20:15 阿伟宝座 阅读(597) 评论(0) 推荐(0)
摘要:Flink 运行方式 三种运行方式(与spark相似): 1、local 本地测试 2、Standallone Cluster 独立集群(做实时计算,不需要hadoop,该独立集群可能用的上) 3、Flink on Yarn 推荐 Standallone Cluster 独立集群 独立集群是不依赖h 阅读全文
posted @ 2022-03-20 17:11 阿伟宝座 阅读(8376) 评论(0) 推荐(2)
摘要:Flink Sink:接收器 flink代码分为三部分: 1、Source 数据源,读取数据 2、Transformation 转换,对数据进行处理,也就是算子 3、Sink 将数据发出去 Flink 将转换计算后的数据发送的地点 。 Flink 常见的 Sink 大概有如下几类: 1、写入文件 2 阅读全文
posted @ 2022-03-20 13:15 阿伟宝座 阅读(518) 评论(0) 推荐(0)
摘要:Flink的算子 flink代码分为三部分: 1、Source 数据源,读取数据 2、Transformation 转换,对数据进行处理,也就是算子 3、Sink 将数据发出去 Transformation:数据转换的各种操作,有Map / FlatMap / Filter / KeyBy / Re 阅读全文
posted @ 2022-03-20 13:14 阿伟宝座 阅读(3415) 评论(0) 推荐(0)
摘要:Flink的Source 数据源 flink代码分为三部分: 1、Source 数据源,读取数据 2、Transformation 转换,对数据进行处理,也就是算子 3、Sink 将数据发出去 Flink的Source分为是四大类 1、基于本地集合的 source 得出的是有界流 2、基于文件的 s 阅读全文
posted @ 2022-03-20 13:11 阿伟宝座 阅读(1684) 评论(0) 推荐(0)
摘要:flink与spark执行的区别 (1)spark可以在map端进行预聚合,flink却不可以; flink数据直接发送到下游,并且每一条数据都会被处理 (2)spark先执行maptask,再执行reducetask; flink是maptask和reducetask同时执行,等待数据过来 (3) 阅读全文
posted @ 2022-03-20 13:08 阿伟宝座 阅读(355) 评论(0) 推荐(0)
摘要:Flink流处理 WordCount:统计单词数量 注意:导包的时候需要手动修改一下 修改为import org.apache.flink.streaming.api.scala._ package com.shujia.flink.core import org.apache.flink.stre 阅读全文
posted @ 2022-03-20 13:06 阿伟宝座 阅读(986) 评论(0) 推荐(0)
摘要:Flink流处理测试 package com.shujia.flink.core import org.apache.flink.streaming.api.scala._ object Demo1WordCount { def main(args: Array[String]): Unit = { 阅读全文
posted @ 2022-03-20 13:05 阿伟宝座 阅读(402) 评论(0) 推荐(0)
摘要:Flink前言 Flink和spark的功能很相似,spark能做的flink也能做,flink能做的spark也能做; 1、flink和spark本质的区别 flink:侧重于做实时计算 spark:侧重于做离线计算 实时计算和离线计算的特点 2、流处理和批处理 流处理和批处理:也可以叫做实时计算 阅读全文
posted @ 2022-03-20 13:02 阿伟宝座 阅读(337) 评论(0) 推荐(0)
摘要:Spark MLlibl 目录 Spark MLlib 导入依赖 稠密向量和稀疏向量 Spark MLlib 线性回归 程序示例 Spark MLlib 逻辑回归 程序示例 使用已经训练好的模型 image(图片) 训练模型 Spark MLlib Spark 机器学习 机器学习是人工智能的一个分支 阅读全文
posted @ 2022-03-17 23:26 阿伟宝座 阅读(98) 评论(0) 推荐(0)
摘要:了解:机器学习、算法 目录 机器学习数学模型 有监督和无监督 机器学习流程 K-近邻算法(KNN) 朴素贝叶斯分类算法 决策树算法 随机森林算法 逻辑回归算法 k-means聚类 人工神经网络 深度学习 降低维度算法 机器学习/数据挖掘建模过程 常用的机器学习/数据挖掘建模工具 朴素贝叶斯分类 贝叶 阅读全文
posted @ 2022-03-17 22:47 阿伟宝座 阅读(75) 评论(0) 推荐(0)
摘要:DStream、RDD、DataFrame 的相互转换、spark 比 MapReduce 快的原因 目录 DStream、RDD、DataFrame 的相互转换 spark 比 MapReduce 快的原因 1、当对同一个rdd多次使用的时候可以将这个rdd缓存起来 2、spark -- 粗粒度的 阅读全文
posted @ 2022-03-16 19:51 阿伟宝座 阅读(508) 评论(0) 推荐(0)
摘要:了解:有状态算子、滑动窗口和滚动窗口 目录 有状态算子 滑动窗口和滚动窗口 滑动窗口的使用及优化(包含滚动窗口) 有状态算子 之前我们在运行 Spark Streaming 的时候发现微批处理之中,每一个批次都是相对独立的 如何让其能够产生累加的效果呢? package com.shujia.str 阅读全文
posted @ 2022-03-16 19:07 阿伟宝座 阅读(511) 评论(0) 推荐(0)
摘要:Spark Streaming、离线计算、实时计算、实时查询、Spark Streaming 原理、Spark Streaming WordCount、Spark Streaming 架构图 目录 Spark Streaming 离线计算、实时计算、实时查询 Spark Streaming 原理 S 阅读全文
posted @ 2022-03-13 23:20 阿伟宝座 阅读(188) 评论(0) 推荐(0)
摘要:查看 spark-sql 的 SQL语法树、spark-sql 的优化、整合 hive 之后通过代码操作 一、查看 spark-sql 的 SQL语法树 查看 spark-sql 的web界面的一种方式 在通过 spark-sql --master yarn-client 命令进入 spark-sq 阅读全文
posted @ 2022-03-13 21:44 阿伟宝座 阅读(250) 评论(0) 推荐(0)
摘要:spark-sql 写代码的三种方式 一、在idea里面将代码编写好打包上传到集群中运行 上线使用 spark-submit提交(项目常用) 1、编写代码 编写代码三步骤: (1)创建环境 (2)读取文件、编写逻辑 (3)保存数据 package com.shujia.sql import org. 阅读全文
posted @ 2022-03-13 21:10 阿伟宝座 阅读(1708) 评论(0) 推荐(0)
摘要:DSL的语法 SQL中的执行顺序 from --> join --> on --> where --> group by --> having --> select --> order by --> limit 在DSL中没有having,where可以放在分组前,也可以放在分组后 select() 阅读全文
posted @ 2022-03-13 14:57 阿伟宝座 阅读(2004) 评论(0) 推荐(0)
摘要:spark source API:构建DF、RDD与DF之间的相互转换、show()的三种用法 读取csv格式的文件,构建DF 读取json格式的文件,构建DF 1、不需要指定分割方式 2、不需要指定字段名和字段类型(json自带字段和字段类型) 3、 json格式的文件相对于csv,会占用额外的空 阅读全文
posted @ 2022-03-12 20:43 阿伟宝座 阅读(1056) 评论(0) 推荐(0)
摘要:Spark SQL的介绍和WordCount案例 Hive SQL是在Hive命令行里编写 DataSource API 数据源API Spark SQL可以读取很多格式的数据,常用的有以下三种: 1、CSV 文本格式 2、JSON 3、JDBC 数据库的格式 DataFrame API 数据框AP 阅读全文
posted @ 2022-03-12 14:13 阿伟宝座 阅读(401) 评论(0) 推荐(0)
摘要:spark 累加器、广播变量、Executor 的结构 spark 累加器 package com.shujia.spark import java.lang import org.apache.spark.rdd.RDD import org.apache.spark.util.LongAccum 阅读全文
posted @ 2022-03-11 21:38 阿伟宝座 阅读(97) 评论(0) 推荐(0)
摘要:Spark中的RDD缓存 cache 前面说到,spark中的RDD是没有数据的,因为数据流过而不留下, 有时候对同一个RDD我们需要使用多次,每次使用该RDD,数据都要重新调用,非常麻烦; 这时候我们可以通过对RDD进行缓存,将RDD缓存在内存或者磁盘里面, 这样就使RDD中含有数据了。 RDD缓 阅读全文
posted @ 2022-03-11 20:55 阿伟宝座 阅读(735) 评论(0) 推荐(0)
摘要:spark在Yarn上的资源调度和任务调度 一、spark的执行架构 spark代码会分为两部分:Driver端、Executor端 二、spark on yarn的资源调度(申请资源) 大数据引擎的执行过程: 1、资源调度(申请资源):申请CPU、内存、Executor的数量 2、任务调度(执行t 阅读全文
posted @ 2022-03-11 01:28 阿伟宝座 阅读(1477) 评论(1) 推荐(0)
摘要:Spark独立集群(了解即可)、Spark如何在Yarn上运行、 集群模式 这里仅仅只是记录一下 Spark Standalone -- 独立集群模式 如何搭建 在公司一般不适用standalone模式,因为公司一般已经有yarn 不需要搞两个资源管理框架 所以不需要搭建 Standalone 架构 阅读全文
posted @ 2022-03-10 19:17 阿伟宝座 阅读(954) 评论(0) 推荐(0)
摘要:Spark中的算子 Transformations:转换算子 Actions:操作算子 所谓的转换算子,其实就是通过调用RDD对象的方法,将旧的RDD转换为新的RDD,通过转换,将多个功能组合在一起;如果一个算子的返回值是一个新的rdd,那么这个算子就是转换算子 所有会产生shuffle的算子都可以 阅读全文
posted @ 2022-03-09 22:22 阿伟宝座 阅读(444) 评论(0) 推荐(0)
摘要:RDD 分区数的设置、访问 spark web界面,查看任务运行状态 目录 RDD 分区数的设置 访问 spark web界面,查看任务运行状态 RDD 分区数的设置 package com.shujia.spark import org.apache.spark.rdd.RDD import or 阅读全文
posted @ 2022-03-07 22:46 阿伟宝座 阅读(398) 评论(0) 推荐(0)
摘要:RDD基础 RDD的五大特性、spark WordCount流程图 RDD:弹性的分布式数据集,可以理解为一个分布式的List集合 RDD:ResilientDistributedDataset Rdd默认没有数据,它是一个抽象的编程模型 1、RDD的五大特性 (1)由一系列的分区组成。默认一个bl 阅读全文
posted @ 2022-03-07 22:33 阿伟宝座 阅读(346) 评论(0) 推荐(0)
摘要:Spark的配置和WordCount案例 Spark运行模式: (1)Local:多用于测试 (2)Standalone:独立集群(通常不用) (3)Mesos:(通常不用) (4)YARN:最具前景(管理内存的CPU) (5)k8s:虚拟化模型 一、spark的配置 1、在spark的pom.xm 阅读全文
posted @ 2022-03-07 22:03 阿伟宝座 阅读(127) 评论(0) 推荐(0)
摘要:spark的介绍 1、什么是spark? 分布式计算引擎,也是快速通用的大规模数据处理引擎 2、spark的特点 (1)速度快 spark的计算是基于内存的;spark具有优秀的作业调度策略 (2)易使用 spark提供了支持多种语言的API(scala、python、javan、R等; scala 阅读全文
posted @ 2022-03-07 20:04 阿伟宝座 阅读(2755) 评论(0) 推荐(0)
摘要:1 阅读全文
posted @ 2022-03-07 20:02 阿伟宝座 阅读(31) 评论(0) 推荐(0)
摘要:Scala的反射 先创建一个类 Demo34 package com.shujia.scala object Demo33{ def main(args: Array[String]): Unit = { /** * 反射 * 类对象: class文件在jvm这种的存在形式 * * 类对象的作用 * 阅读全文
posted @ 2022-03-06 23:52 阿伟宝座 阅读(90) 评论(0) 推荐(0)
摘要:Scala中的偏应用函数 偏应用函数: 可以先传一部分参数,会返回一个函数, 后面的参数可以传多次不一样的 package com.shujia.scala object Demo32 { def main(args: Array[String]): Unit = { //定义一个函数 def fu 阅读全文
posted @ 2022-03-06 22:43 阿伟宝座 阅读(44) 评论(0) 推荐(0)
摘要:Scala中的显示转换和隐式转换 隐式转换 隐式类型转换,不需要手动转换 显示转换 显示类型转换,需要手动转换 1、显示转换 object Demo29 { def main(args: Array[String]): Unit = { //定义一个字符串变量 val s = "100" //将字符 阅读全文
posted @ 2022-03-06 22:33 阿伟宝座 阅读(118) 评论(0) 推荐(0)
摘要:Scala的模式匹配 match java 模式匹配可以匹配 :基本数据类型、字符串 、枚举 scala模式匹配可以匹配:基本数据类型、字符串、枚举、类型匹配、样例类 match: 按照顺序匹配,只匹配成功一次(前面匹配成功,后面的代码就不会执行了) 一 、模式匹配 1、匹配基本数据类型 objec 阅读全文
posted @ 2022-03-06 21:11 阿伟宝座 阅读(590) 评论(0) 推荐(0)
摘要:Scala集合与Java集合的相互转换 为什么要相互转换? 假如有一个Scala代码和一个Java代码,两者之间相互调用的时候, 中间可能需要传参数,因为两者在一些方面是不兼容的,因此需要相互转换 Java集合转换为Scala集合 Java转Scala,导入隐式转换: import scala.co 阅读全文
posted @ 2022-03-06 20:03 阿伟宝座 阅读(872) 评论(0) 推荐(0)
摘要:集合的应用举例:统计单词的数量、计算每一个班级学生的平均年龄 1、统计单词的数量 使用Java的方式 object Demo23WordCount { def main(args: Array[String]): Unit = { val hashMap = new util.HashMap[Str 阅读全文
posted @ 2022-03-06 19:24 阿伟宝座 阅读(461) 评论(0) 推荐(0)
摘要:Scala的Map集合(涉及到元组) 1、不可变Map object Demo22Map { def main(args: Array[String]): Unit = { /** * 不可变map * "003" -> "王五" 构建二元组的简写 */ //定义一个map集合() //传入k-v格 阅读全文
posted @ 2022-03-06 16:11 阿伟宝座 阅读(141) 评论(0) 推荐(0)
摘要:Scala的元组 (1)可以通过下标获取元素:元组名._下标 (2)相比较数组不会出现下标越界的问题 class Demo21 { def main(args: Array[String]): Unit = { //定义一个元组 val tuple= (1, 2, 3, 4, 5) println( 阅读全文
posted @ 2022-03-06 15:43 阿伟宝座 阅读(116) 评论(0) 推荐(0)
摘要:Scala集合 list: 有序不唯一(有序:指的是插入顺序) set : 无序唯一 map: kv结构 tuple: 固定长度的集合 一、List集合 scala中的list 相对于Java,提供了很多实用的方法 list set map array 都有以下方法 * map * flatMap 阅读全文
posted @ 2022-03-06 15:18 阿伟宝座 阅读(84) 评论(0) 推荐(0)
摘要:Scala函数的应用:以函数作为返回值(了解) package com.shujia.scala object Demo16 { def main(args: Array[String]): Unit = { //定义一个函数,返回值类型是一个函数 def fun1(str: String): St 阅读全文
posted @ 2022-03-05 22:51 阿伟宝座 阅读(146) 评论(0) 推荐(0)
摘要:函数的应用:以函数作为参数(重点) 以函数作为参数、以函数中作为返回值 统称为高阶函数 package com.shujia.scala object Demo15 { def main(args: Array[String]): Unit = { /** * 以函数作为参数 * * f:是一个参数 阅读全文
posted @ 2022-03-05 21:03 阿伟宝座 阅读(293) 评论(0) 推荐(0)
摘要:Scala函数的定义和类型 1、函数的介绍 面向对象编程,将对象传来传去 1、将对象作为参数 2、将对象作为返回值 需要明确对象的类型 面向函数编程,将函数传来传去(函数也算对象,万物皆对象) 1、可以将一个函数作为参数 2、可以将一个函数作为返回值 所以需要明确每一个函数的类型 scala中函数的 阅读全文
posted @ 2022-03-05 16:53 阿伟宝座 阅读(553) 评论(0) 推荐(0)
摘要:Scala基本语法(2) 1、Scala基础语法 定义一个类 类中可以定义属性,方法,构造函数,还可以继承父类,实现接口 Scala类中默认无参构造函数就是类名后面的 { ...} //在Scala中的类中,函数如果没有参数,括号()可以省略不写 class Student{ println("默认 阅读全文
posted @ 2022-03-05 14:47 阿伟宝座 阅读(108) 评论(0) 推荐(0)
摘要:Scala介绍及其基本语法 1、Scala概述 (1)Scala 是 Scalable Language 的简写,是一门多范式的编程语言 (2)Scala是把函数式编程思想和面向对象编程思想结合的一种编程语言。 (3)大数据计算引擎Spark又Scala编写 2、scala与java的区别 Test 阅读全文
posted @ 2022-03-03 23:47 阿伟宝座 阅读(276) 评论(0) 推荐(0)
摘要:添加Scala依赖和插件 1、在pom.xml文件中添加Scala依赖 <dependencies> <dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-library</artifactId> <version>2.11 阅读全文
posted @ 2022-03-03 19:29 阿伟宝座 阅读(624) 评论(0) 推荐(0)
摘要:HBase的RowKey设计 HBase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这个三个维度可以对HBase中的数据进行快速定位。 HBase中rowkey可以唯一标识一行记录,在HBase查询的 阅读全文
posted @ 2022-03-02 22:48 阿伟宝座 阅读(152) 评论(0) 推荐(0)
摘要:面对百亿数据,HBase为什么查询速度依然非常快? HBase适合存储PB级别的海量数据(百亿千亿量级条记录),如果根据记录主键Rowkey来查询,能在几十到百毫秒内返回数据。 那么HBase是如何做到的呢? 接下来,简单阐述一下数据的查询思路和过程。 查询过程 第1步: 项目有100亿业务数据,存 阅读全文
posted @ 2022-03-02 22:47 阿伟宝座 阅读(344) 评论(0) 推荐(0)
摘要:Phoenix Hbase适合存储大量的对关系运算要求低的NOSQL数据,受Hbase 设计上的限制不能直接使用原生的API执行在关系数据库中普遍使用的条件判断和聚合等操作。Hbase很优秀,一些团队寻求在Hbase之上提供一种更面向普通开发人员的操作方式,Apache Phoenix即是。 Pho 阅读全文
posted @ 2022-03-02 22:44 阿伟宝座 阅读(382) 评论(0) 推荐(0)
摘要:MapReduce读写HBase架构图及其示例代码 1、MapReduce读写HBase架构图 2、MapReduce读HBase代码示例 package com.shujia; import org.apache.hadoop.conf.Configuration; import org.apac 阅读全文
posted @ 2022-03-02 11:08 阿伟宝座 阅读(115) 评论(0) 推荐(0)
摘要:布隆过滤器 1、布隆过滤器的介绍 Bloom Filter(布隆过滤器) (1)它实际上是一个很长的二进制向量(字节数组)和一系列随机映射函数。 (2)布隆过滤器可以用于检索一个元素是否在一个集合中。 (3)它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率和删除困难。 在计算 阅读全文
posted @ 2022-03-01 22:35 阿伟宝座 阅读(511) 评论(0) 推荐(0)
摘要:HBase过滤器及其代码示例 HBase 的基本 API,包括增、删、改、查等。 增、删都是相对简单的操作,与传统的 RDBMS 相比,这里的查询操作略显苍白, 只能根据特性的行键进行查询(Get)或者根据行键的范围来查询(Scan)。 HBase 不仅提供了这些简单的查询,而且提供了更加高级的过滤 阅读全文
posted @ 2022-03-01 21:53 阿伟宝座 阅读(476) 评论(0) 推荐(0)
摘要:Hive整合HBase(操作HBase中的数据) # Hive整合HBase,必须建立外部表 #在Hive建立外部表 create external table students_hbase ( id string, name string, age string, gender string, c 阅读全文
posted @ 2022-03-01 16:58 阿伟宝座 阅读(152) 评论(0) 推荐(0)
摘要:HBase架构及其读写流程 详解图 阅读全文
posted @ 2022-03-01 16:00 阿伟宝座 阅读(49) 评论(0) 推荐(0)
摘要:HBase特点、数据模型概念、Region分裂策略、Compaction合并 一、HBase的特点 大:一个表可以有上亿行,上百万列。 面向列:面向列族(簇)的存储和权限控制,列(簇)独立检索。 稀疏:对于为空(NULL)的列,并不占用存储空间,因此,表可以设计的非常稀疏。 无模式(no Schem 阅读全文
posted @ 2022-03-01 15:39 阿伟宝座 阅读(354) 评论(0) 推荐(0)