2022 年 3月随笔档案 - 阿伟宝座

Python数据分析----Pandas

摘要：Python数据分析 Pandas pandas提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数 . pandas兼具NumPy高性能的数组计算功能以及电子表格和关系型数据库灵活的数据处理功能 . 对于金融行业的用户，pandas提供了大量适合于金融数据的高性能时间序列功能和工具 . 学阅读全文

posted @ 2022-03-30 22:15 阿伟宝座阅读(235) 评论(0) 推荐(0)

通过网页写python代码的工具----Jupyter Notebook

摘要：通过网页写代码的工具 Jupyter Notebook 之前我们学习 Python 的时候，代码都是在 PyCharm 或者是 IDEA 中运行的，每当代码写到后面的时候，运行代码都会把前面的代码执行一遍，很不方便。 Jupyter Notebook ：就是一个脱离了 PyCharm 或者是 ID 阅读全文

posted @ 2022-03-30 22:11 阿伟宝座阅读(930) 评论(0) 推荐(0)

Python科学计算----Numpy

摘要：Python科学计算 Numpy Numpy 是一个专门用于矩阵化运算、科学计算的开源Python NumPy将Python相当于变成一种免费的更强大的Matlab系统 (1)强大的 ndarray 多维数组结构 (2)成熟的函数库 (3)用于整合C/C++和Fortran代码的工具包 (4)实用的阅读全文

posted @ 2022-03-30 22:09 阿伟宝座阅读(740) 评论(0) 推荐(0)

python的类和模块

摘要：python的类和模块内置电池(batteries included) ：基础代码库，覆盖了网络通信、文件处理、数据库接口、图形系统、XML处理第三方工具包 • Pandas:数据处理与分析 • Numpy:科学计算 • Scikit-learn:基于SciPy和Numpy的开源机器学习模块 • 阅读全文

posted @ 2022-03-30 22:07 阿伟宝座阅读(359) 评论(0) 推荐(0)

Python的语法

摘要：一、解释型语言Python Python语言是一种解释型、面向对象、动态数据类型的高级程序设计语言二、命名规则 Java、Scala命名规则 1、项目名：小写，多个单词用-分割 2、包名：小写，多个包用.分割 3、类名：首字母大写，驼峰命名 4、变量：首字母小写，驼峰命名 5、常量：大写，单词之间阅读全文

posted @ 2022-03-29 15:21 阿伟宝座阅读(260) 评论(0) 推荐(0)

Combiner编程、reduce join、map join、mapreduce优化总结、通过自定义分区类避免数据倾斜、MapReduce自定义排序

摘要：Combiner编程、reduce join、map join、mapreduce优化总结、通过自定义分区类避免数据倾斜、MapReduce自定义排序 Combiner编程 reduce join map join mapreduce优化总结通过自定义分区类避免数据倾斜 #每一个reduce任务生阅读全文

posted @ 2022-03-25 10:57 阿伟宝座阅读(81) 评论(0) 推荐(0)

常用的Writable实现类

摘要：常用的Writable实现类 Java基本类型 Writable 序列化大小(字节) 布尔型（boolean） BooleanWritable 1 字节型（byte） ByteWritable 1 整型（int） IntWritable 4 VIntWritable 1~5 浮点型（float） F 阅读全文

posted @ 2022-03-25 10:40 阿伟宝座阅读(133) 评论(0) 推荐(0)

什么是序列化？为什么要序列化？

摘要：什么是序列化？为什么要序列化？序列化(Serialization)：将对象的状态信息转换为可以存储或传输的形式的过程。在序列化期间，对象将其当前状态写入到临时或持久性存储区。以后，可以通过从存储区中读取或反序列化对象的状态，重新创建该对象。当两个进程在进行远程通信时，彼此可以发送各种类型的数阅读全文

posted @ 2022-03-25 09:46 阿伟宝座阅读(1023) 评论(0) 推荐(0)

spark 数据倾斜优化

摘要：spark 数据倾斜优化倾斜优化数据倾斜产生的原因 1、数据分布不均，有的key很多，有的key很少 2、有shuffle的过程这两个原因也是解决数据倾斜的两个入手的方面数据倾斜七种解决方案其中 3、4、5、6 最重要 3和4 -- 聚合 5和6 -- 关联 1、使用Hive ETL预处理阅读全文

posted @ 2022-03-23 15:26 阿伟宝座阅读(325) 评论(0) 推荐(0)

spark 参数调优

摘要：spark 参数调优参数调优 num-executors 一般为Task数的1/3或1/2左右，这个参数是必须要设置的参数说明：该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时，YARN集群管理器会尽可能按照你的设置来在集群的各个阅读全文

posted @ 2022-03-23 15:24 阿伟宝座阅读(726) 评论(0) 推荐(0)

spark案例----精准搜索需求

摘要：spark案例精准搜索需求数据： {"recordMap":{"screenwriter":,"publishtime":"2021-08-21","year":"2021","score":"0.0"},"processDate":"2021-11-03","cid":"c370201","i 阅读全文

posted @ 2022-03-23 15:16 阿伟宝座阅读(59) 评论(0) 推荐(0)

（5）数据案例----数据写入Kafka、flink来消费

摘要：数据案例数据写入Kafka、flink消费 1、创建生产者，将数据写入Kafka package com.shujia.flink.dx import java.util.Properties import org.apache.kafka.clients.producer.{KafkaProdu 阅读全文

posted @ 2022-03-23 15:03 阿伟宝座阅读(608) 评论(0) 推荐(0)

（4）通过 java(Scala) 来读写 Kafka

摘要：通过 java(Scala) 来读写 Kafka 1、导入依赖 <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.11</artifactId> <version>1.0.0</version> </depend 阅读全文

posted @ 2022-03-23 14:49 阿伟宝座阅读(697) 评论(0) 推荐(0)

（3）Kafka整合Flink使用----使用Flink消费kafka内的数据

摘要：Kafka整合Flink使用使用Flink消费kafka内的数据添加依赖（代码参照kafka官网：https://kafka.apache.org/） <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-conne 阅读全文

posted @ 2022-03-23 10:33 阿伟宝座阅读(1452) 评论(0) 推荐(0)

（1）kafka----高吞吐的分布式消息系统

摘要：kafka 高吞吐的分布式消息系统离线与实时： kafka是实时计算的数据源 1、kafka是什么 kafka是高吞吐的分布式消息系统 2、消息队列的应用场景消息就是数据队列就是排队 (1)系统之间解耦合 queue模型 publish-subscribe模型 (2)峰值压力缓冲 (3)异步通阅读全文

posted @ 2022-03-22 20:57 阿伟宝座阅读(198) 评论(0) 推荐(0)

基于 DataStream API 实现欺诈检测

摘要：基于 DataStream API 实现欺诈检测实时场景 Flink的定时器 package com.shujia.flink.core import org.apache.flink.api.common.functions.RuntimeContext import org.apache.fl 阅读全文

posted @ 2022-03-22 15:41 阿伟宝座阅读(183) 评论(0) 推荐(0)

Flink基石----State and Checkpoint

摘要：Flink基石 State and Checkpoint Flink State and Checkpoint Flink 通过 State 和 Checkpoint 来实现容错和数据处理的唯一一次 State 丰富的State API。 ValueState<T>: 保存一个可以更新和检索的值（如阅读全文

posted @ 2022-03-22 15:40 阿伟宝座阅读(246) 评论(0) 推荐(0)

Flink 窗口的底层 API

摘要：Flink 窗口的底层 API 使用窗口的复杂处理 process : flink 底层 API , 可以操作 flink 的时间，事件，状态 W <: Wondow -- Scala泛型通配符，向下限定，W可以是Wondow及其子类 package com.shujia.flink.window 阅读全文

posted @ 2022-03-22 15:34 阿伟宝座阅读(99) 评论(0) 推荐(0)

Flink基石----Window

摘要：Flink基石 Window Flink中的Window包含三部分： 1、Time Window 时间窗口 2、Session Window 会话窗口（待没有数据的时候开始计算） 3、Count Window 统计窗口（每n条数据计算一次）一、Time Window 时间窗口时间窗口包含四部分：阅读全文

posted @ 2022-03-21 21:55 阿伟宝座阅读(160) 评论(0) 推荐(0)

spark 调优、spark 代码的优化

摘要：spark 调优、spark 代码的优化目录 spark 调优 spark 代码的优化对多次使用的RDD进行持久化使用高性能的算子使用foreachPartitions替代foreach Action算子重分区使用filter之后进行coalesce操作广播大变量使用Kryo优化序列阅读全文

posted @ 2022-03-21 17:18 阿伟宝座阅读(191) 评论(0) 推荐(0)

Flink 基石----Time

摘要：Flink 基石、Flink Time、事件时间、Watermark水位线 Flink 基石 Flink Time 事件时间代码示例 package com.shujia.flink.core import org.apache.flink.streaming.api.TimeCharacteri 阅读全文

posted @ 2022-03-20 21:59 阿伟宝座阅读(79) 评论(0) 推荐(0)

Flink 共享槽位、如何判断Flink需要使用多少资源

摘要：Flink 共享槽位、如何判断Flink需要使用多少资源并行数据流上图中有5个Task，那么这5个task是如何部署的呢？任务槽和资源 Flink 并不是这样部署的共享槽位 Flink并不是将task合并，而是上游的task和下游的task可以共享一个槽位所以Flink需要使用多少资源和t 阅读全文

posted @ 2022-03-20 20:41 阿伟宝座阅读(550) 评论(0) 推荐(0)

Flink的并行度问题

摘要：Flink的并行度问题 package com.shujia.flink.core import org.apache.flink.streaming.api.datastream.DataStreamSink import org.apache.flink.streaming.api.scala. 阅读全文

posted @ 2022-03-20 20:15 阿伟宝座阅读(597) 评论(0) 推荐(0)

Flink 环境的搭建、独立集群、Flink on Yarn、访问Flink web界面、Flink提交任务的三种方式、Flink读取HDFS上的数据

摘要：Flink 运行方式三种运行方式（与spark相似）： 1、local 本地测试 2、Standallone Cluster 独立集群（做实时计算，不需要hadoop，该独立集群可能用的上） 3、Flink on Yarn 推荐 Standallone Cluster 独立集群独立集群是不依赖h 阅读全文

posted @ 2022-03-20 17:11 阿伟宝座阅读(8376) 评论(0) 推荐(2)

Flink Sink：接收器

摘要：Flink Sink：接收器 flink代码分为三部分： 1、Source 数据源，读取数据 2、Transformation 转换，对数据进行处理，也就是算子 3、Sink 将数据发出去 Flink 将转换计算后的数据发送的地点。 Flink 常见的 Sink 大概有如下几类： 1、写入文件 2 阅读全文

posted @ 2022-03-20 13:15 阿伟宝座阅读(518) 评论(0) 推荐(0)

Flink的算子

摘要：Flink的算子 flink代码分为三部分： 1、Source 数据源，读取数据 2、Transformation 转换，对数据进行处理，也就是算子 3、Sink 将数据发出去 Transformation：数据转换的各种操作，有Map / FlatMap / Filter / KeyBy / Re 阅读全文

posted @ 2022-03-20 13:14 阿伟宝座阅读(3415) 评论(0) 推荐(0)

Flink的Source----数据源

摘要：Flink的Source 数据源 flink代码分为三部分： 1、Source 数据源，读取数据 2、Transformation 转换，对数据进行处理，也就是算子 3、Sink 将数据发出去 Flink的Source分为是四大类 1、基于本地集合的 source 得出的是有界流 2、基于文件的 s 阅读全文

posted @ 2022-03-20 13:11 阿伟宝座阅读(1684) 评论(0) 推荐(0)

flink与spark执行的区别

摘要：flink与spark执行的区别 (1)spark可以在map端进行预聚合，flink却不可以； flink数据直接发送到下游，并且每一条数据都会被处理 (2)spark先执行maptask，再执行reducetask； flink是maptask和reducetask同时执行，等待数据过来 (3) 阅读全文

posted @ 2022-03-20 13:08 阿伟宝座阅读(355) 评论(0) 推荐(0)

Flink流处理---WordCount：统计单词数量

摘要：Flink流处理 WordCount：统计单词数量注意：导包的时候需要手动修改一下修改为import org.apache.flink.streaming.api.scala._ package com.shujia.flink.core import org.apache.flink.stre 阅读全文

posted @ 2022-03-20 13:06 阿伟宝座阅读(986) 评论(0) 推荐(0)

Flink流处理测试

摘要：Flink流处理测试 package com.shujia.flink.core import org.apache.flink.streaming.api.scala._ object Demo1WordCount { def main(args: Array[String]): Unit = { 阅读全文

posted @ 2022-03-20 13:05 阿伟宝座阅读(402) 评论(0) 推荐(0)

Flink的介绍

摘要：Flink前言 Flink和spark的功能很相似，spark能做的flink也能做，flink能做的spark也能做； 1、flink和spark本质的区别 flink：侧重于做实时计算 spark：侧重于做离线计算实时计算和离线计算的特点 2、流处理和批处理流处理和批处理：也可以叫做实时计算阅读全文

posted @ 2022-03-20 13:02 阿伟宝座阅读(337) 评论(0) 推荐(0)

了解：Spark MLlibl

摘要：Spark MLlibl 目录 Spark MLlib 导入依赖稠密向量和稀疏向量 Spark MLlib 线性回归程序示例 Spark MLlib 逻辑回归程序示例使用已经训练好的模型 image(图片) 训练模型 Spark MLlib Spark 机器学习机器学习是人工智能的一个分支阅读全文

posted @ 2022-03-17 23:26 阿伟宝座阅读(98) 评论(0) 推荐(0)

了解：机器学习、算法

摘要：了解：机器学习、算法目录机器学习数学模型有监督和无监督机器学习流程 K-近邻算法(KNN) 朴素贝叶斯分类算法决策树算法随机森林算法逻辑回归算法 k-means聚类人工神经网络深度学习降低维度算法机器学习/数据挖掘建模过程常用的机器学习/数据挖掘建模工具朴素贝叶斯分类贝叶阅读全文

posted @ 2022-03-17 22:47 阿伟宝座阅读(75) 评论(0) 推荐(0)

DStream、RDD、DataFrame 的相互转换、spark 比 MapReduce 快的原因

摘要：DStream、RDD、DataFrame 的相互转换、spark 比 MapReduce 快的原因目录 DStream、RDD、DataFrame 的相互转换 spark 比 MapReduce 快的原因 1、当对同一个rdd多次使用的时候可以将这个rdd缓存起来 2、spark -- 粗粒度的阅读全文

posted @ 2022-03-16 19:51 阿伟宝座阅读(508) 评论(0) 推荐(0)

了解：有状态算子、滑动窗口和滚动窗口

摘要：了解：有状态算子、滑动窗口和滚动窗口目录有状态算子滑动窗口和滚动窗口滑动窗口的使用及优化(包含滚动窗口) 有状态算子之前我们在运行 Spark Streaming 的时候发现微批处理之中，每一个批次都是相对独立的如何让其能够产生累加的效果呢？ package com.shujia.str 阅读全文

posted @ 2022-03-16 19:07 阿伟宝座阅读(511) 评论(0) 推荐(0)

Spark Streaming、离线计算、实时计算、实时查询、Spark Streaming 原理、Spark Streaming WordCount、Spark Streaming 架构图

摘要：Spark Streaming、离线计算、实时计算、实时查询、Spark Streaming 原理、Spark Streaming WordCount、Spark Streaming 架构图目录 Spark Streaming 离线计算、实时计算、实时查询 Spark Streaming 原理 S 阅读全文

posted @ 2022-03-13 23:20 阿伟宝座阅读(188) 评论(0) 推荐(0)

查看 spark-sql 的 SQL语法树、spark-sql 的优化、整合 hive 之后通过代码操作

摘要：查看 spark-sql 的 SQL语法树、spark-sql 的优化、整合 hive 之后通过代码操作一、查看 spark-sql 的 SQL语法树查看 spark-sql 的web界面的一种方式在通过 spark-sql --master yarn-client 命令进入 spark-sq 阅读全文

posted @ 2022-03-13 21:44 阿伟宝座阅读(250) 评论(0) 推荐(0)

spark-sql 写代码的三种方式

摘要：spark-sql 写代码的三种方式一、在idea里面将代码编写好打包上传到集群中运行上线使用 spark-submit提交(项目常用) 1、编写代码编写代码三步骤： (1)创建环境 (2)读取文件、编写逻辑 (3)保存数据 package com.shujia.sql import org. 阅读全文

posted @ 2022-03-13 21:10 阿伟宝座阅读(1708) 评论(0) 推荐(0)

DSL的语法

摘要：DSL的语法 SQL中的执行顺序 from --> join --> on --> where --> group by --> having --> select --> order by --> limit 在DSL中没有having，where可以放在分组前，也可以放在分组后 select() 阅读全文

posted @ 2022-03-13 14:57 阿伟宝座阅读(2004) 评论(0) 推荐(0)

Spark source API：构建DF、RDD与DF之间的相互转换、show()的三种用法

摘要：spark source API：构建DF、RDD与DF之间的相互转换、show()的三种用法读取csv格式的文件，构建DF 读取json格式的文件，构建DF 1、不需要指定分割方式 2、不需要指定字段名和字段类型(json自带字段和字段类型) 3、 json格式的文件相对于csv，会占用额外的空阅读全文

posted @ 2022-03-12 20:43 阿伟宝座阅读(1056) 评论(0) 推荐(0)

Spark SQL的介绍和WordCount案例

摘要：Spark SQL的介绍和WordCount案例 Hive SQL是在Hive命令行里编写 DataSource API 数据源API Spark SQL可以读取很多格式的数据，常用的有以下三种： 1、CSV 文本格式 2、JSON 3、JDBC 数据库的格式 DataFrame API 数据框AP 阅读全文

posted @ 2022-03-12 14:13 阿伟宝座阅读(401) 评论(0) 推荐(0)

spark 累加器、广播变量、Executor 的结构

摘要：spark 累加器、广播变量、Executor 的结构 spark 累加器 package com.shujia.spark import java.lang import org.apache.spark.rdd.RDD import org.apache.spark.util.LongAccum 阅读全文

posted @ 2022-03-11 21:38 阿伟宝座阅读(97) 评论(0) 推荐(0)

Spark中的RDD缓存----cache

摘要：Spark中的RDD缓存 cache 前面说到，spark中的RDD是没有数据的，因为数据流过而不留下，有时候对同一个RDD我们需要使用多次，每次使用该RDD，数据都要重新调用，非常麻烦；这时候我们可以通过对RDD进行缓存，将RDD缓存在内存或者磁盘里面，这样就使RDD中含有数据了。 RDD缓阅读全文

posted @ 2022-03-11 20:55 阿伟宝座阅读(735) 评论(0) 推荐(0)

Spark在Yarn上的资源调度和任务调度

摘要：spark在Yarn上的资源调度和任务调度一、spark的执行架构 spark代码会分为两部分：Driver端、Executor端二、spark on yarn的资源调度(申请资源) 大数据引擎的执行过程： 1、资源调度(申请资源)：申请CPU、内存、Executor的数量 2、任务调度(执行t 阅读全文

posted @ 2022-03-11 01:28 阿伟宝座阅读(1477) 评论(1) 推荐(0)

Spark独立集群(了解即可)、Spark如何在Yarn上运行

摘要：Spark独立集群(了解即可)、Spark如何在Yarn上运行、集群模式这里仅仅只是记录一下 Spark Standalone -- 独立集群模式如何搭建在公司一般不适用standalone模式，因为公司一般已经有yarn 不需要搞两个资源管理框架所以不需要搭建 Standalone 架构阅读全文

posted @ 2022-03-10 19:17 阿伟宝座阅读(954) 评论(0) 推荐(0)

Spark的核心----算子(重点)

摘要：Spark中的算子 Transformations：转换算子 Actions：操作算子所谓的转换算子，其实就是通过调用RDD对象的方法，将旧的RDD转换为新的RDD，通过转换，将多个功能组合在一起；如果一个算子的返回值是一个新的rdd,那么这个算子就是转换算子所有会产生shuffle的算子都可以阅读全文

posted @ 2022-03-09 22:22 阿伟宝座阅读(444) 评论(0) 推荐(0)

RDD 分区数的设置、访问 spark web界面，查看任务运行状态

摘要：RDD 分区数的设置、访问 spark web界面，查看任务运行状态目录 RDD 分区数的设置访问 spark web界面，查看任务运行状态 RDD 分区数的设置 package com.shujia.spark import org.apache.spark.rdd.RDD import or 阅读全文

posted @ 2022-03-07 22:46 阿伟宝座阅读(398) 评论(0) 推荐(0)

RDD基础----RDD的五大特性、spark WordCount流程图

摘要：RDD基础 RDD的五大特性、spark WordCount流程图 RDD：弹性的分布式数据集，可以理解为一个分布式的List集合 RDD：ResilientDistributedDataset Rdd默认没有数据，它是一个抽象的编程模型 1、RDD的五大特性 (1)由一系列的分区组成。默认一个bl 阅读全文

posted @ 2022-03-07 22:33 阿伟宝座阅读(346) 评论(0) 推荐(0)

Spark的配置和WordCount案例

摘要：Spark的配置和WordCount案例 Spark运行模式: (1)Local：多用于测试 (2)Standalone：独立集群(通常不用) (3)Mesos：(通常不用) (4)YARN：最具前景(管理内存的CPU) (5)k8s：虚拟化模型一、spark的配置 1、在spark的pom.xm 阅读全文

posted @ 2022-03-07 22:03 阿伟宝座阅读(127) 评论(0) 推荐(0)

spark的介绍

摘要：spark的介绍 1、什么是spark？分布式计算引擎，也是快速通用的大规模数据处理引擎 2、spark的特点 (1)速度快 spark的计算是基于内存的;spark具有优秀的作业调度策略 (2)易使用 spark提供了支持多种语言的API（scala、python、javan、R等; scala 阅读全文

posted @ 2022-03-07 20:04 阿伟宝座阅读(2755) 评论(0) 推荐(0)

Scala练习题

摘要：1 阅读全文

posted @ 2022-03-07 20:02 阿伟宝座阅读(31) 评论(0) 推荐(0)

Scala的反射

摘要：Scala的反射先创建一个类 Demo34 package com.shujia.scala object Demo33{ def main(args: Array[String]): Unit = { /** * 反射 * 类对象： class文件在jvm这种的存在形式 * * 类对象的作用 * 阅读全文

posted @ 2022-03-06 23:52 阿伟宝座阅读(90) 评论(0) 推荐(0)

Scala中的偏应用函数

摘要：Scala中的偏应用函数偏应用函数：可以先传一部分参数，会返回一个函数，后面的参数可以传多次不一样的 package com.shujia.scala object Demo32 { def main(args: Array[String]): Unit = { //定义一个函数 def fu 阅读全文

posted @ 2022-03-06 22:43 阿伟宝座阅读(44) 评论(0) 推荐(0)

Scala中的显示转换和隐式转换

摘要：Scala中的显示转换和隐式转换隐式转换隐式类型转换，不需要手动转换显示转换显示类型转换，需要手动转换 1、显示转换 object Demo29 { def main(args: Array[String]): Unit = { //定义一个字符串变量 val s = "100" //将字符阅读全文

posted @ 2022-03-06 22:33 阿伟宝座阅读(118) 评论(0) 推荐(0)

Scala的模式匹配----match

摘要：Scala的模式匹配 match java 模式匹配可以匹配：基本数据类型、字符串、枚举 scala模式匹配可以匹配：基本数据类型、字符串、枚举、类型匹配、样例类 match：按照顺序匹配，只匹配成功一次(前面匹配成功，后面的代码就不会执行了) 一、模式匹配 1、匹配基本数据类型 objec 阅读全文

posted @ 2022-03-06 21:11 阿伟宝座阅读(590) 评论(0) 推荐(0)

Scala集合与Java集合的相互转换

摘要：Scala集合与Java集合的相互转换为什么要相互转换？假如有一个Scala代码和一个Java代码，两者之间相互调用的时候，中间可能需要传参数，因为两者在一些方面是不兼容的，因此需要相互转换 Java集合转换为Scala集合 Java转Scala，导入隐式转换： import scala.co 阅读全文

posted @ 2022-03-06 20:03 阿伟宝座阅读(872) 评论(0) 推荐(0)

Scala集合的应用举例：统计单词的数量、计算每一个班级学生的平均年龄

摘要：集合的应用举例：统计单词的数量、计算每一个班级学生的平均年龄 1、统计单词的数量使用Java的方式 object Demo23WordCount { def main(args: Array[String]): Unit = { val hashMap = new util.HashMap[Str 阅读全文

posted @ 2022-03-06 19:24 阿伟宝座阅读(461) 评论(0) 推荐(0)

Scala的Map集合（涉及到元组）

摘要：Scala的Map集合（涉及到元组） 1、不可变Map object Demo22Map { def main(args: Array[String]): Unit = { /** * 不可变map * "003" -> "王五" 构建二元组的简写 */ //定义一个map集合（） //传入k-v格阅读全文

posted @ 2022-03-06 16:11 阿伟宝座阅读(141) 评论(0) 推荐(0)

Scala的元组

摘要：Scala的元组 (1)可以通过下标获取元素：元组名._下标 (2)相比较数组不会出现下标越界的问题 class Demo21 { def main(args: Array[String]): Unit = { //定义一个元组 val tuple= (1, 2, 3, 4, 5) println( 阅读全文

posted @ 2022-03-06 15:43 阿伟宝座阅读(116) 评论(0) 推荐(0)

Scala集合

摘要：Scala集合 list: 有序不唯一(有序：指的是插入顺序) set ：无序唯一 map： kv结构 tuple：固定长度的集合一、List集合 scala中的list 相对于Java，提供了很多实用的方法 list set map array 都有以下方法 * map * flatMap 阅读全文

posted @ 2022-03-06 15:18 阿伟宝座阅读(84) 评论(0) 推荐(0)

Scala函数的应用：以函数作为返回值(了解)

摘要：Scala函数的应用：以函数作为返回值(了解) package com.shujia.scala object Demo16 { def main(args: Array[String]): Unit = { //定义一个函数，返回值类型是一个函数 def fun1(str: String): St 阅读全文

posted @ 2022-03-05 22:51 阿伟宝座阅读(146) 评论(0) 推荐(0)

Scala函数的应用：以函数作为参数(重点)

摘要：函数的应用：以函数作为参数(重点) 以函数作为参数、以函数中作为返回值统称为高阶函数 package com.shujia.scala object Demo15 { def main(args: Array[String]): Unit = { /** * 以函数作为参数 * * f:是一个参数阅读全文

posted @ 2022-03-05 21:03 阿伟宝座阅读(293) 评论(0) 推荐(0)

Scala函数的定义和类型

摘要：Scala函数的定义和类型 1、函数的介绍面向对象编程，将对象传来传去 1、将对象作为参数 2、将对象作为返回值需要明确对象的类型面向函数编程，将函数传来传去(函数也算对象，万物皆对象) 1、可以将一个函数作为参数 2、可以将一个函数作为返回值所以需要明确每一个函数的类型 scala中函数的阅读全文

posted @ 2022-03-05 16:53 阿伟宝座阅读(553) 评论(0) 推荐(0)

Scala基本语法(2)

摘要：Scala基本语法(2) 1、Scala基础语法定义一个类类中可以定义属性，方法，构造函数，还可以继承父类，实现接口 Scala类中默认无参构造函数就是类名后面的 { ...} //在Scala中的类中，函数如果没有参数，括号()可以省略不写 class Student{ println("默认阅读全文

posted @ 2022-03-05 14:47 阿伟宝座阅读(108) 评论(0) 推荐(0)

Scala基本语法(1)

摘要：Scala介绍及其基本语法 1、Scala概述 (1)Scala 是 Scalable Language 的简写，是一门多范式的编程语言 (2)Scala是把函数式编程思想和面向对象编程思想结合的一种编程语言。 (3)大数据计算引擎Spark又Scala编写 2、scala与java的区别 Test 阅读全文

posted @ 2022-03-03 23:47 阿伟宝座阅读(276) 评论(0) 推荐(0)

添加Scala依赖和插件

摘要：添加Scala依赖和插件 1、在pom.xml文件中添加Scala依赖 <dependencies> <dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-library</artifactId> <version>2.11 阅读全文

posted @ 2022-03-03 19:29 阿伟宝座阅读(624) 评论(0) 推荐(0)

HBase的RowKey设计

摘要：HBase的RowKey设计 HBase是三维有序存储的，通过rowkey（行键），column key（column family和qualifier）和TimeStamp（时间戳）这个三个维度可以对HBase中的数据进行快速定位。 HBase中rowkey可以唯一标识一行记录，在HBase查询的阅读全文

posted @ 2022-03-02 22:48 阿伟宝座阅读(152) 评论(0) 推荐(0)

面对百亿数据，HBase为什么查询速度依然非常快？

摘要：面对百亿数据，HBase为什么查询速度依然非常快？ HBase适合存储PB级别的海量数据（百亿千亿量级条记录），如果根据记录主键Rowkey来查询，能在几十到百毫秒内返回数据。那么HBase是如何做到的呢？接下来，简单阐述一下数据的查询思路和过程。查询过程第1步：项目有100亿业务数据，存阅读全文

posted @ 2022-03-02 22:47 阿伟宝座阅读(344) 评论(0) 推荐(0)

Phoenix

摘要：Phoenix Hbase适合存储大量的对关系运算要求低的NOSQL数据，受Hbase 设计上的限制不能直接使用原生的API执行在关系数据库中普遍使用的条件判断和聚合等操作。Hbase很优秀，一些团队寻求在Hbase之上提供一种更面向普通开发人员的操作方式，Apache Phoenix即是。 Pho 阅读全文

posted @ 2022-03-02 22:44 阿伟宝座阅读(382) 评论(0) 推荐(0)

MapReduce读写HBase架构图及其示例代码

摘要：MapReduce读写HBase架构图及其示例代码 1、MapReduce读写HBase架构图 2、MapReduce读HBase代码示例 package com.shujia; import org.apache.hadoop.conf.Configuration; import org.apac 阅读全文

posted @ 2022-03-02 11:08 阿伟宝座阅读(115) 评论(0) 推荐(0)

布隆过滤器

摘要：布隆过滤器 1、布隆过滤器的介绍 Bloom Filter（布隆过滤器） (1)它实际上是一个很长的二进制向量(字节数组)和一系列随机映射函数。 (2)布隆过滤器可以用于检索一个元素是否在一个集合中。 (3)它的优点是空间效率和查询时间都远远超过一般的算法，缺点是有一定的误识别率和删除困难。在计算阅读全文

posted @ 2022-03-01 22:35 阿伟宝座阅读(511) 评论(0) 推荐(0)

HBase过滤器及其代码示例

摘要：HBase过滤器及其代码示例 HBase 的基本 API，包括增、删、改、查等。增、删都是相对简单的操作，与传统的 RDBMS 相比，这里的查询操作略显苍白，只能根据特性的行键进行查询（Get）或者根据行键的范围来查询（Scan）。 HBase 不仅提供了这些简单的查询，而且提供了更加高级的过滤阅读全文

posted @ 2022-03-01 21:53 阿伟宝座阅读(476) 评论(0) 推荐(0)

Hive整合HBase(操作HBase中的数据)

摘要：Hive整合HBase(操作HBase中的数据) # Hive整合HBase，必须建立外部表 #在Hive建立外部表 create external table students_hbase ( id string, name string, age string, gender string, c 阅读全文

posted @ 2022-03-01 16:58 阿伟宝座阅读(152) 评论(0) 推荐(0)

HBase架构及其读写流程----详解图

摘要：HBase架构及其读写流程详解图阅读全文

posted @ 2022-03-01 16:00 阿伟宝座阅读(49) 评论(0) 推荐(0)

HBase特点、数据模型概念、Region分裂策略、Compaction合并

摘要：HBase特点、数据模型概念、Region分裂策略、Compaction合并一、HBase的特点大：一个表可以有上亿行，上百万列。面向列：面向列族（簇）的存储和权限控制，列（簇）独立检索。稀疏：对于为空（NULL）的列，并不占用存储空间，因此，表可以设计的非常稀疏。无模式（no Schem 阅读全文

posted @ 2022-03-01 15:39 阿伟宝座阅读(354) 评论(0) 推荐(0)

阿伟宝座

03 2022 档案

公告