阿伟宝座

2022年4月7日

摘要： ![image](https://img2022.cnblogs.com/blog/2598064/202204/2598064-20220407170741364-940037839.png) ![image](https://img2022.cnblogs.com/blog/2598064/202204/2598064-20220407170746064-284794268.png) 阅读全文

posted @ 2022-04-07 17:08 阿伟宝座阅读(181) 评论(1) 推荐(0)

Flume的安装与使用

摘要： Flume的安装与使用一、Flume 介绍实时数据采集工具可以监控一个文件，可以监控一个目录，可以监听一个端口将采集到的数据写入Kafka、hdfs、hbase、…… 只能采集当前服务器中的数据可以关注 GitHub 上的热度 flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传阅读全文

posted @ 2022-04-07 16:59 阿伟宝座阅读(723) 评论(0) 推荐(0)

伪分布式集群

摘要：伪分布式集群 Linux 查看历史命令 history Linux查看进程运行的状态 top 也能查看集群资源为了节省计算机的资源，我们将之前分布式的集群，改为伪分布式伪分布式：即在一个节点上做分布式，可以节省资源拍摄快照在改伪分布式之前可以给我们的集群拍个快照，方便之后如果想要用回分布式集阅读全文

posted @ 2022-04-07 16:02 阿伟宝座阅读(149) 评论(0) 推荐(0)

canal的安装与使用

摘要： canal的安装与使用 canal，译意为水道/管道/沟渠，主要用途是基于 MySQL 数据库增量日志解析，提供增量数据订阅和消费。（实时监控MySQL） canal的数据同步不是全量的，而是增量。基于binary log增量订阅和消费，canal可以做： 1、数据库镜像 2、数据库实时备份 3、索阅读全文

posted @ 2022-04-07 16:01 阿伟宝座阅读(840) 评论(0) 推荐(0)

（2）Kafka的搭建、启动、测试

摘要： Kafka的搭建、启动、测试一、kafka的搭建 1、上传压缩包到任意节点 2、解压，配置环境变量所有节点都配置 #解压 cd /usr/local/soft tar -xvf kafka_2.11-1.0.0.tgz #配置环境变量 cd /usr/local/soft/kafka_2.11- 阅读全文

posted @ 2022-04-07 10:53 阿伟宝座阅读(476) 评论(0) 推荐(0)

2022年4月3日

Sqoop的安装与使用(不常用)

摘要： Sqoop的安装与使用目录 Sqoop Sqoop架构导入数据到hdfs 导出hdfs数据 Sqoop安装及使用 SQOOP安装 1、上传并解压 2、修改文件夹名字 3、修改配置文件 4、修改环境变量 5、添加MySQL连接驱动 6、测试准备MySQL数据登录MySQL数据库创建stude 阅读全文

posted @ 2022-04-03 16:31 阿伟宝座阅读(227) 评论(0) 推荐(0)

DataX的安装及使用(公司常用)

摘要： DataX的安装及使用 DataX的介绍 DataX是阿里开源软件异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能易用性：以执行脚本方式运行，对使用人员技术要求较高。性能阅读全文

posted @ 2022-04-03 15:01 阿伟宝座阅读(21213) 评论(0) 推荐(1)

2022年3月30日

Python数据分析----Pandas

摘要： Python数据分析 Pandas pandas提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数 . pandas兼具NumPy高性能的数组计算功能以及电子表格和关系型数据库灵活的数据处理功能 . 对于金融行业的用户，pandas提供了大量适合于金融数据的高性能时间序列功能和工具 . 学阅读全文

posted @ 2022-03-30 22:15 阿伟宝座阅读(242) 评论(0) 推荐(0)

通过网页写python代码的工具----Jupyter Notebook

摘要：通过网页写代码的工具 Jupyter Notebook 之前我们学习 Python 的时候，代码都是在 PyCharm 或者是 IDEA 中运行的，每当代码写到后面的时候，运行代码都会把前面的代码执行一遍，很不方便。 Jupyter Notebook ：就是一个脱离了 PyCharm 或者是 ID 阅读全文

posted @ 2022-03-30 22:11 阿伟宝座阅读(956) 评论(0) 推荐(0)

Python科学计算----Numpy

摘要： Python科学计算 Numpy Numpy 是一个专门用于矩阵化运算、科学计算的开源Python NumPy将Python相当于变成一种免费的更强大的Matlab系统 (1)强大的 ndarray 多维数组结构 (2)成熟的函数库 (3)用于整合C/C++和Fortran代码的工具包 (4)实用的阅读全文

posted @ 2022-03-30 22:09 阿伟宝座阅读(759) 评论(0) 推荐(0)

python的类和模块

摘要： python的类和模块内置电池(batteries included) ：基础代码库，覆盖了网络通信、文件处理、数据库接口、图形系统、XML处理第三方工具包 • Pandas:数据处理与分析 • Numpy:科学计算 • Scikit-learn:基于SciPy和Numpy的开源机器学习模块 • 阅读全文

posted @ 2022-03-30 22:07 阿伟宝座阅读(369) 评论(0) 推荐(0)

2022年3月29日

Python的语法

摘要：一、解释型语言Python Python语言是一种解释型、面向对象、动态数据类型的高级程序设计语言二、命名规则 Java、Scala命名规则 1、项目名：小写，多个单词用-分割 2、包名：小写，多个包用.分割 3、类名：首字母大写，驼峰命名 4、变量：首字母小写，驼峰命名 5、常量：大写，单词之间阅读全文

posted @ 2022-03-29 15:21 阿伟宝座阅读(271) 评论(0) 推荐(0)

2022年3月25日

Combiner编程、reduce join、map join、mapreduce优化总结、通过自定义分区类避免数据倾斜、MapReduce自定义排序

摘要： Combiner编程、reduce join、map join、mapreduce优化总结、通过自定义分区类避免数据倾斜、MapReduce自定义排序 Combiner编程 reduce join map join mapreduce优化总结通过自定义分区类避免数据倾斜 #每一个reduce任务生阅读全文

posted @ 2022-03-25 10:57 阿伟宝座阅读(88) 评论(0) 推荐(0)

常用的Writable实现类

摘要：常用的Writable实现类 Java基本类型 Writable 序列化大小(字节) 布尔型（boolean） BooleanWritable 1 字节型（byte） ByteWritable 1 整型（int） IntWritable 4 VIntWritable 1~5 浮点型（float） F 阅读全文

posted @ 2022-03-25 10:40 阿伟宝座阅读(143) 评论(0) 推荐(0)

什么是序列化？为什么要序列化？

摘要：什么是序列化？为什么要序列化？序列化(Serialization)：将对象的状态信息转换为可以存储或传输的形式的过程。在序列化期间，对象将其当前状态写入到临时或持久性存储区。以后，可以通过从存储区中读取或反序列化对象的状态，重新创建该对象。当两个进程在进行远程通信时，彼此可以发送各种类型的数阅读全文

posted @ 2022-03-25 09:46 阿伟宝座阅读(1036) 评论(0) 推荐(0)

公告