1 2 3 4 5 ··· 16 下一页
摘要: ![image](https://img2022.cnblogs.com/blog/2598064/202204/2598064-20220407170741364-940037839.png) ![image](https://img2022.cnblogs.com/blog/2598064/202204/2598064-20220407170746064-284794268.png) 阅读全文
posted @ 2022-04-07 17:08 阿伟宝座 阅读(178) 评论(1) 推荐(0)
摘要: Flume的安装与使用 一、Flume 介绍 实时数据采集工具 可以监控一个文件,可以监控一个目录,可以监听一个端口 将采集到的数据写入Kafka、hdfs、hbase、…… 只能采集当前服务器中的数据 可以关注 GitHub 上的热度 flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传 阅读全文
posted @ 2022-04-07 16:59 阿伟宝座 阅读(700) 评论(0) 推荐(0)
摘要: 伪分布式集群 Linux 查看历史命令 history Linux查看进程运行的状态 top 也能查看集群资源 为了节省计算机的资源,我们将之前分布式的集群,改为伪分布式 伪分布式:即在一个节点上做分布式,可以节省资源 拍摄快照 在改伪分布式之前可以给我们的集群拍个快照,方便之后如果想要用回分布式集 阅读全文
posted @ 2022-04-07 16:02 阿伟宝座 阅读(143) 评论(0) 推荐(0)
摘要: canal的安装与使用 canal,译意为水道/管道/沟渠,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费。(实时监控MySQL) canal的数据同步不是全量的,而是增量。基于binary log增量订阅和消费,canal可以做: 1、数据库镜像 2、数据库实时备份 3、索 阅读全文
posted @ 2022-04-07 16:01 阿伟宝座 阅读(786) 评论(0) 推荐(0)
摘要: Kafka的搭建、启动、测试 一、kafka的搭建 1、上传压缩包到任意节点 2、解压,配置环境变量 所有节点都配置 #解压 cd /usr/local/soft tar -xvf kafka_2.11-1.0.0.tgz #配置环境变量 cd /usr/local/soft/kafka_2.11- 阅读全文
posted @ 2022-04-07 10:53 阿伟宝座 阅读(461) 评论(0) 推荐(0)
摘要: Sqoop的安装与使用 目录 Sqoop Sqoop架构 导入数据到hdfs 导出hdfs数据 Sqoop安装及使用 SQOOP安装 1、上传并解压 2、修改文件夹名字 3、修改配置文件 4、修改环境变量 5、添加MySQL连接驱动 6、测试 准备MySQL数据 登录MySQL数据库 创建stude 阅读全文
posted @ 2022-04-03 16:31 阿伟宝座 阅读(213) 评论(0) 推荐(0)
摘要: DataX的安装及使用 DataX的介绍 DataX是阿里开源软件异构数据源离线同步工具, 致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能 易用性:以执行脚本方式运行,对使用人员技术要求较高。 性能 阅读全文
posted @ 2022-04-03 15:01 阿伟宝座 阅读(21140) 评论(0) 推荐(1)
摘要: Python数据分析 Pandas pandas提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数 . pandas兼具NumPy高性能的数组计算功能以及电子表格和关系型数据库灵活的数据处理功能 . 对于金融行业的用户,pandas提供了大量适合于金融数据的高性能时间序列功能和工具 . 学 阅读全文
posted @ 2022-03-30 22:15 阿伟宝座 阅读(235) 评论(0) 推荐(0)
摘要: 通过网页写代码的工具 Jupyter Notebook 之前我们学习 Python 的时候,代码都是在 PyCharm 或者是 IDEA 中运行的,每当代码写到后面的时候, 运行代码都会把前面的代码执行一遍,很不方便。 Jupyter Notebook :就是一个脱离了 PyCharm 或者是 ID 阅读全文
posted @ 2022-03-30 22:11 阿伟宝座 阅读(912) 评论(0) 推荐(0)
摘要: Python科学计算 Numpy Numpy 是一个专门用于矩阵化运算、科学计算的开源Python NumPy将Python相当于变成一种免费的更强大的Matlab系统 (1)强大的 ndarray 多维数组结构 (2)成熟的函数库 (3)用于整合C/C++和Fortran代码的工具包 (4)实用的 阅读全文
posted @ 2022-03-30 22:09 阿伟宝座 阅读(735) 评论(0) 推荐(0)
摘要: python的类和模块 内置电池(batteries included) :基础代码库,覆盖了网络通信、文件处理、数据库接口、图形系统、XML处理 第三方工具包 • Pandas:数据处理与分析 • Numpy:科学计算 • Scikit-learn:基于SciPy和Numpy的开源机器学习模块 • 阅读全文
posted @ 2022-03-30 22:07 阿伟宝座 阅读(353) 评论(0) 推荐(0)
摘要: 一、解释型语言Python Python语言是一种解释型、面向对象、动态数据类型的高级程序设计语言 二、命名规则 Java、Scala命名规则 1、项目名:小写,多个单词用-分割 2、包名:小写,多个包用.分割 3、类名:首字母大写,驼峰命名 4、变量:首字母小写,驼峰命名 5、常量:大写,单词之间 阅读全文
posted @ 2022-03-29 15:21 阿伟宝座 阅读(255) 评论(0) 推荐(0)
摘要: Combiner编程、reduce join、map join、mapreduce优化总结、通过自定义分区类避免数据倾斜、MapReduce自定义排序 Combiner编程 reduce join map join mapreduce优化总结 通过自定义分区类避免数据倾斜 #每一个reduce任务生 阅读全文
posted @ 2022-03-25 10:57 阿伟宝座 阅读(77) 评论(0) 推荐(0)
摘要: 常用的Writable实现类 Java基本类型 Writable 序列化大小(字节) 布尔型(boolean) BooleanWritable 1 字节型(byte) ByteWritable 1 整型(int) IntWritable 4 VIntWritable 1~5 浮点型(float) F 阅读全文
posted @ 2022-03-25 10:40 阿伟宝座 阅读(130) 评论(0) 推荐(0)
摘要: 什么是序列化?为什么要序列化? 序列化(Serialization):将对象的状态信息转换为可以存储或传输的形式的过程。 在序列化期间,对象将其当前状态写入到临时或持久性存储区。 以后,可以通过从存储区中读取或反序列化对象的状态,重新创建该对象。 当两个进程在进行远程通信时,彼此可以发送各种类型的数 阅读全文
posted @ 2022-03-25 09:46 阿伟宝座 阅读(1017) 评论(0) 推荐(0)
1 2 3 4 5 ··· 16 下一页