上一页 1 2 3 4 5 6 7 8 ··· 15 下一页
摘要: 使用spark-sql操作文件进行sql查询 示例代码如下 if __name__ == '__main__': #SparkSession用于SparkSQL编程作为入口对象 #用于SparkCore编程,可以通过SparkSession对象中获取到SparkContext #也可以直接进入pys 阅读全文
posted @ 2023-10-10 11:19 whiteY 阅读(141) 评论(0) 推荐(0)
摘要: 安装anaconda 1.首先安装spark,在安装spark之前需要安装anaconda 可以到清华大学镜像源下载: https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 以镜像源为例: 由于使用python3.8,anaconda下载的版本 阅读全文
posted @ 2023-10-08 18:06 whiteY 阅读(1062) 评论(0) 推荐(0)
摘要: 一.安装spark 1.1 下载并解压 官方下载地址:http://spark.apache.org/downloads.html ,选择 Spark 版本和对应的 Hadoop 版本后再下载: 解压安装包 # tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz 1.2 阅读全文
posted @ 2023-09-27 17:20 whiteY 阅读(34) 评论(0) 推荐(0)
摘要: 1.调整HDFS副本数 ##该命令只会设置当前已有的文件副本数,不会改默认副本数参数 hadoop fs -setrep -R -w 5 /corelogs 2.查看HDFS当前文件副本数 hadoop fs -ls /corelogs ##显示的第二个参数即为当前副本数 阅读全文
posted @ 2023-09-20 15:52 whiteY 阅读(644) 评论(0) 推荐(0)
摘要: 1.官网 https://paimon.apache.org/docs/master/engines/hive/ 2.安装flink 3.下载依赖包到flink lib目录下 4.运行yarnsession 创建Application-Name,并修改配置文件 ./bin/yarn-session. 阅读全文
posted @ 2023-09-19 18:03 whiteY 阅读(1015) 评论(0) 推荐(0)
摘要: 前言 1.kafka简介 Kafka是一个开源的分布式消息引擎/消息中间件,同时Kafka也是一个流处理平台。Kakfa支持以发布/订阅的方式在应用间传递消息,同时并基于消息功能添加了Kafka Connect、Kafka Streams以支持连接其他系统的数据(Elasticsearch、Hado 阅读全文
posted @ 2023-08-31 11:51 whiteY 阅读(274) 评论(0) 推荐(0)
摘要: (1):采集需求:比如业务系统使用log4j生成的日志,日志内容不断增加,需要把追加到日志文件中的数据实时采集到hdfs (2):根据需求,首先定义以下3大要素 采集源,即source——监控文件内容更新 : exec ‘tail -F file’ 下沉目标,即sink——HDFS文件系统 : hd 阅读全文
posted @ 2023-08-30 15:26 whiteY 阅读(101) 评论(0) 推荐(0)
摘要: (1)采集需求:某服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去 (2)根据需求,首先定义以下3大要素 a):采集源,即source——监控文件目录 : spooldir b):下沉目标,即sink——HDFS文件系统 : hdfs sink c):sou 阅读全文
posted @ 2023-08-30 15:24 whiteY 阅读(79) 评论(0) 推荐(0)
摘要: ###监视文件夹 #####1.`在flume的conf的目录下创建文件名称为:vim spool-logger.conf的文件` ``` # Name the components on this agent a1.sources = r1 a1.sinks = k1 a1.channels = 阅读全文
posted @ 2023-08-30 14:42 whiteY 阅读(75) 评论(0) 推荐(0)
摘要: ###1.安装包下载路径 ``` https://mirrors.tuna.tsinghua.edu.cn/apache/ ``` ###2.安装环境 ``` 192.168.11.128 192.168.11.129 192.168.11.130 ``` ###3.解压gz压缩包到3个机器节点 ` 阅读全文
posted @ 2023-08-30 11:38 whiteY 阅读(248) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 ··· 15 下一页