会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
whiteY
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
···
15
下一页
2023年10月10日
pyspark:spark-sql使用
摘要: 使用spark-sql操作文件进行sql查询 示例代码如下 if __name__ == '__main__': #SparkSession用于SparkSQL编程作为入口对象 #用于SparkCore编程,可以通过SparkSession对象中获取到SparkContext #也可以直接进入pys
阅读全文
posted @ 2023-10-10 11:19 whiteY
阅读(141)
评论(0)
推荐(0)
2023年10月8日
linux环境pyspark环境搭建
摘要: 安装anaconda 1.首先安装spark,在安装spark之前需要安装anaconda 可以到清华大学镜像源下载: https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 以镜像源为例: 由于使用python3.8,anaconda下载的版本
阅读全文
posted @ 2023-10-08 18:06 whiteY
阅读(1062)
评论(0)
推荐(0)
2023年9月27日
spark环境部署之wordCount初体验
摘要: 一.安装spark 1.1 下载并解压 官方下载地址:http://spark.apache.org/downloads.html ,选择 Spark 版本和对应的 Hadoop 版本后再下载: 解压安装包 # tar -zxvf spark-2.2.3-bin-hadoop2.6.tgz 1.2
阅读全文
posted @ 2023-09-27 17:20 whiteY
阅读(34)
评论(0)
推荐(0)
2023年9月20日
hdfs副本数设置
摘要: 1.调整HDFS副本数 ##该命令只会设置当前已有的文件副本数,不会改默认副本数参数 hadoop fs -setrep -R -w 5 /corelogs 2.查看HDFS当前文件副本数 hadoop fs -ls /corelogs ##显示的第二个参数即为当前副本数
阅读全文
posted @ 2023-09-20 15:52 whiteY
阅读(644)
评论(0)
推荐(0)
2023年9月19日
apache-paimon初体验 (hive用法待完善)
摘要: 1.官网 https://paimon.apache.org/docs/master/engines/hive/ 2.安装flink 3.下载依赖包到flink lib目录下 4.运行yarnsession 创建Application-Name,并修改配置文件 ./bin/yarn-session.
阅读全文
posted @ 2023-09-19 18:03 whiteY
阅读(1015)
评论(0)
推荐(0)
2023年8月31日
kafka安装部署与使用
摘要: 前言 1.kafka简介 Kafka是一个开源的分布式消息引擎/消息中间件,同时Kafka也是一个流处理平台。Kakfa支持以发布/订阅的方式在应用间传递消息,同时并基于消息功能添加了Kafka Connect、Kafka Streams以支持连接其他系统的数据(Elasticsearch、Hado
阅读全文
posted @ 2023-08-31 11:51 whiteY
阅读(274)
评论(0)
推荐(0)
2023年8月30日
flume采集文件到HDFS案例
摘要: (1):采集需求:比如业务系统使用log4j生成的日志,日志内容不断增加,需要把追加到日志文件中的数据实时采集到hdfs (2):根据需求,首先定义以下3大要素 采集源,即source——监控文件内容更新 : exec ‘tail -F file’ 下沉目标,即sink——HDFS文件系统 : hd
阅读全文
posted @ 2023-08-30 15:26 whiteY
阅读(101)
评论(0)
推荐(0)
flume采集目录到HDFS案例:
摘要: (1)采集需求:某服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去 (2)根据需求,首先定义以下3大要素 a):采集源,即source——监控文件目录 : spooldir b):下沉目标,即sink——HDFS文件系统 : hdfs sink c):sou
阅读全文
posted @ 2023-08-30 15:24 whiteY
阅读(79)
评论(0)
推荐(0)
flume监视文件夹案例
摘要: ###监视文件夹 #####1.`在flume的conf的目录下创建文件名称为:vim spool-logger.conf的文件` ``` # Name the components on this agent a1.sources = r1 a1.sinks = k1 a1.channels =
阅读全文
posted @ 2023-08-30 14:42 whiteY
阅读(75)
评论(0)
推荐(0)
flume安装配置与使用
摘要: ###1.安装包下载路径 ``` https://mirrors.tuna.tsinghua.edu.cn/apache/ ``` ###2.安装环境 ``` 192.168.11.128 192.168.11.129 192.168.11.130 ``` ###3.解压gz压缩包到3个机器节点 `
阅读全文
posted @ 2023-08-30 11:38 whiteY
阅读(248)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
···
15
下一页
公告