摘要: 下面整理了“大数据基础”的一系列知识,可供学习和参考。 --Java-- --Linux-- --Hadoop-- >>Hadoop是什么? >>HDFS,Zookeeper,ZookeeperFailOverController(简称:ZKFC),JournalNode是什么? >>HDFS-HA 阅读全文
posted @ 2019-09-14 00:52 数据驱动 阅读(2656) 评论(0) 推荐(1) 编辑
摘要: 备注:explode(x)和posexplode()均为炸裂函数,区别在于explode炸出一个值,posexplode不仅炸出一个值还附带索引号 举例: select split(col1,",")[idx] as col1 ,type as col2 from test t lateral vi 阅读全文
posted @ 2023-07-27 21:10 数据驱动 阅读(41) 评论(0) 推荐(0) 编辑
摘要: 引用:https://www.cnblogs.com/cscw/p/15026042.html 我们的服务一般都是在linux系统运行,因此了解一些关于linux命令是必须。接下来将一一详细介绍一些常用的linux的命令 文件操作 远程登录与操作 磁盘挂载 进程管理 启动和结束 系统性能参数查看 网 阅读全文
posted @ 2023-04-11 14:07 数据驱动 阅读(20) 评论(0) 推荐(0) 编辑
摘要: (1)left join(左连接)在两张表进行连接查询时,会返回左表所有的行数据,右表中返回只返回和左表匹配的数据,没有的显示为Null。 (2)right join(右连接)在两张表进行连接查询时,会返回右表所有的行数据,左表中返回只返回和右表匹配的数据,没有的显示为Null (3)full jo 阅读全文
posted @ 2023-02-05 17:31 数据驱动 阅读(91) 评论(0) 推荐(0) 编辑
摘要: 参考:https://blog.csdn.net/weixin_42639246/article/details/116556954 一、Linux系统环境变量的分类 按变量的生存周期来划分,Linux变量可分为两类: **环境变量**:又称为全局变量,存在于所有的Shell中;它是永久生效的,且具 阅读全文
posted @ 2022-11-27 22:23 数据驱动 阅读(814) 评论(0) 推荐(0) 编辑
摘要: unbounded:无界限preceding:从分区第一行头开始,则为 unbounded。 N为:相对当前行向前的偏移量following :与preceding相反,到该分区结束,则为 unbounded。N为:相对当前行向后的偏移量current row:顾名思义,当前行,偏移量为0例子: p 阅读全文
posted @ 2022-03-08 11:44 数据驱动 阅读(236) 评论(0) 推荐(0) 编辑
摘要: 将另一台服务器的 /usr/lib64/mysql下的libmysqlclient.so.18 文件,复制到 出错的服务器上,然后建立软连接,重启hue server服务就好了。 参考资料:https://blog.csdn.net/qq_33286695/article/details/84777 阅读全文
posted @ 2022-03-01 16:35 数据驱动 阅读(191) 评论(0) 推荐(0) 编辑
摘要: order by 时,desc NULL 值排在首位,ASC时NULL值排在末尾 可以通过NULLS LAST、NULLS FIRST 控制 RANK() OVER (ORDER BY column_name DESC NULLS LAST) 阅读全文
posted @ 2022-02-11 17:23 数据驱动 阅读(211) 评论(0) 推荐(0) 编辑
摘要: 效果展示: (原始图片) (运行结果) 代码示例: # -*- coding:utf-8 -*- from PIL import Image import pytesseract def cleanFile(filePath, newFilePath): image = Image.open(fil 阅读全文
posted @ 2021-02-21 15:39 数据驱动 阅读(115) 评论(0) 推荐(0) 编辑
摘要: 废话少说,直接上代码: import chardet # 抽取txt文件内容 def parseTxt(filename): texts = [] encoding = chardet.detect(open(filename, 'rb').read()).get('encoding', 'utf- 阅读全文
posted @ 2021-01-28 19:46 数据驱动 阅读(473) 评论(0) 推荐(0) 编辑
摘要: 这里介绍Python中使用Pandas读取Excel的方法 一、软件环境: OS:Win7 64位 Python 3.7 二、文件准备 1、项目结构: 2、在当前实验文件夹下建立一个Source文件夹,里面放待读取的Excel文件 3、待读取的Excel文件名:Book1.xlsx,Sheet Na 阅读全文
posted @ 2021-01-28 10:08 数据驱动 阅读(262) 评论(0) 推荐(0) 编辑