随笔档案「2021年8月」 - 碧水斜茶

集群时间同步

摘要：时间同步的方式：找一个机器，作为时间服务器，所有的机器与这台集群时间进行定时的同步，比如，每隔十分钟，同步一次时间。配置时间同步具体实操： 1）时间服务器配置（必须root用户）（0）查看所有节点ntpd服务状态和开机自启动状态 [atguigu@hadoop102 ~]$ sudo syste 阅读全文

posted @ 2021-08-31 18:09 碧水斜茶阅读(77) 评论(0) 推荐(0)

Hive中如何处理JSON格式数据

摘要：Hive 处理json数据总体来说有三个办法：使用内建的函数get_json_object、json_tuple 使用自定义的UDF(一进一出)，自定义UDTF(一进多出) 第三方的SerDe--》JSONSerder 1、使用内建函数处理 get_json_object(string json_ 阅读全文

posted @ 2021-08-30 16:19 碧水斜茶阅读(3085) 评论(1) 推荐(0)

kafka消息一致性

摘要：消息丢失的案例： Leader接收消息后，更新Leader的LEO，但是Remote-LEO和HW并没有更新。如果生产者设置acks=1，则表示此消息已经发送成功。如果acks=-1，默认 min.insync.replics=1，也表示消息已经发送成功： Follower拉取消息，放到本地，此时阅读全文

posted @ 2021-08-27 18:18 碧水斜茶阅读(426) 评论(0) 推荐(0)

hive自定义函数

摘要：为什么要自定义函数 hive的内置函数无法满足实际开发环境的所有情况，这个时候需要我们根据业务自定义函数来解决问题。hive提供了很多模块的自定义功能，如：serde、自定义函数、输入输出格式化等常见的自定义函数 UDF:User Define Function.一对一的输入输出，非常使用。UDA 阅读全文

posted @ 2021-08-26 18:17 碧水斜茶阅读(265) 评论(0) 推荐(0)

Centos安装

摘要：1) 在VMware中新建虚拟机 2) 默认即可,不需要做任何修改，直接下一步 3) 选择稍后安装操作系统，然后下一步 4) 选择安装的操作系统为Linux,版本为CentOS7 64位 5) 虚拟机命名，可随意取，安装位置最好选择固态硬盘(有固态的情况) 6) 按照物理机CPU实际情况，选择处理阅读全文

posted @ 2021-08-25 17:01 碧水斜茶阅读(158) 评论(0) 推荐(0)

【转载】Hive面试题

摘要：1.Hive的架构 2 Hive和数据库比较 Hive 和数据库除了拥有类似的查询语言，再无类似之处。 1）数据存储位置 Hive 存储在 HDFS 。数据库将数据保存在块设备或者本地文件系统中。 2）数据更新 Hive中不建议对数据的改写。而数据库中的数据通常是需要经常进行修改的， 3）执行延迟阅读全文

posted @ 2021-08-25 15:58 碧水斜茶阅读(171) 评论(0) 推荐(0)

二分查找

摘要：二分查找例题.在有序表{7,14,18,21,23,29,31,35,38}中查找18. 【解析】对于折半查找有序表里面其中的一个元素的话我们需要注意以下几点 >首先我们需要将表中的元素从小到大排序，由于题目中已经说了是有序表所以我们不需要将这些元素排序（切记这一步很重要） >由于是折半查找顾名阅读全文

posted @ 2021-08-23 15:10 碧水斜茶阅读(83) 评论(0) 推荐(0)

hive常用函数

摘要：1、解析URL字符串的： parse_url 用法： select parse_url("",[HOST,PATH,QUERY,REF,PROTOCOL,FILE,AUTHORITY,USERINFO]) 举例： select parse_url('http://facebook.com/path 阅读全文

posted @ 2021-08-20 17:59 碧水斜茶阅读(179) 评论(0) 推荐(0)

spark任务的提交流程（yarn）

摘要：spark任务的提交流程（yarn） spark一般都是部署到yarn上使用的，所以就说y问的最多的就是arn的提交流程，两种模式最大的区别就是driver端的执行位置 Yarn Client模式第一步，Driver端在任务提交的本地机上运行第二步，Driver启动之后就会和ResourceMa 阅读全文

posted @ 2021-08-19 21:40 碧水斜茶阅读(1455) 评论(0) 推荐(1)

YARN调度策略大揭秘

摘要：YARN调度策略大揭秘 YARN调度策略，即存在于resourceManager中, 主要为了进行资源的调度。一共有三大类调度器，分别是FIFO、 Capacity Scheduler和Fair Scheduler。 Hadoop2.9.2默认的资源调度器是Capacity Scheduler。下阅读全文

posted @ 2021-08-18 21:58 碧水斜茶阅读(673) 评论(0) 推荐(0)

修改网络YUM源

摘要：默认的系统YUM源，需要连接国外apache网站，网速比较慢，可以修改关联的网络YUM源为国内镜像的网站，比如网易163,aliyun等 1) 安装wget, wget用来从指定的URL下载文件 [root@hadoop101 ~] yum install wget 2) 在/etc/yum.rep 阅读全文

posted @ 2021-08-17 19:35 碧水斜茶阅读(113) 评论(0) 推荐(0)

面试必练：经典SQL50道

摘要：--1.学生表 Student(S,Sname,Sage,Ssex) --S 学生编号,Sname 学生姓名,Sage 出生年月,Ssex 学生性别 --2.课程表 -- Course(C,Cname,T) --C --课程编号,Cname 课程名称,T 教师编号 --3.教师表 -- Teache 阅读全文

posted @ 2021-08-16 16:20 碧水斜茶阅读(454) 评论(0) 推荐(0)

分享大数据常见的面试题

摘要：一、mr的shuffle流程说到mr的Shuffle，那么首先要明确shuffle属于哪个阶段。shuffle就是从Map端输出到Reduce输入的整个过程，这个过程广义上称之为shuffle。Shuffle横跨Map端和Reduce端，在Map端包括Spill过程，在Reduce端包括copy和阅读全文

posted @ 2021-08-13 19:18 碧水斜茶阅读(694) 评论(0) 推荐(0)

kafka集群部署

摘要：集群部署 1）解压安装包 [user1@hadoop102 software]$ tar -zxvf kafka_2.11-2.4.1.tgz -C /opt/module/ 2）修改解压后的文件名称 [user1@hadoop102 module]$ mv kafka_2.11-2.4.1.tgz 阅读全文

posted @ 2021-08-13 10:08 碧水斜茶阅读(77) 评论(0) 推荐(0)

数据仓库的分层，你知道吗？

摘要：数据仓库更多代表的是一种对数据的管理和使用的方式，它是一整套包括了数据建模、ETL（数据抽取、转换、加载）以及作用调度等在内的完整的理论体系流程。数据仓库在构建过程中通常都需要进行分层处理。业务不同，分层的技术处理手段也不同。分层的主要原因是在管理数据的时候，能对数据有一个更加清晰的掌控。详细来讲阅读全文

posted @ 2021-08-13 10:07 碧水斜茶阅读(959) 评论(0) 推荐(0)

【转载】Zookeeper内部原理

摘要：节点类型 stat结构体 czxid-创建节点的事务zxid：每次修改ZooKeeper状态都会收到一个zxid形式的时间戳，也就是ZooKeeper事务ID。事务ID是ZooKeeper中所有修改总的次序。每个修改都有唯一的zxid，如果zxid1小于zxid2，那么zxid1在zxid2之前发阅读全文

posted @ 2021-08-10 21:37 碧水斜茶阅读(72) 评论(1) 推荐(0)

git开发工具小技巧

摘要：和大家聊到了个小“bug”，整理个笔记方便记录咱们一般默认的步骤都是先把远程仓库复制到本地，然后编辑配置文件，进行推送，同步等相关的操作上面这个大家都很熟悉了，但是往往不经意的时候会发现下面的情况（开篇的问题）：什么情况呢，就是我们想编辑的时候发现曾经可以编辑的按钮，变成了灰色不可点击状态，这阅读全文

posted @ 2021-08-09 11:59 碧水斜茶阅读(53) 评论(0) 推荐(0)

【转载】Phoenix

摘要：第1章 Phoenix简介 1.1 Phoenix定义 Phoenix是HBase的开源SQL皮肤。可以使用标准JDBC API代替HBase客户端API来创建表，插入数据和查询HBase数据。 1.2 Phoenix特点容易集成：如Spark，Hive，Pig，Flume和Map Reduce。阅读全文

posted @ 2021-08-08 19:45 碧水斜茶阅读(155) 评论(1) 推荐(0)

Kafka工作原理

摘要：1 集群成员之间的关系集群中成员之间的信息是通过zk进行维护的每个broker都有自己的唯一标识broker启动时通过创建临时节点把自己的ID注册到zk上，然后kafka组件订阅zk中的/brokers/ids路径，当加入或退出集群时，组件会得到通知如果关闭一个broker，对应的节点会消失阅读全文

posted @ 2021-08-05 20:53 碧水斜茶阅读(1402) 评论(1) 推荐(0)

【转载】如何选择SparkSQL中的Join策略

摘要：如何选择SparkSQL中的Join策略在大数据分析中，将两个数据集进行 Join 操作是很常见的场景。在 Spark 的物理计划阶段，Spark 的 Join Selection 类会根据 Join hints 策略、Join 表的大小、 Join 是否为等值 Join以及参与 Join 的 k 阅读全文

posted @ 2021-08-04 19:05 碧水斜茶阅读(388) 评论(1) 推荐(0)

【转载】Zookeeper安装

摘要：本地模式安装部署安装前准备安装jdk，拷贝zookeeper安装包到linux系统下，解压到指定的目录 tar -zxvf zookeeper-3.5.7.tar.gz -C /opt/module/ 配置修改将/opt/module/zookeeper-3.5.7/conf这个路径下的zoo 阅读全文

posted @ 2021-08-03 20:02 碧水斜茶阅读(84) 评论(1) 推荐(0)

idea导入源码

摘要：选择某个java类，Ctrl+鼠标左键选中某个类名，比如Reducer，然后就进入到源码了。如果没有导入源码，会进入到一个class文件，这里可以选择右侧的Choose Source，然后选择解压之后的源码文件，idea就自动导入源码，可以发现class文件变成了java文件，就可以愉快的阅读了。阅读全文

posted @ 2021-08-02 14:55 碧水斜茶阅读(814) 评论(1) 推荐(0)

08 2021 档案

公告