I love myself and love all love self's people

}

随笔分类 -  大数据系列

摘要:i pensier stretti&il viso sciolto. Hemy Wootton《黑客与画家》 守口如瓶,笑脸相迎 目录 序 1.0 创建单调定时器 1.1 创建单元文件 1.2创建python脚本 1.3执行脚本 1.4通过定时器启动任务 文档编写目的 序 用来保护公司机密的监控小进 阅读全文
posted @ 2020-04-26 23:30 强行快乐~ 阅读(1020) 评论(1) 推荐(0)
摘要:首先,添加压缩 现在16g的东西点击确定压缩 本来传递上去要6个小时的。我的网速只有500k左右 压缩完之后,不可思议,尼玛压缩成了 0.9G 放心吧,如果没有中断的话,那么不会 阅读全文
posted @ 2019-11-04 17:12 强行快乐~ 阅读(536) 评论(0) 推荐(0)
摘要:https://www.jianshu.com/p/1d41174441b6 注意传递过去的默认是string,如果修改只能在代码中修改 阅读全文
posted @ 2019-10-31 17:13 强行快乐~ 阅读(1502) 评论(0) 推荐(0)
摘要:找到hbase目录 进入bin目录 ./hbase shell 成功 阅读全文
posted @ 2019-09-02 09:54 强行快乐~ 阅读(834) 评论(0) 推荐(1)
摘要:首先安装git https://git-scm.com/downloads/ 下载对应的版本 下载好了,安装打开 Windows. 打开之后2步走,与git连接 首先选择仓库,进行git init本地建立,然后配置你的名字与邮箱 git config --global user.name “用户名” 阅读全文
posted @ 2019-08-30 17:19 强行快乐~ 阅读(14017) 评论(2) 推荐(0)
摘要:我使用的是IDEA,很简单。 切换到project,如果下面的module版本是2.65,上面的jackson.core.xx小于2.65就会报old,如果高于2.65就会报不兼容。 所以调整成相同的即可 我去我的仓库把它调整成相同的了。就没有问题了。 之后又出现了这个玩意 java.lang.No 阅读全文
posted @ 2019-08-23 12:42 强行快乐~ 阅读(769) 评论(0) 推荐(0)
摘要:对待像我这种2年开发经验的同学 一般都会被问到。 在面试中,我们只要简短的介绍就好了。 首先低调一波,我可能懂的比你少,我就简单说说 1.在排序中,我们使用的是sortBy,它是基于索引,效率高于order by 2.我们在分区的时候采用静态分区,静态分区只是读取配置文件,而动态分区需要重复的读取其 阅读全文
posted @ 2019-08-06 21:24 强行快乐~ 阅读(924) 评论(0) 推荐(1)
摘要:pom文件 一般放在最下面,project里 这个id是每一个profile的识别标识,其实应该画在每个profile里面的,就是觉得里面东西太多了不好看,请各位见谅 阅读全文
posted @ 2019-08-01 11:05 强行快乐~ 阅读(1774) 评论(0) 推荐(0)
摘要:首先咱得有KUDU安装包 这里就不提供直接下载地址了(因为有5G,我 的服务器网卡只有4M,你们下的很慢) 这里使用的是CDH版本 官方下载地址http://archive.cloudera.com/cdh5/ 我这里有3个节点node01,node02,node03。这里上传到node03中 这里 阅读全文
posted @ 2019-07-29 19:30 强行快乐~ 阅读(2237) 评论(0) 推荐(0)
摘要:SparkSql整合Hive 需要Hive的元数据,hive的元数据存储在Mysql里,sparkSql替换了yarn,不需要启动yarn,需要启动hdfs 首先你得有hive,然后你得有spark,如果是高可用hadoop还得有zookeeper,还得有dfs(hadoop中的) 我这里有3台节点 阅读全文
posted @ 2019-07-25 20:07 强行快乐~ 阅读(399) 评论(0) 推荐(0)
摘要:这里使用的是低级API,因为高级API非常不好用,需要繁琐的配置,也不够自动化,却和低级API的效果一样,所以这里以低级API做演示 你得有zookeeper和kafka 我这里是3台节点主机 架构图 与高级API的区别,简单并行(不需要创造多个输入流,它会自动并行读取kafka的数据),高效(不会 阅读全文
posted @ 2019-07-23 18:49 强行快乐~ 阅读(1899) 评论(0) 推荐(0)
摘要:SparkStreaming整合flume 在实际开发中push会丢数据,因为push是由flume将数据发给程序,程序出错,丢失数据。所以不会使用不做讲解,这里讲解poll,拉去flume的数据,保证数据不丢失。 1.首先你得有flume 比如你有:【如果没有请走这篇:搭建flume集群(待定)】 阅读全文
posted @ 2019-07-22 23:37 强行快乐~ 阅读(568) 评论(0) 推荐(0)
摘要:体现sparkStreaming的秒级准实时性,所以我们需要一个能够持续输入数据的东东 1.CentOS上下载nc 创建一个scala工程,导入相关pom依赖 创建一个object 编写代码 跑起来 使用scoket nc打开9999端口发送数据 测试 阅读全文
posted @ 2019-07-22 19:27 强行快乐~ 阅读(1629) 评论(2) 推荐(0)
摘要:这是2种不同的架构。 他们的区别是SparkStreaming的吞吐量非常高,秒级准实时处理,Storm是容错性非常高,毫秒级实时处理 解释:sparkStreaming是一次处理某个间隔的数据,比如5秒内的数据,批量处理,所以吞吐量高。 Storm是来一条处理一条,所以速度快,不存在丢失数据 应用 阅读全文
posted @ 2019-07-22 16:46 强行快乐~ 阅读(1129) 评论(0) 推荐(1)
摘要: 阅读全文
posted @ 2019-07-20 21:38 强行快乐~ 阅读(2834) 评论(0) 推荐(0)
摘要:Scala的安装 使用scala必须有jdk windows下开发工具的安装(我这里使用的是IDEA) 进入这个页面,如果没有进入这个界面,而直接进入项目的话 请点击https://blog.csdn.net/Gnd15732625435/article/details/81182078 .点击co 阅读全文
posted @ 2019-07-13 18:43 强行快乐~ 阅读(6259) 评论(2) 推荐(1)
摘要:HBase集群搭建 上传解压 (1) 上传hbase安装包,这里使用的是1.3.1 点击这里下载hbase-1.3.1-bin.tar.gz 上传到/export/software文件夹下(没有文件夹,自己创建mkdir /export/software,之后的就不在赘述) (2) 解压 配置hba 阅读全文
posted @ 2019-07-11 18:55 强行快乐~ 阅读(502) 评论(0) 推荐(0)
摘要:KafKa的集群搭建 准备3台虚拟机 192.168.140.128 kafka01 192.168.140.129 kafka02 192.168.140.130 kafka03 初始化环境 这里使用的是root账户 1)需要安装jdk、zookeeper Jdk的安装请点击这里(待补充) Zoo 阅读全文
posted @ 2019-07-10 20:36 强行快乐~ 阅读(325) 评论(1) 推荐(0)

联系qq:1035133465