大数据系列 - 随笔分类 - 强行快乐~

如何隐藏自己的应用程序在服务器上不被发现?

摘要：i pensier stretti&il viso sciolto. Hemy Wootton《黑客与画家》守口如瓶,笑脸相迎目录序 1.0 创建单调定时器 1.1 创建单元文件 1.2创建python脚本 1.3执行脚本 1.4通过定时器启动任务文档编写目的序用来保护公司机密的监控小进阅读全文

posted @ 2020-04-26 23:30 强行快乐~ 阅读(1027) 评论(1) 推荐(0)

文件太大，网速太慢，如何高效的传递到服务器上运行

摘要：首先，添加压缩现在16g的东西点击确定压缩本来传递上去要6个小时的。我的网速只有500k左右压缩完之后，不可思议，尼玛压缩成了 0.9G 放心吧，如果没有中断的话，那么不会阅读全文

posted @ 2019-11-04 17:12 强行快乐~ 阅读(538) 评论(0) 推荐(0)

给spark submit main传递参数

摘要：https://www.jianshu.com/p/1d41174441b6 注意传递过去的默认是string，如果修改只能在代码中修改阅读全文

posted @ 2019-10-31 17:13 强行快乐~ 阅读(1503) 评论(0) 推荐(0)

HbaseShell启动

摘要：找到hbase目录进入bin目录 ./hbase shell 成功阅读全文

posted @ 2019-09-02 09:54 强行快乐~ 阅读(834) 评论(0) 推荐(1)

IDEA中GitLab的使用

摘要：首先安装git https://git-scm.com/downloads/ 下载对应的版本下载好了，安装打开 Windows. 打开之后2步走，与git连接首先选择仓库，进行git init本地建立，然后配置你的名字与邮箱 git config --global user.name “用户名” 阅读全文

posted @ 2019-08-30 17:19 强行快乐~ 阅读(14022) 评论(2) 推荐(0)

Jackson version is too old 2.xx

摘要：我使用的是IDEA，很简单。切换到project,如果下面的module版本是2.65,上面的jackson.core.xx小于2.65就会报old,如果高于2.65就会报不兼容。所以调整成相同的即可我去我的仓库把它调整成相同的了。就没有问题了。之后又出现了这个玩意 java.lang.No 阅读全文

posted @ 2019-08-23 12:42 强行快乐~ 阅读(770) 评论(0) 推荐(0)

Hive优化面试题

摘要：对待像我这种2年开发经验的同学一般都会被问到。在面试中，我们只要简短的介绍就好了。首先低调一波，我可能懂的比你少，我就简单说说 1.在排序中，我们使用的是sortBy,它是基于索引，效率高于order by 2.我们在分区的时候采用静态分区，静态分区只是读取配置文件，而动态分区需要重复的读取其阅读全文

posted @ 2019-08-06 21:24 强行快乐~ 阅读(926) 评论(0) 推荐(1)

IDEA开发、测试、生产环境pom配置及使用

摘要：pom文件一般放在最下面,project里这个id是每一个profile的识别标识，其实应该画在每个profile里面的，就是觉得里面东西太多了不好看，请各位见谅阅读全文

posted @ 2019-08-01 11:05 强行快乐~ 阅读(1786) 评论(0) 推荐(0)

kudu集群高可用搭建

摘要：首先咱得有KUDU安装包这里就不提供直接下载地址了（因为有5G，我的服务器网卡只有4M，你们下的很慢）这里使用的是CDH版本官方下载地址http://archive.cloudera.com/cdh5/ 我这里有3个节点node01,node02,node03。这里上传到node03中这里阅读全文

posted @ 2019-07-29 19:30 强行快乐~ 阅读(2241) 评论(0) 推荐(0)

SparkSql 整合 Hive

摘要：SparkSql整合Hive 需要Hive的元数据，hive的元数据存储在Mysql里，sparkSql替换了yarn,不需要启动yarn，需要启动hdfs 首先你得有hive,然后你得有spark,如果是高可用hadoop还得有zookeeper,还得有dfs(hadoop中的) 我这里有3台节点阅读全文

posted @ 2019-07-25 20:07 强行快乐~ 阅读(405) 评论(0) 推荐(0)

SparkStreaming 整合kafka Demo

摘要：这里使用的是低级API，因为高级API非常不好用，需要繁琐的配置，也不够自动化，却和低级API的效果一样，所以这里以低级API做演示你得有zookeeper和kafka 我这里是3台节点主机架构图与高级API的区别,简单并行(不需要创造多个输入流，它会自动并行读取kafka的数据)，高效（不会阅读全文

posted @ 2019-07-23 18:49 强行快乐~ 阅读(1905) 评论(0) 推荐(0)

SparkStreaming整合flume

摘要：SparkStreaming整合flume 在实际开发中push会丢数据，因为push是由flume将数据发给程序，程序出错，丢失数据。所以不会使用不做讲解，这里讲解poll，拉去flume的数据，保证数据不丢失。 1.首先你得有flume 比如你有：【如果没有请走这篇：搭建flume集群(待定）】阅读全文

posted @ 2019-07-22 23:37 强行快乐~ 阅读(571) 评论(0) 推荐(0)

SparkStreaming wordCountDemo基础案例

摘要：体现sparkStreaming的秒级准实时性，所以我们需要一个能够持续输入数据的东东 1.CentOS上下载nc 创建一个scala工程,导入相关pom依赖创建一个object 编写代码跑起来使用scoket nc打开9999端口发送数据测试阅读全文

posted @ 2019-07-22 19:27 强行快乐~ 阅读(1632) 评论(2) 推荐(0)

SparkStreaming和storm的区别

摘要：这是2种不同的架构。他们的区别是SparkStreaming的吞吐量非常高，秒级准实时处理，Storm是容错性非常高，毫秒级实时处理解释：sparkStreaming是一次处理某个间隔的数据，比如5秒内的数据，批量处理，所以吞吐量高。 Storm是来一条处理一条，所以速度快，不存在丢失数据应用阅读全文

posted @ 2019-07-22 16:46 强行快乐~ 阅读(1132) 评论(0) 推荐(1)

IDEA设置默认WorkingDirectory

摘要：阅读全文

posted @ 2019-07-20 21:38 强行快乐~ 阅读(2835) 评论(0) 推荐(0)

IDEA安装Scala

摘要：Scala的安装使用scala必须有jdk windows下开发工具的安装(我这里使用的是IDEA) 进入这个页面，如果没有进入这个界面,而直接进入项目的话请点击https://blog.csdn.net/Gnd15732625435/article/details/81182078 .点击co 阅读全文

posted @ 2019-07-13 18:43 强行快乐~ 阅读(6262) 评论(2) 推荐(1)

HBase集群搭建

摘要：HBase集群搭建上传解压（1）上传hbase安装包,这里使用的是1.3.1 点击这里下载hbase-1.3.1-bin.tar.gz 上传到/export/software文件夹下(没有文件夹,自己创建mkdir /export/software,之后的就不在赘述) （2）解压配置hba 阅读全文

posted @ 2019-07-11 18:55 强行快乐~ 阅读(507) 评论(0) 推荐(0)

Kafka集群搭建

摘要：KafKa的集群搭建准备3台虚拟机 192.168.140.128 kafka01 192.168.140.129 kafka02 192.168.140.130 kafka03 初始化环境这里使用的是root账户 1）需要安装jdk、zookeeper Jdk的安装请点击这里(待补充) Zoo 阅读全文

posted @ 2019-07-10 20:36 强行快乐~ 阅读(325) 评论(1) 推荐(0)

I love myself and love all love self's people

BigData权威指南

随笔分类 - 大数据系列

公告