随笔分类 -  大数据

hdfs客户端部署
该文被密码保护。

posted @ 2020-03-21 16:55 锋锋2019

大数据常用链接
该文被密码保护。

posted @ 2020-01-11 10:09 锋锋2019 阅读(3) 评论(0) 推荐(0)

presto原理
摘要:presto:https://blog.csdn.net/u011596455/article/details/86558218 部署:https://blog.csdn.net/weixin_33701564/article/details/91894251 EMR: https://help.a 阅读全文

posted @ 2020-01-02 14:33 锋锋2019 阅读(1025) 评论(0) 推荐(0)

算法flink
摘要:和Yarn-Cluster模式不同,Session模式的资源在启动Yarn-Session时候就已经启动了,后续提交的作业全都在已申请的资源空间内运行,比较适合小而多的作业 # 启动yarn-session模式,不用启动flink集群 cm: http://152.32.141.11:7180/cm 阅读全文

posted @ 2019-11-11 19:31 锋锋2019 阅读(354) 评论(0) 推荐(0)

hadoop3.0.0部署
摘要:配置前先查下JAVA_HOME的位置vim /etc/profile#set java environment JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.222.b10-1.el7_7.x86_64JRE_HOME=$JAVA_HOME/jreC 阅读全文

posted @ 2019-10-18 20:01 锋锋2019 阅读(401) 评论(0) 推荐(0)

kylin
摘要:参考: 官网部属: http://kylin.apache.org/cn/docs/install/index.html 原理: https://www.cnblogs.com/honey01/p/8351145.html 单机部署: https://juejin.im/post/5cdfd597e 阅读全文

posted @ 2019-10-10 16:11 锋锋2019 阅读(108) 评论(0) 推荐(0)

oozie
摘要:参考: 视频: https://edu.51cto.com/course/18362.html 阅读全文

posted @ 2019-08-27 19:17 锋锋2019 阅读(102) 评论(0) 推荐(0)

sqoop部署
该文被密码保护。

posted @ 2019-08-24 22:53 锋锋2019 阅读(9) 评论(0) 推荐(0)

airflow部署
摘要:官网: http://airflow.apache.org/installation.html https://github.com/apache/airflow 原理: https://www.cnblogs.com/cord/p/9450910.html 安装: https://www.cnbl 阅读全文

posted @ 2019-08-21 18:39 锋锋2019 阅读(1559) 评论(0) 推荐(0)

hdfs-yarn大数据常用命令
摘要:一, yarn 7:50-8点这段时间没有任务 8-1.10 collect的作业多 8.30-9点大作业 #查看yarn的环境变量设置: yarn envvarsWARNING: YARN_OPTS has been replaced by HADOOP_OPTS. Using value of 阅读全文

posted @ 2019-08-19 08:49 锋锋2019 阅读(1305) 评论(0) 推荐(0)

清理回收站和恢复数据
摘要:查看文件块数命令:hdfs fsck / -blocks HDFS垃圾回收站, 默认是0,单位是分钟,实验设置为1天即1440. core-site.xml <property> <name>fs.trash.interval</name> <value>1440</value> </propert 阅读全文

posted @ 2019-08-17 10:47 锋锋2019 阅读(423) 评论(0) 推荐(0)

hadoop3.1.2队列
摘要:hapood3.1.2 capacity-scheduler.xml CDH6.2 在配置中输入fair,转成json格式看. yarn资源池配置: CDH--yarn--动态资源池配置 pool_day: pool_night: 抢占: 介于 0 和 1 之间的值。如果该值设置为 x,且资源池的公 阅读全文

posted @ 2019-08-16 19:07 锋锋2019 阅读(298) 评论(0) 推荐(0)

hadoop3.1.2启动和停止
摘要:1/ 启动 启动zookeeper: 三个节点上都zkServer.sh start 启动hdfs和yarn: 101上start-dfs.sh 102上start-yarn.sh 启动hive: 101上hive 再开一个101的窗口 hiveserver2 & beeline -u jdbc:h 阅读全文

posted @ 2019-08-15 10:07 锋锋2019 阅读(457) 评论(0) 推荐(0)

flink部署
摘要:参考: https://ververica.cn/developers-resources/ #flink参数 https://blog.csdn.net/qq_35440040/article/details/84992796 spark使用批处理模拟流计算 flink使用流框架模拟批计算 htt 阅读全文

posted @ 2019-08-14 19:12 锋锋2019 阅读(1447) 评论(0) 推荐(0)

hadoop3.1.2部署(hdfs,yarn)+hive3.1.1
该文被密码保护。

posted @ 2019-08-13 15:47 锋锋2019 阅读(196) 评论(0) 推荐(0)

hadoop原理
摘要:Hadoop是什么: 1) Hadoop 是一个由Apache 基金会所开发的分布式系统基础架构 2)主要解决,海量数据的存储和海量数据的分析计算问题。 3) 广义上来说,HADOOP 通常是指一个更广泛的概念——HADOOP 生态圈 发展历史: 1)Lucene--Doug Cutting 开创的 阅读全文

posted @ 2019-08-13 15:32 锋锋2019 阅读(232) 评论(0) 推荐(0)

简单nginx代理配置
摘要:nginx.conf: # For more information on configuration, see:# * Official English Documentation: http://nginx.org/en/docs/# * Official Russian Documentati 阅读全文

posted @ 2019-08-10 22:27 锋锋2019 阅读(386) 评论(0) 推荐(0)

zk安装管理
摘要:参考: https://www.cnblogs.com/yinzhengjie/p/9209319.html 10.52.110.48 bi-kafka-310.52.48.92 bi-kafka-110.52.60.235 bi-kafka-2 1/ 三个节点都需要安装yum -y install 阅读全文

posted @ 2019-08-10 15:12 锋锋2019 阅读(395) 评论(0) 推荐(0)

supervisor管理superset
摘要:参考: https://blog.51cto.com/qiangsh/2153185 安装supervisor: pip install supervisor 停止supervisor管理的服务: [root@fengfeng1 ~]# cd /data/venv/etc/[root@fengfen 阅读全文

posted @ 2019-08-05 15:32 锋锋2019 阅读(573) 评论(0) 推荐(0)

hue改保存记录条数
摘要:参考: https://blog.csdn.net/liaoxiaoyi121121/article/details/80541901 需求: 开发需要保存查询记录的条数从10万改到100万 /etc/hue/conf/hue.ini搜download_row_limit, 改默认的条数重启服务 如 阅读全文

posted @ 2019-08-05 14:16 锋锋2019 阅读(702) 评论(0) 推荐(0)

导航