南开小巷

导航

随笔分类 -  大数据

spark wordcount 编程模型详解
摘要:spark wordcount中一共经历多少个RDD?以及RDD提供的toDebugString 在控制台输入spark-shell 系统会默认创建一个SparkContext sc https://blog.csdn.net/zhongqi2513/article/details/81513587 阅读全文

posted @ 2019-04-16 11:02 南开小巷 阅读(141) 评论(0) 推荐(0)

Spark编程模型
摘要:https://ymgd.github.io/codereader/2016/10/21/Spark%E7%BC%96%E7%A8%8B%E6%A8%A1%E5%9E%8B/ 阅读全文

posted @ 2019-04-15 19:11 南开小巷 阅读(143) 评论(0) 推荐(0)

RPC知识
摘要:说明:RPC框架的目标就是让远程服务调用更加简单、透明,RPC框架负责屏蔽底层的传输方式(TCP或UDP)、序列化(XML/json/二进制)和通信细节。服务调用者可以像调用本地接口一样调用远程的服务提供者,而不需要关心底层通信细节和调用过程 业界主流的RPC框架: 支持多语言的gRPC ,Apac 阅读全文

posted @ 2019-03-30 22:27 南开小巷 阅读(110) 评论(0) 推荐(0)

大数据中台组件学习笔记
摘要:1.Oozie是任务调度管理系统: 当然简单的可以用crontab表达式结合shell脚本作为任务调度管理系统 2.关系型数据库导入数据到大数据平台用sqoop和Canal , Sqoop适合关系数据库数据的批量导入,如果想实时导入关系数据库的数据,可以选择Canal。 Canal是阿里巴巴开源的一 阅读全文

posted @ 2019-03-29 22:22 南开小巷 阅读(518) 评论(0) 推荐(0)

数据仓储学习
摘要:1.ETL的讲解:https://www.cnblogs.com/yjd_hycf_space/p/7772722.html 2.数据仓库DW的架构设计:https://blog.csdn.net/Trigl/article/details/68944434 3.Apache Kylin的学习(包括 阅读全文

posted @ 2019-03-19 19:59 南开小巷 阅读(125) 评论(0) 推荐(0)

MapReduce实例学习
摘要:https://blog.csdn.net/m0_37739193/article/details/77676859 阅读全文

posted @ 2019-03-03 10:44 南开小巷 阅读(98) 评论(0) 推荐(0)

storm学习总结
摘要:1.storm shell端常用指令: 提交Topologies命令格式:storm jar 【jar路径】 【拓扑包名.拓扑类名】 【拓扑名称】样例:storm jar /storm-starter.jar storm.starter.WordCountTopology wordcountTop 阅读全文

posted @ 2019-03-01 10:04 南开小巷 阅读(264) 评论(0) 推荐(0)

kafka中zookeeper的操作
摘要:bin/zookeeper-shell.sh localhost:2181 <<< "get /brokers/ids/4" ./zkCli.sh -server localhost:2181 Kafka史上最详细原理总结 详细参考: https://www.jianshu.com/p/7008d2 阅读全文

posted @ 2019-01-21 21:16 南开小巷 阅读(173) 评论(0) 推荐(0)

Hbase的常见shell操作
摘要:1.带namespace的:https://blog.csdn.net/opensure/article/details/46470969 2.http://www.cnblogs.com/xing901022/p/7113166.html 阅读全文

posted @ 2019-01-21 20:58 南开小巷 阅读(137) 评论(0) 推荐(0)

Mapreduce操作HBase
摘要:这个操作和普通的Mapreduce还不太一样,比如普通的Mapreduce输入可以是txt文件等,Mapreduce可以直接读取Hive中的表的数据(能够看见是以类似txt文件形式),但Mapreduce操作Hbase却和前二者不一样 它有专门的Mapper 这个叫TableMapper,这个Map 阅读全文

posted @ 2019-01-21 20:54 南开小巷 阅读(252) 评论(0) 推荐(0)

hadoop2.4.0伪分布式搭建以及分布式关机重启后datanode没起来的解决办法
摘要:1.准备Linux环境 1.0点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.8.0 子网掩码:255.255.255.0 -> apply -> ok 回到window 阅读全文

posted @ 2018-12-24 14:35 南开小巷 阅读(422) 评论(0) 推荐(0)