随笔分类 -  BigData

大数据相关知识
Flume速览
摘要:Flume是一个分布式的、可靠的、高可用的海量日志采集、聚合和传输的系统。Java实现,插件丰富,模块分明。 数据流模型:Source-Channel-Sink 事务机制保证了消息传递的可靠性 一、基本组件 Event:消息的基本单位,有header和body组成。header是键值对的形式,bod 阅读全文

posted @ 2019-09-21 19:31 AI数据 阅读(546) 评论(0) 推荐(0)

Kafka速览
摘要:一、基本结构 三台机器组成的Kafka集群,每台机器启动一个Kafka进程,即Broker 向broker发送消息的客户端是Producer,拉取消息的客户端是Consumer Producer和Consumer都是用户实现的 broker只负责数据存储,不保存任何Producer和Consumer 阅读全文

posted @ 2019-09-21 14:56 AI数据 阅读(363) 评论(0) 推荐(0)

分布式消息中间件(二)ActiveMQ
摘要:一、概述 Apache出品,最流行的,能力强劲的开源消息总线。 1.JMS规范 Java消息服务(Java Message Service,即JMS)应用程序接口是一个Java平台中关于面向消息中间件(MOM)的API,用于应用程序之间,或分布式系统中发送消息,进行异步通信。Java消息服务是一个与 阅读全文

posted @ 2019-09-21 12:44 AI数据 阅读(722) 评论(0) 推荐(0)

分布式消息中间件(一)设计
摘要:中间件 1.概述 应用场景 单体架构 如果一个模块升级,比如订单系统,整个系统都要升级 耦合度高,开发困难 分布式架构 后台由多个系统组成 多系统协同处理一个请求可以看成分布式系统 系统之间相互调用,用RPC远程调用的方式实现 但这样系统之间耦合度相对较高 为了解决耦合,实现更强的扩展性架构,分布式 阅读全文

posted @ 2019-09-20 13:22 AI数据 阅读(1268) 评论(0) 推荐(0)

大数据算法(一)亚线性算法
摘要:来源:大数据算法 王宏志 一、概述 大数据定义:在给定的资源约束下,以大数据为输入,在给定时间约束内可以生成满足给定约束结果的算法。 大数据特点:4V 大数据算法可以不是: 精确算法 内存算法 串行算法 仅在电子计算机上运行的算法 大数据算法不仅是: 云计算 MapReduce 大数据分析和挖掘的算 阅读全文

posted @ 2019-09-20 11:15 AI数据 阅读(3078) 评论(0) 推荐(0)

SparkSQL
摘要:一、概述 组件 运行机制 转 SparkSQL – 从0到1认识Catalyst https://blog.csdn.net/qq_36421826/article/details/81988157 深入研究Spark SQL的Catalyst优化器(原创翻译) 更高效 查询优化 优化:把filte 阅读全文

posted @ 2019-09-19 18:47 AI数据 阅读(257) 评论(0) 推荐(0)

Spark程序设计
摘要:一、Spark编程模型 Spark常规步骤: 创建RDD-Scala集合/本地文件 并行度3,创建3个partition HDFS 文件被切分成block分布在多个节点上,通过textFile读入机器内存,转为RDD的partition对象。action触发之后,才真物理上去执行。 总结 外部的数据 阅读全文

posted @ 2019-09-18 17:47 AI数据 阅读(920) 评论(0) 推荐(0)

【转载】大数据面试知识图谱
摘要:来源:大数据技术与架构 公众号 作者:机智的王知先 来源:大数据技术与架构 公众号 作者:机智的王知先 场景描述:大数据开发岗位技能树,学习和复习总纲。 关键词:面试 大数据 大纲 正所谓,无招胜有招。 愿读到这篇文章的技术人早日明白并且脱离技术本身,早登彼岸。 一切技术最终只是雕虫小技。 大纲 本 阅读全文

posted @ 2019-09-14 10:06 AI数据 阅读(748) 评论(0) 推荐(0)

Scala(一)基础
摘要:OOP 面向对象编程 AOP 面向切面编程 FP 函数式编程 编程语言都要定义变量,一些代码是用来注释的,变量和变量之间有一些关系,要做一些运算,运算离不开流程控制,进行运算的数据往往来自数据结构,最基本的是数组。 所有编程语言的需要: 变量 注释 运算符 流程控制 数组 编码规范:命名、换行、缩进 阅读全文

posted @ 2019-09-09 21:33 AI数据 阅读(475) 评论(0) 推荐(0)

调试Spark应用
摘要:本文摘自:《Hadoop专家-管理、调优与Spark|YARN|HDFS安全》Sam R. Alapati 一、通过日志聚合访问日志 二、当日志聚合未开启时 阅读全文

posted @ 2019-09-03 18:13 AI数据 阅读(191) 评论(0) 推荐(0)

Spark开发环境搭建和作业提交
摘要:Spark高可用集群搭建 在所有节点上下载或上传spark文件,解压缩安装,建立软连接 配置所有节点spark安装目录下的spark-evn.sh文件 配置slaves 配置spark-default.conf 配置所有节点的环境变量 spark-evn.sh 加入 -Dspark.deploy.r 阅读全文

posted @ 2019-09-03 18:10 AI数据 阅读(1217) 评论(0) 推荐(0)

Spark核心原理初探
摘要:一、运行架构概览 Spark架构是主从模型,分为两层,一层管理集群资源,另一层管理具体的作业,两层是解耦的。第一层可以使用yarn等实现。 Master是管理者进程,Worker是被管理者进程,每个Worker节点启动一个Worker进程,了解每台机器的资源有多少,并将这些信息汇报各Master进程 阅读全文

posted @ 2019-09-02 16:00 AI数据 阅读(1367) 评论(0) 推荐(0)

导航