BigData - 随笔分类(第2页) - AI数据

Flume速览

摘要：Flume是一个分布式的、可靠的、高可用的海量日志采集、聚合和传输的系统。Java实现，插件丰富，模块分明。数据流模型：Source-Channel-Sink 事务机制保证了消息传递的可靠性一、基本组件 Event：消息的基本单位，有header和body组成。header是键值对的形式，bod 阅读全文

posted @ 2019-09-21 19:31 AI数据阅读(546) 评论(0) 推荐(0)

Kafka速览

摘要：一、基本结构三台机器组成的Kafka集群，每台机器启动一个Kafka进程，即Broker 向broker发送消息的客户端是Producer，拉取消息的客户端是Consumer Producer和Consumer都是用户实现的 broker只负责数据存储，不保存任何Producer和Consumer 阅读全文

posted @ 2019-09-21 14:56 AI数据阅读(363) 评论(0) 推荐(0)

分布式消息中间件(二)ActiveMQ

摘要：一、概述 Apache出品，最流行的，能力强劲的开源消息总线。 1.JMS规范 Java消息服务（Java Message Service，即JMS）应用程序接口是一个Java平台中关于面向消息中间件（MOM）的API，用于应用程序之间，或分布式系统中发送消息，进行异步通信。Java消息服务是一个与阅读全文

posted @ 2019-09-21 12:44 AI数据阅读(722) 评论(0) 推荐(0)

分布式消息中间件(一)设计

摘要：中间件 1.概述应用场景单体架构如果一个模块升级，比如订单系统，整个系统都要升级耦合度高，开发困难分布式架构后台由多个系统组成多系统协同处理一个请求可以看成分布式系统系统之间相互调用，用RPC远程调用的方式实现但这样系统之间耦合度相对较高为了解决耦合，实现更强的扩展性架构，分布式阅读全文

posted @ 2019-09-20 13:22 AI数据阅读(1268) 评论(0) 推荐(0)

大数据算法(一)亚线性算法

摘要：来源：大数据算法王宏志一、概述大数据定义：在给定的资源约束下，以大数据为输入，在给定时间约束内可以生成满足给定约束结果的算法。大数据特点：4V 大数据算法可以不是：精确算法内存算法串行算法仅在电子计算机上运行的算法大数据算法不仅是：云计算 MapReduce 大数据分析和挖掘的算阅读全文

posted @ 2019-09-20 11:15 AI数据阅读(3078) 评论(0) 推荐(0)

SparkSQL

摘要：一、概述组件运行机制转 SparkSQL – 从0到1认识Catalyst https://blog.csdn.net/qq_36421826/article/details/81988157 深入研究Spark SQL的Catalyst优化器（原创翻译）更高效查询优化优化：把filte 阅读全文

posted @ 2019-09-19 18:47 AI数据阅读(257) 评论(0) 推荐(0)

Spark程序设计

摘要：一、Spark编程模型 Spark常规步骤：创建RDD-Scala集合/本地文件并行度3，创建3个partition HDFS 文件被切分成block分布在多个节点上，通过textFile读入机器内存，转为RDD的partition对象。action触发之后，才真物理上去执行。总结外部的数据阅读全文

posted @ 2019-09-18 17:47 AI数据阅读(920) 评论(0) 推荐(0)

【转载】大数据面试知识图谱

摘要：来源：大数据技术与架构公众号作者：机智的王知先来源：大数据技术与架构公众号作者：机智的王知先场景描述：大数据开发岗位技能树，学习和复习总纲。关键词：面试大数据大纲正所谓，无招胜有招。愿读到这篇文章的技术人早日明白并且脱离技术本身，早登彼岸。一切技术最终只是雕虫小技。大纲本阅读全文

posted @ 2019-09-14 10:06 AI数据阅读(748) 评论(0) 推荐(0)

Scala（一）基础

摘要：OOP 面向对象编程 AOP 面向切面编程 FP 函数式编程编程语言都要定义变量，一些代码是用来注释的，变量和变量之间有一些关系，要做一些运算，运算离不开流程控制，进行运算的数据往往来自数据结构，最基本的是数组。所有编程语言的需要：变量注释运算符流程控制数组编码规范：命名、换行、缩进阅读全文

posted @ 2019-09-09 21:33 AI数据阅读(475) 评论(0) 推荐(0)

调试Spark应用

摘要：本文摘自：《Hadoop专家-管理、调优与Spark|YARN|HDFS安全》Sam R. Alapati 一、通过日志聚合访问日志二、当日志聚合未开启时阅读全文

posted @ 2019-09-03 18:13 AI数据阅读(191) 评论(0) 推荐(0)

Spark开发环境搭建和作业提交

摘要：Spark高可用集群搭建在所有节点上下载或上传spark文件，解压缩安装，建立软连接配置所有节点spark安装目录下的spark-evn.sh文件配置slaves 配置spark-default.conf 配置所有节点的环境变量 spark-evn.sh 加入 -Dspark.deploy.r 阅读全文

posted @ 2019-09-03 18:10 AI数据阅读(1217) 评论(0) 推荐(0)

Spark核心原理初探

摘要：一、运行架构概览 Spark架构是主从模型，分为两层，一层管理集群资源，另一层管理具体的作业，两层是解耦的。第一层可以使用yarn等实现。 Master是管理者进程，Worker是被管理者进程，每个Worker节点启动一个Worker进程，了解每台机器的资源有多少，并将这些信息汇报各Master进程阅读全文

posted @ 2019-09-02 16:00 AI数据阅读(1367) 评论(0) 推荐(0)

AI数据

随笔分类 - BigData