Big Data (Suro, Kafka, Hadoop, Spark, ES, Druid) - 随笔分类(第2页) - Jonson Li

【Spark深入学习 -12】Spark程序设计与企业级应用案例02

摘要：本节内容 1.遗留问题答疑 1.1 典型问题解答 1.2 知识点回顾 2.Spark编程基础 2.1 Spark开发四部曲 2.2 RDD典型实例 2.3 非RDD典型实例 3.问题解答 4.参考资料每一次答疑阶段，我都会站在老师的角度去思考一下，如果是我，我应该怎么回答，每每如此，不禁吓出一身冷阅读全文

posted @ 2017-05-07 21:34 Jonson Li 阅读(459) 评论(0) 推荐(0)

【Spark深入学习-11】Spark基本概念和运行模式

摘要：本节内容 1.大数据基础 1.1大数据平台基本框架 1.2学习大数据的基础 1.3学习Spark的Hadoop基础 2.Hadoop生态基本介绍 2.1Hadoop生态组件介绍 2.2Hadoop计算框架介绍 3.Spark概述 3.1 Spark出现的技术背景 3.2 Spark核心概念介绍 4. 阅读全文

posted @ 2017-05-07 21:32 Jonson Li 阅读(619) 评论(0) 推荐(0)

【Spark深入学习 -10】基于spark构建企业级流处理系统

摘要：本节内容 1.流式处理系统背景 1.1 技术背景 1.2 Spark技术很火 2.流式处理技术介绍 2.1流式处理技术概念 2.2流式处理应用场景 2.3流式处理系统分类 3.流式处理技术关键技术 3.1流式处理系统管道构建 3.2流式处理系统关键技术 3.3用户行为分析系统介绍 4.问题答疑 5. 阅读全文

posted @ 2017-05-07 21:29 Jonson Li 阅读(621) 评论(0) 推荐(0)

【Spark 深入学习 -09】Spark生态组件及Master节点HA

摘要：本节内容 1.Spark背景介绍 2.Spark是什么 3.Spark有什么 4.Spark部署 4.1.Spark部署的2方面 4.2.Spark编译 4.3.Spark Standalone部署 4.4.Standalone HA配置 4.5.伪分布式部署 5.Spark任务提交 5.1.Spa 阅读全文

posted @ 2017-05-07 21:28 Jonson Li 阅读(605) 评论(0) 推荐(0)

【Spark 深入学习 07】RDD编程之旅基础篇03-键值对RDD

摘要：本节内容： · 键值对RDD出现背景 · 键值对RDD转化操作实例 · 键值对RDD行动操作实例 · 键值对RDD数据分区 · 参考资料虽然大部分Spark的RDD操作都支持所有种类的对象，但是有少部分特殊的操作只能作用于键值对类型的RDD。这类操作中最常见的就是分布的shuffle操作，比如将元阅读全文

posted @ 2017-05-05 23:20 Jonson Li 阅读(363) 评论(0) 推荐(0)

【spark 深入学习 05】RDD编程之旅基础篇-01

摘要：本节内容 1.RDD的工作流程 2.WordCount解说 · shell版本WordCount · java版本WordCount 一、RDD工作流程 1. RDD是spark特有的数据模型，谈到RDD就会提到什么弹性分布式数据集，什么有向无环图，本文暂时不去展开这些高深概念，在阅读本文时候，大家阅读全文

posted @ 2017-05-05 23:19 Jonson Li 阅读(458) 评论(0) 推荐(0)

【spark 深入学习 06】RDD编程之旅基础篇02-Spaek shell

摘要：本节内容： · Spark转换 RDD操作实例 · Spark行动 RDD操作实例 · 参考资料关于学习编程方式的，每个人都有自己的方式。对我个人来说，最好的方法还是多动手写demo，要多写代码，才能理解的更加深刻，本节以例子的形式讲解各个Spark RDD的使用方法和注意事项，本文一共讲解了20 阅读全文

posted @ 2017-05-05 23:18 Jonson Li 阅读(470) 评论(0) 推荐(0)

【Spark 深入学习 04】再说Spark底层运行机制

摘要：本节内容 · spark底层执行机制 · 细说RDD构建过程 · Job Stage的划分算法 · Task最佳计算位置算法一、spark底层执行机制对于Spark底层的运行原理，找到了一副很好的图，先贴上客户端提交应用后，spark是如何执行的要有一个整体的概念，做到心中有数，先整体把握，才阅读全文

posted @ 2017-05-05 23:12 Jonson Li 阅读(954) 评论(0) 推荐(0)

【spark 深入学习 03】Spark RDD的蛮荒世界

摘要：RDD真的是一个很晦涩的词汇，他就是伯克利大学的博士们在论文中提出的一个概念，很抽象，很难懂；但是这是spark的核心概念，因此有必要spark rdd的知识点，用最简单、浅显易懂的词汇描述。不想用学术话的语言来阐述RDD是什么，用简单、容易理解的方式来描述。一、什么是RDD，RDD出现的背景 M 阅读全文

posted @ 2017-05-05 23:11 Jonson Li 阅读(349) 评论(0) 推荐(0)

【Spark 深入学习 02】- 我是一个凶残的spark

摘要：学一门新鲜的技术，其实过程都是相似的，先学基本的原理和概念，再学怎么使用，最后深究这技术是怎么实现的，所以本章节就带你认识认识spark长什么样的，帅不帅，时髦不时髦（这货的基本概念和原理），接着了解spark有什么必杀技（spark的各种大招），我们如何使用它的必杀技，最后看看spark如何更加高阅读全文

posted @ 2017-05-05 23:09 Jonson Li 阅读(321) 评论(0) 推荐(0)

【Spark 深入学习 01】 Spark是什么鬼？

摘要：经过一段时间的学习和测试，是时候给spark的学习经历做一个总结了，对于spark的了解相对晚了写。春节期间（预计是无大事)，本博准备推出20篇左右spark系列原创文章（先把牛吹出去再说），尽量将枯燥无味的技术讲的通俗易懂- r.kelly 2013年的时候第一次听说spark这么个神器，那时候阅读全文

posted @ 2017-05-05 22:54 Jonson Li 阅读(573) 评论(0) 推荐(0)

【Big Data - ELK】ELK(ElasticSearch, Logstash, Kibana)搭建实时日志分析平台

摘要：摘要: 前段时间研究的Log4j+Kafka中，有人建议把Kafka收集到的日志存放于ES（ElasticSearch，一款基于Apache Lucene的开源分布式搜索引擎）中便于查找和分析，在研究此方案可行性的时候，我发现ELK（ElasticSearch, Logstash, Kibana）平阅读全文

posted @ 2017-04-10 14:06 Jonson Li 阅读(550) 评论(0) 推荐(0)

【Big Data - Hadoop - MapReduce】通过腾讯shuffle部署对shuffle过程进行详解

摘要：摘要: 通过腾讯shuffle部署对shuffle过程进行详解摘要：腾讯分布式数据仓库基于开源软件Hadoop和Hive进行构建,TDW计算引擎包括两部分：MapReduce和Spark，两者内部都包含了一个重要的过程—Shuffle。本文对Shuffle过程进行解析，并对两个计算引擎的Shuff 阅读全文

posted @ 2017-04-09 23:15 Jonson Li 阅读(627) 评论(0) 推荐(1)

【Big Data - Hadoop - MapReduce】hadoop 学习笔记：MapReduce框架详解

摘要：开始聊MapReduce，MapReduce是Hadoop的计算框架，我学Hadoop是从Hive开始入手，再到hdfs，当我学习hdfs时候，就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关，我开始学习某一套技术总是想着这套技术到底能干什么，只有当我真正理解了这套技阅读全文

posted @ 2017-04-09 23:03 Jonson Li 阅读(286) 评论(0) 推荐(0)

【Big Data - Hadoop - MapReduce】初学Hadoop之图解MapReduce与WordCount示例分析

摘要：Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，MapReduce则为海量的数据提供了计算。 HDFS是Google File System（GFS）的开源实现。 MapReduce是Google MapReduce的开源实现。 HDFS和MapRe 阅读全文

posted @ 2017-04-09 22:22 Jonson Li 阅读(409) 评论(0) 推荐(0)

[BigData - Hadoop - YARN] YARN：下一代 Hadoop 计算平台

摘要：Apache Hadoop 是最流行的大数据处理工具之一。它多年来被许多公司成功部署在生产中。尽管 Hadoop 被视为可靠的、可扩展的、富有成本效益的解决方案，但大型开发人员社区仍在不断改进它。最终，2.0 版提供了多项革命性功能，其中包括 Yet Another Resource Negotia 阅读全文

posted @ 2017-04-09 19:12 Jonson Li 阅读(354) 评论(0) 推荐(0)

倾情大奉送--Spark入门实战系列

摘要：这一两年Spark技术很火，自己也凑热闹，反复的试验、研究，有痛苦万分也有欣喜若狂，抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍，从Spark的简介、编译、部署，再到编程模型、运行架构，最后介绍其组件SparkSQL、Spark Streaming、Spark MLi 阅读全文

posted @ 2017-03-27 22:07 Jonson Li 阅读(236) 评论(0) 推荐(0)

[Big Data - ZooKeeper] ZooKeeper: A Distributed Coordination Service for Distributed Applications

摘要：ZooKeeper ZooKeeper: A Distributed Coordination Service for Distributed Applications Design Goals Data model and the hierarchical namespace Nodes and 阅读全文

posted @ 2017-02-26 09:11 Jonson Li 阅读(275) 评论(0) 推荐(0)

[Big Data - Kafka] kafka学习笔记：知识点整理

摘要：一、为什么需要消息系统 1.解耦：允许你独立的扩展或修改两边的处理过程，只要确保它们遵守同样的接口约束。 2.冗余：消息队列把数据进行持久化直到它们已经被完全处理，通过这一方式规避了数据丢失风险。许多消息队列所采用的"插入-获取-删除"范式中，在把一个消息从队列中删除之前，需要你的处理系统明确的阅读全文

posted @ 2017-02-26 09:01 Jonson Li 阅读(218) 评论(0) 推荐(0)

[Big Data - Kafka] Kafka设计解析（五）：Kafka Benchmark

摘要：性能测试及集群监控工具 Kafka提供了非常多有用的工具，如Kafka设计解析（三）- Kafka High Availability （下）中提到的运维类工具——Partition Reassign Tool，Preferred Replica Leader Election Tool，Repli 阅读全文

posted @ 2017-02-26 08:58 Jonson Li 阅读(249) 评论(0) 推荐(0)

大数据与人工智能探索

“云”，“大数据”，“人工智能”正在改变着我们的生活，让我们一起来迎接新的变革与挑战吧。

随笔分类 - Big Data (Suro, Kafka, Hadoop, Spark, ES, Druid)

公告