上一页 1 2 3 4 5 6 ··· 19 下一页
摘要: 本节内容 1.流式处理系统背景 1.1 技术背景 1.2 Spark技术很火 2.流式处理技术介绍 2.1流式处理技术概念 2.2流式处理应用场景 2.3流式处理系统分类 3.流式处理技术关键技术 3.1流式处理系统管道构建 3.2流式处理系统关键技术 3.3用户行为分析系统介绍 4.问题答疑 5. 阅读全文
posted @ 2017-05-07 21:29 Jonson Li 阅读(585) 评论(0) 推荐(0) 编辑
摘要: 本节内容 1.Spark背景介绍 2.Spark是什么 3.Spark有什么 4.Spark部署 4.1.Spark部署的2方面 4.2.Spark编译 4.3.Spark Standalone部署 4.4.Standalone HA配置 4.5.伪分布式部署 5.Spark任务提交 5.1.Spa 阅读全文
posted @ 2017-05-07 21:28 Jonson Li 阅读(555) 评论(0) 推荐(0) 编辑
摘要: 本节内容 · Spark为什么要分区 · Spark分区原则及方法 · Spark分区案例 · 参考资料 一、Spark为什么要分区 分区概念:分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式决定了并行计算的粒度,而每个分区的数值计算都是 阅读全文
posted @ 2017-05-07 21:27 Jonson Li 阅读(6090) 评论(0) 推荐(0) 编辑
摘要: 本节内容: · 键值对RDD出现背景 · 键值对RDD转化操作实例 · 键值对RDD行动操作实例 · 键值对RDD数据分区 · 参考资料 虽然大部分Spark的RDD操作都支持所有种类的对象,但是有少部分特殊的操作只能作用于键值对类型的RDD。这类操作中最常见的就是分布的shuffle操作,比如将元 阅读全文
posted @ 2017-05-05 23:20 Jonson Li 阅读(324) 评论(0) 推荐(0) 编辑
摘要: 本节内容 1.RDD的工作流程 2.WordCount解说 · shell版本WordCount · java版本WordCount 一、RDD工作流程 1. RDD是spark特有的数据模型,谈到RDD就会提到什么弹性分布式数据集,什么有向无环图,本文暂时不去展开这些高深概念,在阅读本文时候,大家 阅读全文
posted @ 2017-05-05 23:19 Jonson Li 阅读(437) 评论(0) 推荐(0) 编辑
摘要: 本节内容: · Spark转换 RDD操作实例 · Spark行动 RDD操作实例 · 参考资料 关于学习编程方式的,每个人都有自己的方式。对我个人来说,最好的方法还是多动手写demo,要多写代码,才能理解的更加深刻,本节以例子的形式讲解各个Spark RDD的使用方法和注意事项,本文一共讲解了20 阅读全文
posted @ 2017-05-05 23:18 Jonson Li 阅读(453) 评论(0) 推荐(0) 编辑
摘要: 本节内容 · spark底层执行机制 · 细说RDD构建过程 · Job Stage的划分算法 · Task最佳计算位置算法 一、spark底层执行机制 对于Spark底层的运行原理,找到了一副很好的图,先贴上 客户端提交应用后,spark是如何执行的要有一个整体的概念,做到心中有数,先整体把握,才 阅读全文
posted @ 2017-05-05 23:12 Jonson Li 阅读(876) 评论(0) 推荐(0) 编辑
摘要: RDD真的是一个很晦涩的词汇,他就是伯克利大学的博士们在论文中提出的一个概念,很抽象,很难懂;但是这是spark的核心概念,因此有必要spark rdd的知识点,用最简单、浅显易懂的词汇描述。不想用学术话的语言来阐述RDD是什么,用简单、容易理解的方式来描述。 一、什么是RDD,RDD出现的背景 M 阅读全文
posted @ 2017-05-05 23:11 Jonson Li 阅读(330) 评论(0) 推荐(0) 编辑
摘要: 学一门新鲜的技术,其实过程都是相似的,先学基本的原理和概念,再学怎么使用,最后深究这技术是怎么实现的,所以本章节就带你认识认识spark长什么样的,帅不帅,时髦不时髦(这货的基本概念和原理),接着了解spark有什么必杀技(spark的各种大招),我们如何使用它的必杀技,最后看看spark如何更加高 阅读全文
posted @ 2017-05-05 23:09 Jonson Li 阅读(313) 评论(0) 推荐(0) 编辑
摘要: 经过一段时间的学习和测试,是时候给spark的学习经历做一个总结了,对于spark的了解相对晚了写。春节期间(预计是无大事),本博准备推出20篇左右spark系列原创文章(先把牛吹出去再说) ,尽量将枯燥无味的技术讲的通俗易懂- r.kelly 2013年的时候第一次听说spark这么个神器,那时候 阅读全文
posted @ 2017-05-05 22:54 Jonson Li 阅读(511) 评论(0) 推荐(0) 编辑
摘要: 摘要: 前段时间研究的Log4j+Kafka中,有人建议把Kafka收集到的日志存放于ES(ElasticSearch,一款基于Apache Lucene的开源分布式搜索引擎)中便于查找和分析,在研究此方案可行性的时候,我发现ELK(ElasticSearch, Logstash, Kibana)平 阅读全文
posted @ 2017-04-10 14:06 Jonson Li 阅读(525) 评论(0) 推荐(0) 编辑
摘要: 作者:郭无心链接:https://www.zhihu.com/question/24322387/answer/78947405来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 Netty是什么? 1)本质:JBoss做的一个Jar包 2)目的:快速开发高性能、高可靠性 阅读全文
posted @ 2017-04-10 07:50 Jonson Li 阅读(645) 评论(0) 推荐(0) 编辑
摘要: Jetty 应该是目前最活跃也是很有前景的一个 Servlet 引擎。本文将介绍 Jetty 基本架构与基本的工作原理:您将了解到 Jetty 的基本体系结构;Jetty 的启动过程;Jetty 如何接受和处理用户的请求。你还将了解到 AJP 的一些细节:Jetty 如何基于 AJP 工作;以及 J 阅读全文
posted @ 2017-04-10 07:20 Jonson Li 阅读(340) 评论(0) 推荐(0) 编辑
摘要: 这个分为两个部分的系列文章研究了 Apache Tomcat 服务器的系统架构以及其运用的很多经典设计模式。第 1 部分 分析了 Tomcat 的工作原理,第 2 部分将分析 Tomcat 中运用的许多经典设计模式,如模版模式、工厂模式和单例模式等。通过学习它们的实践运用能给我们以后的软件设计起到一 阅读全文
posted @ 2017-04-10 07:19 Jonson Li 阅读(241) 评论(0) 推荐(0) 编辑
摘要: 这个分为两个部分的系列文章将研究 Apache Tomcat 的系统架构以及其运用的很多经典设计模式。本文是第 1 部分,将主要从 Tomcat 如何分发请求、如何处理多用户同时请求,还有它的多级容器是如何协调工作的角度来分析 Tomcat 的工作原理,这也是一个 Web 服务器首要解决的关键问题。 阅读全文
posted @ 2017-04-10 07:18 Jonson Li 阅读(316) 评论(0) 推荐(0) 编辑
摘要: Web 技术成为当今主流的互联网 Web 应用技术之一,而 Servlet 是 Java Web 技术的核心基础。因而掌握 Servlet 的工作原理是成为一名合格的 Java Web 技术开发人员的基本要求。本文将带你认识 Java Web 技术是如何基于 Servlet 工作,你将知道:以 To 阅读全文
posted @ 2017-04-10 07:17 Jonson Li 阅读(5492) 评论(0) 推荐(1) 编辑
摘要: Apache Tomcat 应用服务器不再是高级 Web 系统开发人员的专用领域。在本教程中,Sing Li 将向初级 Web 开发人员展示如何利用他们当前的 Java™ 开发技能,使用 Tomcat 编写服务器端 JSP、servlet 和 Web 服务。 开始之前 关于本教程 本教程向 Java 阅读全文
posted @ 2017-04-10 07:15 Jonson Li 阅读(260) 评论(0) 推荐(0) 编辑
摘要: 摘要: 通过腾讯shuffle部署对shuffle过程进行详解 摘要:腾讯分布式数据仓库基于开源软件Hadoop和Hive进行构建,TDW计算引擎包括两部分:MapReduce和Spark,两者内部都包含了一个重要的过程—Shuffle。本文对Shuffle过程进行解析,并对两个计算引擎的Shuff 阅读全文
posted @ 2017-04-09 23:15 Jonson Li 阅读(593) 评论(0) 推荐(1) 编辑
摘要: 开始聊MapReduce,MapReduce是Hadoop的计算框架,我学Hadoop是从Hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研究的思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只有当我真正理解了这套技 阅读全文
posted @ 2017-04-09 23:03 Jonson Li 阅读(266) 评论(0) 推荐(0) 编辑
摘要: Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算。 HDFS是Google File System(GFS)的开源实现。 MapReduce是Google MapReduce的开源实现。 HDFS和MapRe 阅读全文
posted @ 2017-04-09 22:22 Jonson Li 阅读(396) 评论(0) 推荐(0) 编辑
摘要: Apache Hadoop 是最流行的大数据处理工具之一。它多年来被许多公司成功部署在生产中。尽管 Hadoop 被视为可靠的、可扩展的、富有成本效益的解决方案,但大型开发人员社区仍在不断改进它。最终,2.0 版提供了多项革命性功能,其中包括 Yet Another Resource Negotia 阅读全文
posted @ 2017-04-09 19:12 Jonson Li 阅读(323) 评论(0) 推荐(0) 编辑
摘要: 这一两年Spark技术很火,自己也凑热闹,反复的试验、研究,有痛苦万分也有欣喜若狂,抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍,从Spark的简介、编译、部署,再到编程模型、运行架构,最后介绍其组件SparkSQL、Spark Streaming、Spark MLi 阅读全文
posted @ 2017-03-27 22:07 Jonson Li 阅读(231) 评论(0) 推荐(0) 编辑
摘要: 利用 Java 代码,即 java.lang.instrument 做动态 Instrumentation 是 Java SE 5 的新特性,它把 Java 的 instrument 功能从本地代码中解放出来,使之可以用 Java 代码的方式解决问题。使用 Instrumentation,开发者可以 阅读全文
posted @ 2017-03-18 23:04 Jonson Li 阅读(8181) 评论(1) 推荐(2) 编辑
摘要: 一、什么是JVM JVM是Java Virtual Machine(Java虚拟机)的缩写,JVM是一种用于计算设备的规范,它是一个虚构出来的计算机,是通过在实际的计算机上仿真模拟各种计算机功能来实现的。 Java语言的一个非常重要的特点就是与平台的无关性。而使用Java虚拟机是实现这一特点的关键。 阅读全文
posted @ 2017-03-18 21:26 Jonson Li 阅读(267) 评论(0) 推荐(0) 编辑
摘要: ZooKeeper ZooKeeper: A Distributed Coordination Service for Distributed Applications Design Goals Data model and the hierarchical namespace Nodes and 阅读全文
posted @ 2017-02-26 09:11 Jonson Li 阅读(256) 评论(0) 推荐(0) 编辑
摘要: 一、为什么需要消息系统 1.解耦: 允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。 2.冗余: 消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险。许多消息队列所采用的"插入-获取-删除"范式中,在把一个消息从队列中删除之前,需要你的处理系统明确的 阅读全文
posted @ 2017-02-26 09:01 Jonson Li 阅读(207) 评论(0) 推荐(0) 编辑
摘要: 性能测试及集群监控工具 Kafka提供了非常多有用的工具,如Kafka设计解析(三)- Kafka High Availability (下)中提到的运维类工具——Partition Reassign Tool,Preferred Replica Leader Election Tool,Repli 阅读全文
posted @ 2017-02-26 08:58 Jonson Li 阅读(231) 评论(0) 推荐(0) 编辑
摘要: High Level Consumer 很多时候,客户程序只是希望从Kafka读取数据,不太关心消息offset的处理。同时也希望提供一些语义,例如同一条消息只被某一个Consumer消费(单播)或被所有Consumer消费(广播)。因此,Kafka High Level Consumer提供了一个 阅读全文
posted @ 2017-02-26 08:57 Jonson Li 阅读(208) 评论(0) 推荐(0) 编辑
摘要: Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。InfoQ一直在紧密关注Kafka的应用以及发展,“Kafka剖析”专栏 阅读全文
posted @ 2017-02-26 08:54 Jonson Li 阅读(171) 评论(0) 推荐(0) 编辑
摘要: Kafka在0.8以前的版本中,并不提供High Availablity机制,一旦一个或多个Broker宕机,则宕机期间其上所有Partition都无法继续提供服务。若该Broker永远不能再恢复,亦或磁盘故障,则其上数据将丢失。而Kafka的设计目标之一即是提供数据持久化,同时对于分布式系统来说, 阅读全文
posted @ 2017-02-26 08:53 Jonson Li 阅读(194) 评论(0) 推荐(0) 编辑
摘要: Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。InfoQ一直在紧密关注Kafka的应用以及发展,“Kafka剖析”专栏 阅读全文
posted @ 2017-02-26 08:41 Jonson Li 阅读(310) 评论(0) 推荐(0) 编辑
摘要: 一、简介 Codis是一个分布式的Redis解决方案,对于上层的应用来说,连接Codis Proxy和连接原生的Redis Server没有明显的区别(不支持的命令列表),上层应用可以像使用单机的Redis一样使用,Codis底层会处理请求的转发,不停机的数据迁移等工作,所有后边的一切事情,对于前面 阅读全文
posted @ 2017-02-26 08:38 Jonson Li 阅读(399) 评论(0) 推荐(0) 编辑
摘要: ELK平台介绍 在搜索ELK资料的时候,发现这篇文章比较好,于是摘抄一小段: 以下内容来自: http://baidu.blog.51cto.com/71938/1676798 日志主要包括系统日志、应用程序日志和安全日志。系统运维和开发人员可以通过日志了解服务器软硬件信息、检查配置过程中的错误及错 阅读全文
posted @ 2017-02-26 08:27 Jonson Li 阅读(307) 评论(0) 推荐(0) 编辑
摘要: 随着DT时代的来临,数据对于企业经营决策的价值日益凸显,而企业在进行互联网+转型的过程中,如何让数据架构平滑迁移到大数据平台,对于传统业务的转型升级至关重要。企业IT部门该如何进行PB级别大数据平台的迁移规划呢,请看云智慧运维总监张克琛带来的经验分享。 提到PB级别的大数据解决方案市面上有很多,比较 阅读全文
posted @ 2017-02-26 08:25 Jonson Li 阅读(378) 评论(0) 推荐(0) 编辑
摘要: Netflix近日开源了一个叫做Suro的工具,公司可以利用它来做数据源主机到目标主机的实时定向。它不只在Netflix的数据管道上扮演重要角色,大规模下的应用场景同样令人印象深刻。 Netflix各种应用程序每天生成数百亿的事件,Suro可以在数据被发送之前收集到它们,然后部分经过Amazon S 阅读全文
posted @ 2017-02-26 08:15 Jonson Li 阅读(530) 评论(0) 推荐(0) 编辑
摘要: 在讲了APM的历史、作用和实际案例之后,下面我们来了解一下APM技术分类和实现方式以及它未来的发展趋势。在这之前,我们首先需要了解一下典型的互联网或移动互联网应用的整个应用交付链。 阅读全文
posted @ 2017-02-25 22:47 Jonson Li 阅读(9996) 评论(0) 推荐(1) 编辑
摘要: 前言 2016年是APM技术和市场快速发展的一年,在这一年里APM市场特别是国内的市场取得了极大的增长,用户对APM价值的认识和接受度也有了很大的提升,国内市场已基本完成了用户教育和市场培养的阶段。与此同时,APM技术在2016年也有了长足的进步,同时也面临了新的需求,可谓增长与挑战并存。以下我们从 阅读全文
posted @ 2017-02-25 22:42 Jonson Li 阅读(1220) 评论(0) 推荐(0) 编辑
摘要: 今天我们来聊聊APM技术,首先APM是应用性能监控(Application Performance Monitoring)或应用性能管理(Application Performance Management)的缩写。所谓应用性能管理,就是指使用特定的工具和过程对软件应用的性能和可用性进行监控和管理,致力于发现、诊断并定位复杂应用的性能瓶颈和故障,以保证应用达到预期的服务水平和用户体验。 阅读全文
posted @ 2017-02-25 22:36 Jonson Li 阅读(2054) 评论(0) 推荐(0) 编辑
摘要: 作为 Zabbix 骨灰级粉丝,一直以来对第三方监控(APM)都是拒绝的。一来觉得收费,二来担心数据被人所知,三来觉得 Zabbix 牛逼到无可取代。但是,随着 APM 市场的火爆,我决定「放下身段」试用一次,并且会总结出它与开源监控之间差别在哪里。 阅读全文
posted @ 2017-02-25 21:27 Jonson Li 阅读(2178) 评论(0) 推荐(0) 编辑
摘要: 1、关于文本编辑器; 文本编辑器有很多,比如图形模式的gedit、kwrite、OpenOffice ... ... ,文本模式下的编辑器有vi、vim(vi的增强版本)和nano ... ... vi和vim是我们在Linux中最常用的编辑器。我们有必要介绍一下vi(vim)最简单的用法,以让Li 阅读全文
posted @ 2016-11-26 21:54 Jonson Li 阅读(217) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 19 下一页