摘要: 到今天为止,写博客大概也写了半年多了吧。 这段时间我一直在想,究竟什么才是真正有价值的东西。这半年以来,当我学习到一个新的技术技巧时,或是研究完一个底层原理,具体的某个算法时,我就会把它给写到我的博客中,但我在想,在这个信息过载的时代,这些东西很多都已经在网上被别人说烂了,有一些更是被转载烂了。 在阅读全文
posted @ 2018-11-15 22:24 zzzzMing 阅读(23) 评论(0) 编辑
摘要: 我们都知道现在大数据存储用的基本都是 Hdfs ,但在 Hadoop 诞生之前,我们都是如何存储大量数据的呢?这次我们不聊技术架构什么的,而是从技术演化的角度来看看 Hadoop Hdfs。阅读全文
posted @ 2018-12-18 21:37 zzzzMing 阅读(19) 评论(1) 编辑
摘要: 一. Hbase 的 region 我们先简单介绍下 Hbase 的 架构和 region : 从物理集群的角度看,Hbase 集群中,由一个 Hmaster 管理多个 HRegionServer,其中每个 HRegionServer 都对应一台物理机器,一台 HRegionServer 服务器上又阅读全文
posted @ 2018-12-15 11:31 zzzzMing 阅读(73) 评论(0) 编辑
摘要: 一. 概述 上一篇我们介绍了如何将数据从 mysql 抛到 kafka,这次我们就专注于利用 storm 将数据写入到 hdfs 的过程,由于 storm 写入 hdfs 的可定制东西有些多,我们先不从 kafka 读取,而先自己定义一个 Spout 数据充当数据源,下章再进行整合。这里默认你是拥有阅读全文
posted @ 2018-12-12 21:05 zzzzMing 阅读(132) 评论(0) 编辑
摘要: 一. 概述 在大数据的静态数据处理中,目前普遍采用的是用 Spark + Hdfs (Hive / Hbase) 的技术架构来对数据进行处理。 但有时候有其他的需求,需要从其他不同数据源不间断得采集数据,然后存储到 Hdfs 中进行处理。而追加(append)这种操作在 Hdfs 里面明显是比较麻烦阅读全文
posted @ 2018-12-08 21:09 zzzzMing 阅读(167) 评论(0) 编辑
摘要: 今天主要介绍一下如何将 Spark dataframe 的数据转成 json 数据。用到的是 scala 提供的 json 处理的 api。 用过 Spark SQL 应该知道,Spark dataframe 本身有提供一个 api 可以供我们将数据转成一个 JsonArray,我们可以在 spar阅读全文
posted @ 2018-12-06 20:05 zzzzMing 阅读(144) 评论(0) 编辑
摘要: 一.从贝叶斯公式开始 贝叶斯分类其实是利用用贝叶斯公式,算出每种情况下发生的概率,再取概率较大的一个分类作为结果。我们先来看看贝叶斯公式: P(A|B) = P(B|A) P(A) / P(B) 其中P(A|B)是指在事件B发生的情况下事件A发生的概率。 在贝叶斯定理中,每个名词都有约定俗成的名称:阅读全文
posted @ 2018-11-29 20:22 zzzzMing 阅读(285) 评论(4) 编辑
摘要: 从分治算法说起 要说 MapReduce 就不得不说分治算法,而分治算法其实说白了,就是四个字 分而治之 。其实就是将一个复杂的问题分解成多组相同或类似的子问题,对这些子问题再分,然后再分。直到最后的子问题可以简单得求解。 要具体介绍分治算法,那就不得不说一个很经典的排序算法 归并排序。这里不说它的阅读全文
posted @ 2018-11-23 18:25 zzzzMing 阅读(128) 评论(0) 编辑
摘要: 一.Actor模型介绍 在单核 CPU 发展已经达到一个瓶颈的今天,要增加硬件的速度更多的是增加 CPU 核的数目。而针对这种情况,要使我们的程序运行效率提高,那么也应该从并发方面入手。传统的多线程方法又极其容易出现 Bug 而难以维护,不过别担心,今天将要介绍另一种并发的模式能一定程度解决这些问题阅读全文
posted @ 2018-11-16 20:42 zzzzMing 阅读(191) 评论(4) 编辑
摘要: 到今天为止,写博客大概也写了半年多了吧。 这段时间我一直在想,究竟什么才是真正有价值的东西。这半年以来,当我学习到一个新的技术技巧时,或是研究完一个底层原理,具体的某个算法时,我就会把它给写到我的博客中,但我在想,在这个信息过载的时代,这些东西很多都已经在网上被别人说烂了,有一些更是被转载烂了。 在阅读全文
posted @ 2018-11-15 22:24 zzzzMing 阅读(23) 评论(0) 编辑
摘要: 一. scala 模式匹配(pattern matching) pattern matching 可以说是 scala 中十分强大的一个语言特性,当然这不是 scala 独有的,但这不妨碍它成为 scala 的语言的一大利器。 scala 的 pattern matching 是类似这样的, 其中,阅读全文
posted @ 2018-11-15 10:41 zzzzMing 阅读(154) 评论(1) 编辑