sir_Lijun - 博客园

(006)Hadoop基础之job的文件split计算法则

摘要：首先我们阅读以下源码，类名是FileInputFormat.class 根据源代码而知： max(minSize, min(maxSize,blockSize)) min(maxSize,blockSize)取maxSize,blockSize之间的最小值 max(minSize, min())取m 阅读全文

posted @ 2018-11-18 00:43 sir_Lijun 阅读(303) 评论(0) 推荐(0)

(001算法)初识算法-时间复杂度

摘要：一：算法算法根据数据结构上面描述定义：算法是描述求解问题方法的操作步骤的集合。二：算法的性质算法应满足以下性质三：算法设计目标四：算法效率上面提到高时间高空间效率，都是指算法效率。时间复杂度：评估执行程序所需的时间。可以估算出程序对处理器的使用程度。空间复杂度：评估执行程序所需的存储阅读全文

posted @ 2018-09-06 00:31 sir_Lijun 阅读(491) 评论(0) 推荐(0)

(005)Hadoop基础之Compression

摘要：一：压缩（cpmpression）好处压缩的好处，减少存储文件所需的空间，并且加速数据在网络与磁盘上的传输。二：压缩格式总结 Hadoop支持DEFLATE、Gzip、bzip2三种压缩格式，还有LZO,LZ4,Snappy压缩，但是需要自己去官网下载相应的包压缩格式的压缩性能比较，通过笔者在阅读全文

posted @ 2018-09-05 23:24 sir_Lijun 阅读(471) 评论(0) 推荐(0)

(004)Hadoop基础之WordCount（统计文本单词次数）

摘要： MapReduce简介 MapReduce的原理图 2.MR原理图根据代码简单了解MR。代码简单解析：根据执行流程图我们不难发现，首先我们从Mapper下手，然后着手Reducer,而Reducer的key(in),value(in)，肯定是Mapper的key(out),value(out) 阅读全文

posted @ 2018-09-04 22:31 sir_Lijun 阅读(446) 评论(0) 推荐(0)

(003)Hadoop基础之API操作HDFS，读取数据

摘要：研读HADOOP权威指南，从而得知，从Java接口中，可以根据hadoop url读取数据，并且也可以根据filesystem API 读取数据。一.我们根据hadoop url 读取数据。请copy代码的兄弟，适当的更改里面URL参数。其实根据URL.openStream得到InputStra 阅读全文

posted @ 2018-08-27 21:45 sir_Lijun 阅读(302) 评论(0) 推荐(0)

(002)hadoop基础之初识Hadoop MapReduce架构

摘要： Hadoop的mapreduce是一个快速、高效、简单用于编写的并运行处理大数据程序并应用在大数据集群上的编程框架。它将复杂的、运行于大规模集群上的并行计算过程高度的抽象到两个函数：map、reduce。适用于MP来处理的数据集（或者任务），需要满足一个基本的要求：待处理的数据集可以分解成许多小的数阅读全文

posted @ 2018-07-17 22:03 sir_Lijun 阅读(217) 评论(0) 推荐(0)

(001)hadoop基础之初识Hadoop hdfs架构

摘要： 1.1. Hadoop hdfs架构 hadoop分布式文件系统（hdfs）被设计成适合运行在通用硬件上的分布文件系统。hdfs是一个高度容错性的系统，适合部署在廉价的机器上（题外话：其实一点都不廉价，企业的服务器都挺贵的，所谓的廉价都是相对来说），能提供高吞吐的数据访问，适合大规模数据集上的应用。阅读全文

posted @ 2018-07-17 22:00 sir_Lijun 阅读(167) 评论(0) 推荐(0)