hadoop - 随笔分类 - 夏日花开

hadoop工作流程

摘要：一）任务流程 1）Mapreduce程序启动一个Jobclient实例，开启整个mapreduce作业 2）Jobclient通过getnewjobld（）j接口向Jobtarker发出请求，以获得一个新的作业ID。 3）Jobclient根据作业指定的输入文件计算数据块的划分，并将完成作业所需要的阅读全文

posted @ 2016-07-26 15:07 夏日花开阅读(3153) 评论(0) 推荐(0)

大数据处理一

摘要：hadoop大数据处理一海量日志数据，提取出某日访问百度次数最多的那个IP。首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文中出现阅读全文

posted @ 2016-07-25 14:29 夏日花开阅读(181) 评论(0) 推荐(0)

大数据处理二

摘要：大数据处理一、Bloom filter 适用范围：可以用来实现数据字典，进行数据的判重，或者集合求交集基本原理及要点：对于原理来说很简单，位数组+k个独立hash函数。将 hash函数对应的值的位数组置1，查找时如果发现所有hash函数对应位都是1说明存在，很明显这个过程并不保证查找的结果是1 阅读全文

posted @ 2016-07-25 14:19 夏日花开阅读(182) 评论(0) 推荐(0)

hadoop笔记

摘要：hadoop简介 hadoop运行的原理 Hadoop主要有三个方面组成：HAFS，mapreduce,Hbase 最核心的设计是mapreduce. maprudece原理：一个mapreduce作业通常有把输入的数据集切成若干独立的数据快，由map任务以完全并行的方式处理他们。框架会对map的阅读全文

posted @ 2016-07-25 14:16 夏日花开阅读(449) 评论(0) 推荐(0)

夏日花开

随笔分类 - hadoop

公告