随笔分类 - hadoop
摘要:一)任务流程 1)Mapreduce程序启动一个Jobclient实例,开启整个mapreduce作业 2)Jobclient通过getnewjobld()j接口向Jobtarker发出请求,以获得一个新的作业ID。 3)Jobclient根据作业指定的输入文件计算数据块的划分,并将完成作业所需要的
阅读全文
摘要:hadoop大数据处理一 海量日志数据,提取出某日访问百度次数最多的那个IP。 首 先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法, 比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现
阅读全文
摘要:大数据处理 一、Bloom filter 适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集 基本原理及要点: 对于原理来说很简单,位数组+k个独立hash函数。将 hash函数对应的值的位数组置1,查找时如果发现所有hash函数对应位都是1说明存在,很明显这个过程并不保证查找的结果是1
阅读全文
摘要:hadoop简介 hadoop运行的原理 Hadoop主要有三个方面组成:HAFS,mapreduce,Hbase 最核心的设计是mapreduce. maprudece原理: 一个mapreduce作业通常有把输入的数据集切成若干独立的数据快,由map任务以完全并行的方式处理他们。框架会对map的
阅读全文

浙公网安备 33010602011771号