hadoop

Bigdata:

结构化数据：有约束的元数据

　　半结构化数据：有元数据，但是没有严格意义的约束

　　非结构化数据：没有元数据

　　搜索引擎：搜索组件，索引组件

　　　　　　蜘蛛程序：爬取

　　　　存储：

　　　　分析处理：NoSQL

Google

　　2003年：The Google File System

　　2004年：MapReduce： Simplified Data Processing on Large Cluster

　　2006年：Bigtable：A distributed Storage System for Structure Data

Hadoop = HDFS + MapReduce（开发API，运行框架，运行时环境） (Doug Cutting)

　　　　Hbase

两种可用性：服务可用性（RM,NM），数据可用性（NN｛SNN｝,DN）

Nutch 批处理机制，

函数式编程：Lisp ML函数式编程语言：高阶函数：（map,fold）

　　map 接受一个函数为参数，并将其应用于列表中的所有元素，生成另外一个列表（结果列表送给fold）

　　fold 接受两个参数，能够把外函数应用于列表中的元素和下一个列表元素

mapreduce:

　　mapper:转化k-v数据

　　reducer:统计折叠，键值一样的只能由一个reducer接收

可能需要多次mapreduce才能得到最终结果

MRv1 (Hadoop)--> MRv2(Hadoop2)

MRv1:

MRv2:

YARN:资源管理器

　　MapReduce:data processing

　　　　Container

Hadoop Distribution:

　　Cloudera: CDH

　　Hortonworks HDP

　　Intel IDH

　　MapR 提供商业支持

posted @ 2017-07-30 18:19 Dothraki 阅读(128) 评论(0) 收藏举报

刷新页面返回顶部

Dothraki