hadoop

Bigdata:

       结构化数据:有约束的元数据

  半结构化数据:有元数据,但是没有严格意义的约束

  非结构化数据: 没有元数据

  搜索引擎:搜索组件,索引组件

      蜘蛛程序:爬取

    存储:

    分析处理:NoSQL

Google  

  2003年:The Google File System

  2004年:MapReduce:    Simplified Data Processing on Large Cluster

  2006年:Bigtable:A distributed Storage System for Structure Data

 

Hadoop = HDFS + MapReduce(开发API,运行框架,运行时环境)     (Doug Cutting)

    Hbase

两种可用性:服务可用性(RM,NM),数据可用性(NN{SNN},DN)

 

Nutch 批处理机制,

 

函数式编程:Lisp ML函数式编程语言:高阶函数:(map,fold)

  map 接受一个函数为参数,并将其应用于列表中的所有元素,生成另外一个列表(结果列表送给fold)

  fold 接受两个参数,能够把外函数应用于列表中的元素和下一个列表元素

 

mapreduce:

  mapper:转化k-v数据

  reducer:统计折叠,键值一样的只能由一个reducer接收

可能需要多次mapreduce才能得到最终结果

 

MRv1 (Hadoop)--> MRv2(Hadoop2)

MRv1:

MRv2:

       YARN:资源管理器

  MapReduce:data processing

       RM

  NM

     AM

    Container

 

Hadoop Distribution:

  Cloudera:    CDH

  Hortonworks   HDP

  Intel   IDH

  MapR  提供商业支持

 

posted @ 2017-07-30 18:19  Dothraki  阅读(128)  评论(0)    收藏  举报