hadoop
Bigdata:
结构化数据:有约束的元数据
半结构化数据:有元数据,但是没有严格意义的约束
非结构化数据: 没有元数据
搜索引擎:搜索组件,索引组件
蜘蛛程序:爬取
存储:
分析处理:NoSQL
2003年:The Google File System
2004年:MapReduce: Simplified Data Processing on Large Cluster
2006年:Bigtable:A distributed Storage System for Structure Data
Hadoop = HDFS + MapReduce(开发API,运行框架,运行时环境) (Doug Cutting)
Hbase
两种可用性:服务可用性(RM,NM),数据可用性(NN{SNN},DN)
Nutch 批处理机制,
函数式编程:Lisp ML函数式编程语言:高阶函数:(map,fold)
map 接受一个函数为参数,并将其应用于列表中的所有元素,生成另外一个列表(结果列表送给fold)
fold 接受两个参数,能够把外函数应用于列表中的元素和下一个列表元素
mapreduce:
mapper:转化k-v数据
reducer:统计折叠,键值一样的只能由一个reducer接收
可能需要多次mapreduce才能得到最终结果
MRv1 (Hadoop)--> MRv2(Hadoop2)
MRv1:
MRv2:
YARN:资源管理器
MapReduce:data processing
RM
NM
AM
Container
Hadoop Distribution:
Cloudera: CDH
Hortonworks HDP
Intel IDH
MapR 提供商业支持

浙公网安备 33010602011771号