随笔分类 - Hadoop
摘要:1. API基本概念 Flink程序可以对分布式集合进行转换(例如: filtering, mapping, updating state, joining, grouping, defining windows, aggregating) 集合最初是从源创建的(例如,从文件、kafka主题或本地内
阅读全文
摘要:Spark Streaming 是核心Spark API的扩展,可实现实时数据流的可伸缩,高吞吐量,容错流处理。可以从许多数据源(例如Kafka,Flume,Kinesis或TCP sockets)中提取数据,并且可以使用复杂的算法处理数据,这些算法用高级函数表示,如map、reduce、join和
阅读全文
摘要:用户对物品的评分矩阵 × 物品相似矩阵 = 推荐列表 构建物品相似度矩阵的时候可以通过计算两个物品的余弦相似度得出,于是需要构建每个物品在所有用户中的评分矩阵 本例中,不采用余弦相似度的方式计算物品与物品相似度 在MapReduce作业中,输入数据的格式是:用户,物品,评分 第一步、构建用于评分矩阵
阅读全文
摘要:在MapReduce整个过程可以概括为以下过程: 输入 --> map --> shuffle --> reduce -->输出 输入文件会被切分成多个块,每一块都有一个map task map阶段的输出结果会先写到内存缓冲区,然后由缓冲区写到磁盘上。默认的缓冲区大小是100M,溢出的百分比是0.8
阅读全文
摘要:参考 http://hbase.apache.org/book.html#_architecture Architecture 65. Overview 65.1. NoSQL? HBase是一种"NoSQL"数据库。“NoSQL”一般指的是非关系型数据库,我们知道,关系型数据库支持SQL,也就是说
阅读全文
摘要:http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.html Apache Hadoop YARN YARN的主要功能包括:资源管理和任务调度及监控,它们各自都是独立的守护进程。要实现这个目标,必须有一个全局
阅读全文
摘要:配置管理概述 Hive从<install-dir>/conf/hive-default.xml中读取它的默认配置 Hive配置目录的位置可以通过设置HIVE_CONF_DIR环境变量的值来改变 配置变量可以被改变,通过<install-dir>/conf/hive-site.xml中重新定义(PS:
阅读全文
摘要:https://cwiki.apache.org/confluence/display/Hive/GettingStarted#GettingStarted-SimpleExampleUseCases 解压,并配置环境变量 在conf目录下新建一个hive-site.xml文件,配置如下 将mysq
阅读全文
摘要:http://hadoop.apache.org/docs/r2.9.0/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html 背景 在Hadoop 2.0.0以前,在一个HDFS集群中NameNode存在单点故障。每个集群
阅读全文
摘要:http://hadoop.apache.org/docs/r2.9.0/hadoop-project-dist/hadoop-hdfs/Federation.html Background HDFS有两个主要的层: Namespace 由目录、文件和块组成 它支持所有的文件系统命名空间操作,比如,
阅读全文
摘要:Mapper Mapper的maps阶段将输入键值对经过计算得到中间结果键值对,框架会将中间结果按照key进行分组,然后传递给reducer以决定最终的输出。用户可以通过Job.setGroupingComparatorClass(Class)来指定一个Comparator。 Mapper的输出会被
阅读全文
摘要:http://hadoop.apache.org/docs/r2.9.0/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html Overview 一个MapReduce作业通常会将数据输入切分成独立的块
阅读全文
摘要:http://hadoop.apache.org/docs/r2.9.0/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html Introduction Hadoop分布式文件系统被设计运行在普通的硬件上。它和目前已经存在的分布式文件系统有很多相似的地方。然
阅读全文
摘要:参考 https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html 1、下载并解压 2、设置环境变量 3、修改hadoop-env.sh 4、修改core-site.xml 5、修
阅读全文
摘要:What Is Apache Hadoop? Hadoop是一个可靠的、可扩展的、分布式计算的开源软件。 Hadoop是一个分布式处理大数据的框架。它被设计成从一台到上千台不等的服务器,每个服务器都提供本地计算和存储的能力。它并非依赖于硬件来提供高可用服务。 Hadoop这个工程包含如下模块: Ha
阅读全文

浙公网安备 33010602011771号