11 2018 档案

摘要:Hive将SQL转化为MapReduce的过程: 阅读全文
posted @ 2018-11-30 22:59 dummyly 阅读(1700) 评论(0) 推荐(0)
摘要:Kafka的特性 Kafka是一个分布式消息队列:生产者、消费者的功能。它提供了类似于JMS的特性,但是在设计实现上完全不同 kafka基本原理: 生产者将数据生产出来,交给 broker 进行存储,消费者需要消费数据了,就从broker中去拿出数据来,然后完成一系列对数据的处理操作。 多个 bro 阅读全文
posted @ 2018-11-29 23:44 dummyly 阅读(226) 评论(0) 推荐(0)
摘要:RDD:弹性分布式数据集, 是分布式内存的一个抽象概念 RDD:1.一个分区的集合, 2.是计算每个分区的函数 , 3.RDD之间有依赖关系 4.一个对于key-value的RDD的Partitioner 5.一个存储存取每个Partition的优先位置的列表 RDD算子: Transformati 阅读全文
posted @ 2018-11-29 23:07 dummyly 阅读(301) 评论(0) 推荐(0)
摘要:import包: import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.rdd.RDDimport org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}import org.apache.spark.sql... 阅读全文
posted @ 2018-11-28 17:01 dummyly 阅读(1928) 评论(0) 推荐(0)
摘要:map()是将函数用于RDD中的每个元素,将返回值构成新的RDD。 flatmap()是将函数应用于RDD中的每个元素,将返回的迭代器的所有内容构成新的RDD,这样就得到了一个由各列表中的元素组成的RDD,而不是一个列表组成的RDD。 新建person.txt: 1 lisi 182 liwu 20 阅读全文
posted @ 2018-11-28 15:56 dummyly 阅读(526) 评论(0) 推荐(0)
摘要:1.client端向namenode请求上传文件,查看文件是否存在,是否有权限往hdfs写入 2.如果文件不存在,权限OK就根据副本数N(例如2个),根据网络拓扑选择N个离client端最近的datanode返回client。 (把文件切块,一个一个block块的请求namenode,返回最优的da 阅读全文
posted @ 2018-11-23 23:30 dummyly 阅读(1076) 评论(0) 推荐(0)
摘要:当我们正确地部署好Spark Streaming,我们就可以使用Spark Streaming提供的零数据丢失机制。需要满足以下几个先决条件: 1、输入的数据来自可靠的数据源和可靠的接收器; 2、应用程序的metadata被application的driver持久化了(checkpointed ); 阅读全文
posted @ 2018-11-23 15:42 dummyly 阅读(695) 评论(0) 推荐(0)
摘要:集群配置: jdk1.8.0_161 hadoop-2.6.1 zookeeper-3.4.8 linux系统环境:Centos6.5 3台主机:master、slave01、slave02 Hadoop HA集群搭建(高可用): 设置静态IP地址 为普通用户添加sudo权限 服务器网络设置:NAT 阅读全文
posted @ 2018-11-23 11:45 dummyly 阅读(341) 评论(0) 推荐(0)
摘要:版本 zookeeper-3.4.8 下载 zookeeper-3.4.8.tar.gz 通过SFTP上传到master 解压 tar -zxvf zookeeper-3.4.8.tar.gz -C /home/dummy/app 配置环境变量 vi ~/.bash_profile source ~ 阅读全文
posted @ 2018-11-23 11:15 dummyly 阅读(486) 评论(0) 推荐(0)
摘要:集群配置: jdk1.8.0_161 hadoop-2.6.1 linux系统环境:Centos6.5 创建普通用户 dummy 准备三台虚拟机master,slave01,slave02 hadoop完全分布式集群的搭建: 设置静态IP地址 为普通用户添加sudo权限 服务器网络设置:NAT模式 阅读全文
posted @ 2018-11-23 10:09 dummyly 阅读(1509) 评论(0) 推荐(0)
摘要:集群配置: jdk1.8.0_161 hadoop-2.6.1 linux系统环境:Centos6.5 创建普通用户 dummy 设置静态IP地址 Hadoop伪分布式集群搭建: 为普通用户添加sudo权限: 设置之前必须得安装sudo,先su 输入密码进入root用户,执行 yum install 阅读全文
posted @ 2018-11-23 01:11 dummyly 阅读(516) 评论(0) 推荐(0)
摘要:文件基本操作: 增删查改: 创建文件:touch(创建文件和修改文件或者目录的时间戳),vim、vi(编辑/创建文件),mkdir(创建文件目录) 移动和修改文件名:mv 删除文件:rm –rf(强制递归删除) 复制文件:cp 复制目录加-R,R表示recursive,具体可以查看man cp 退回 阅读全文
posted @ 2018-11-22 23:27 dummyly 阅读(1774) 评论(0) 推荐(0)
摘要:不想看废话的可以直接拉到最底看总结 废话开始: master: master主机存在文件,却报 执行spark-shell语句: ./spark-shell --master spark://master:7077 --executor-memory 1G --total-executor-core 阅读全文
posted @ 2018-11-22 13:02 dummyly 阅读(5583) 评论(0) 推荐(1)