随笔档案「2018年11月」 - dummyly

摘要：Hive将SQL转化为MapReduce的过程：阅读全文

posted @ 2018-11-30 22:59 dummyly 阅读(1700) 评论(0) 推荐(0)

摘要：Kafka的特性 Kafka是一个分布式消息队列：生产者、消费者的功能。它提供了类似于JMS的特性，但是在设计实现上完全不同 kafka基本原理：生产者将数据生产出来，交给 broker 进行存储，消费者需要消费数据了，就从broker中去拿出数据来，然后完成一系列对数据的处理操作。多个 bro 阅读全文

posted @ 2018-11-29 23:44 dummyly 阅读(226) 评论(0) 推荐(0)

RDD算子、RDD依赖关系

摘要：RDD：弹性分布式数据集，是分布式内存的一个抽象概念 RDD：1.一个分区的集合， 2.是计算每个分区的函数， 3.RDD之间有依赖关系 4.一个对于key-value的RDD的Partitioner 5.一个存储存取每个Partition的优先位置的列表 RDD算子： Transformati 阅读全文

posted @ 2018-11-29 23:07 dummyly 阅读(301) 评论(0) 推荐(0)

SparkSQL查询程序的两种方法，及其对比

摘要：import包： import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.rdd.RDDimport org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}import org.apache.spark.sql... 阅读全文

posted @ 2018-11-28 17:01 dummyly 阅读(1928) 评论(0) 推荐(0)

spark的flatMap和map区别

摘要：map()是将函数用于RDD中的每个元素，将返回值构成新的RDD。 flatmap()是将函数应用于RDD中的每个元素，将返回的迭代器的所有内容构成新的RDD,这样就得到了一个由各列表中的元素组成的RDD,而不是一个列表组成的RDD。新建person.txt: 1 lisi 182 liwu 20 阅读全文

posted @ 2018-11-28 15:56 dummyly 阅读(526) 评论(0) 推荐(0)

HDFS上传文件

摘要：1.client端向namenode请求上传文件，查看文件是否存在，是否有权限往hdfs写入 2.如果文件不存在，权限OK就根据副本数N（例如2个），根据网络拓扑选择N个离client端最近的datanode返回client。（把文件切块，一个一个block块的请求namenode，返回最优的da 阅读全文

posted @ 2018-11-23 23:30 dummyly 阅读(1076) 评论(0) 推荐(0)

SparkStreaming和Kafka的整合

摘要：当我们正确地部署好Spark Streaming，我们就可以使用Spark Streaming提供的零数据丢失机制。需要满足以下几个先决条件： 1、输入的数据来自可靠的数据源和可靠的接收器； 2、应用程序的metadata被application的driver持久化了(checkpointed ); 阅读全文

posted @ 2018-11-23 15:42 dummyly 阅读(695) 评论(0) 推荐(0)

hadoop ha集群搭建

摘要：集群配置： jdk1.8.0_161 hadoop-2.6.1 zookeeper-3.4.8 linux系统环境：Centos6.5 3台主机：master、slave01、slave02 Hadoop HA集群搭建（高可用）：设置静态IP地址为普通用户添加sudo权限服务器网络设置：NAT 阅读全文

posted @ 2018-11-23 11:45 dummyly 阅读(341) 评论(0) 推荐(0)

Zookeeper安装

摘要：版本 zookeeper-3.4.8 下载 zookeeper-3.4.8.tar.gz 通过SFTP上传到master 解压 tar -zxvf zookeeper-3.4.8.tar.gz -C /home/dummy/app 配置环境变量 vi ~/.bash_profile source ~ 阅读全文

posted @ 2018-11-23 11:15 dummyly 阅读(486) 评论(0) 推荐(0)

hadoop完全分布式集群的搭建

摘要：集群配置： jdk1.8.0_161 hadoop-2.6.1 linux系统环境：Centos6.5 创建普通用户 dummy 准备三台虚拟机master，slave01，slave02 hadoop完全分布式集群的搭建：设置静态IP地址为普通用户添加sudo权限服务器网络设置：NAT模式阅读全文

posted @ 2018-11-23 10:09 dummyly 阅读(1509) 评论(0) 推荐(0)

hadoop伪分布式集群的搭建

摘要：集群配置： jdk1.8.0_161 hadoop-2.6.1 linux系统环境：Centos6.5 创建普通用户 dummy 设置静态IP地址 Hadoop伪分布式集群搭建：为普通用户添加sudo权限：设置之前必须得安装sudo，先su 输入密码进入root用户，执行 yum install 阅读全文

posted @ 2018-11-23 01:11 dummyly 阅读(516) 评论(0) 推荐(0)

Linux基本命令运行

摘要：文件基本操作：增删查改：创建文件：touch（创建文件和修改文件或者目录的时间戳）,vim、vi（编辑/创建文件）,mkdir（创建文件目录）移动和修改文件名：mv 删除文件：rm –rf(强制递归删除) 复制文件：cp 复制目录加-R，R表示recursive，具体可以查看man cp 退回阅读全文

posted @ 2018-11-22 23:27 dummyly 阅读(1774) 评论(0) 推荐(0)

关于spark入门报错 java.io.FileNotFoundException: File file:/home/dummy/spark_log/file1.txt does not exist

摘要：不想看废话的可以直接拉到最底看总结废话开始： master： master主机存在文件，却报执行spark-shell语句： ./spark-shell --master spark://master:7077 --executor-memory 1G --total-executor-core 阅读全文

posted @ 2018-11-22 13:02 dummyly 阅读(5583) 评论(0) 推荐(1)

dummyly

11 2018 档案

公告