03 2018 档案

摘要:1、什么是RDD? 最核心 (*)弹性分布式数据集,Resilent distributed DataSet (*)Spark中数据的基本抽象 (*)结合源码,查看RDD的概念 RDD属性 * Internally, each RDD is characterized by five main pr 阅读全文
posted @ 2018-03-31 22:30 梦里南柯 阅读(1037) 评论(0) 推荐(0)
摘要:一、执行Spark任务: 客户端 1、Spark Submit工具:提交Spark的任务(jar文件) (*)spark提供的用于提交Spark任务工具 (*)example:/root/training/spark-2.1.0-bin-hadoop2.7/examples/jars/spark-e 阅读全文
posted @ 2018-03-31 14:59 梦里南柯 阅读(374) 评论(0) 推荐(0)
摘要:Spark Core 一、什么是Spark? 1、什么是Spark?生态体系结构 Apache Spark™ is a fast and general engine for large-scale data processing. 生态圈: 1、Spark Core 2、Spark SQL 3、S 阅读全文
posted @ 2018-03-31 14:24 梦里南柯 阅读(443) 评论(0) 推荐(0)
摘要:Scala语言的高级特性 一、Scala的集合 1、可变集合mutable 不可变集合immutable 2、列表:List 3、序列: 常用的序列: Vector、Range 运行结果: 4、集(Set): 是不重复元素的集合,默认的实现:HashSet 运行结果: 5、模式匹配:match 相当 阅读全文
posted @ 2018-03-31 13:47 梦里南柯 阅读(477) 评论(0) 推荐(0)
摘要:Scala函数式编程 一、Scala中的函数 (*) 函数是Scala中的头等公民,就和数字一样,可以在变量中存放函数,即:将函数作为变量的值(值函数)。 运行: 二、匿名函数:没有名字的函数 运行: 三、高阶函数:带函数参数的函数 注意:把一个函数作为另外一个函数的参数值 四、高阶函数示例 运行: 阅读全文
posted @ 2018-03-30 21:43 梦里南柯 阅读(283) 评论(0) 推荐(0)
摘要:原因一:没有添加scala sdk 解决:file=>project structure =>Global Libraries,添加scala-sdk: 没有scala sdk的可以去网上下载。 再检查一下.iml文件是否添加了scala sdk,没有的话加上: 原因二:可能是maven的配置问题: 阅读全文
posted @ 2018-03-29 23:26 梦里南柯 阅读(25185) 评论(0) 推荐(0)
摘要:Scala语言的面向对象编程 一、面向对象的基本概念:把数据和操作数据的方法放到一起,作为一个整体(类 class) 面向对象的特征: (1)封装 (2)继承 (3)多态 二、定义类: class,没有类的修饰符: public、protected、private 运行: 三、属性的get和set方 阅读全文
posted @ 2018-03-29 23:11 梦里南柯 阅读(297) 评论(0) 推荐(0)
摘要:一.Scala简介:一种多范式的编程语言 (*)面向对象 (*)函数式编程:Scala的最大特点 (*)基于JVM 二.Scala的运行环境 (1)命令行:REPL 进入: scala 退出::quit (*) paste 模式: 相当于vi编辑器 进入: :paste 退出: ctrl+D (2) 阅读全文
posted @ 2018-03-29 21:38 梦里南柯 阅读(329) 评论(0) 推荐(0)
摘要:redhat7 在安装ntp时报如下错误 Error: Package: ntp-4.2.6p5-25.el7.centos.2.x86_64 (base) Requires: ntpdate = 4.2.6p5-25.el7.centos.2 Installed: ntpdate-4.2.6p5- 阅读全文
posted @ 2018-03-28 21:20 梦里南柯 阅读(2489) 评论(0) 推荐(0)
摘要:一. 1、对比:离线计算和实时计算 离线计算:MapReduce,批量处理(Sqoop-->HDFS--> MR > HDFS) 实时计算:Storm和Spark Sparking,数据实时性(Flume > Kafka > 流式计算 > Redis) 2、常见的实时计算(流式计算)代表 (1)Ap 阅读全文
posted @ 2018-03-27 21:08 梦里南柯 阅读(3886) 评论(0) 推荐(0)
摘要:一、Redis内存数据库 一个key-value存储系统,支持存储的value包括string(字符串)、list(链表)、set(集合)、zset(sorted set--有序集合)和hash(哈希类型)。数据存在缓存中。 与MemCached区别: (*)支持持久化 (*)丰富的数据类型 (*) 阅读全文
posted @ 2018-03-27 17:33 梦里南柯 阅读(200) 评论(0) 推荐(0)
摘要:一、为什么要把数据存入内存? 1、原因:快2、常见的内存数据库 (*)MemCached:看成Redis的前身,严格来说Memcached的不能叫数据库,原因:不支持持久化 (*)Redis:内存数据库,持久化(RDB、AOF) (*)Oracle TimesTen (*)SAP HANA 二、Me 阅读全文
posted @ 2018-03-27 15:59 梦里南柯 阅读(189) 评论(0) 推荐(0)
摘要:一.Sqoop数据采集引擎 采集关系型数据库中的数据 用在离线计算的应用中 强调:批量 (1)数据交换引擎: RDBMS < > Sqoop < > HDFS、HBase、Hive (2)底层依赖MapReduce (3)依赖JDBC (4)安装:tar -zxvf sqoop-1.4.5.bin_ 阅读全文
posted @ 2018-03-27 14:29 梦里南柯 阅读(552) 评论(0) 推荐(0)
摘要:Pig的自定义函数有三种:1、自定义过滤函数:相当于where条件2、自定义运算函数:3、自定义加载函数:使用load语句加载数据,生成一个bag 默认:一行解析成一个Tuple 需要MR的jar包 一.自定义过滤函数 二.自定义运算函数 三.自定义加载函数 注册jar包: register def 阅读全文
posted @ 2018-03-26 22:27 梦里南柯 阅读(594) 评论(0) 推荐(1)
摘要:一、Pig简介和Pig的安装配置 1、最早是由Yahoo开发,后来给了Apache 2、支持语言:PigLatin 类似SQL 3、翻译器 PigLatin > MapReduce(Spark) 4、安装和配置 (1)tar -zxvf pig-0.17.0.tar.gz -C ~/training 阅读全文
posted @ 2018-03-26 21:46 梦里南柯 阅读(664) 评论(0) 推荐(0)
摘要:一.Hive的Java客户端 JDBC工具类:JDBCUtils.java DemoTest.java 启动HiveServer:hiveserver2,会报错: java.lang.RuntimeException: org.apache.hadoop.ipc.RemoteException:Us 阅读全文
posted @ 2018-03-26 21:14 梦里南柯 阅读(415) 评论(0) 推荐(0)
摘要:一.常见的数据分析引擎 Hive HDFS 表 目录 数据 文件 分区 目2 2.Pig 3.Impala 4.Spark SQL 二.Hive 的体系结构 用户接口主要有三个: 1.CLI Shell命令行 2.JDBC/ODBC:Hive的Java,与传统JDBC相似 3.Web管理界面 三.H 阅读全文
posted @ 2018-03-26 20:41 梦里南柯 阅读(335) 评论(0) 推荐(0)
摘要:一. HBase过滤器 1、列值过滤器 2、列名前缀过滤器 3、多个列名前缀过滤器 4、行键过滤器5、组合过滤器 二. HDFS上的mapreduce 建立表 create 'word','content' put 'word','1','content:info','I love Beijing' 阅读全文
posted @ 2018-03-26 14:03 梦里南柯 阅读(565) 评论(0) 推荐(0)
摘要:一.HBase的表结构和体系结构 1.HBase的表结构 把所有的数据存到一张表中。通过牺牲表空间,换取良好的性能。 HBase的列以列族的形式存在。每一个列族包括若干列 2.HBase的体系结构 主从结构: 主节点:HBase 从节点:RegionServer 包含多个Region,一个列族就是一 阅读全文
posted @ 2018-03-10 18:43 梦里南柯 阅读(989) 评论(0) 推荐(0)
摘要:package demo.wc; import java.util.ArrayList; import java.util.List; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.a... 阅读全文
posted @ 2018-03-10 15:42 梦里南柯 阅读(297) 评论(0) 推荐(0)
摘要:一.介绍及数据准备 把文件ID对应到关键词的映射转换为关键词到文件ID的映射,每个关键词都对应着一系列的文件,这些文件中都出现这个关键词。 参考博客:https://www.cnblogs.com/zlslch/p/6440114.html 1.建立一个文件夹 2.在文件夹下建立三个文件,准备数据: 阅读全文
posted @ 2018-03-10 15:14 梦里南柯 阅读(568) 评论(0) 推荐(0)
摘要:一.什么是Shuffle yarn-site.xml文件配置的时候有这个参数:yarn.nodemanage.aux-services:mapreduce_shuffle 因为mapreduce程序运行在nodemanager上,nodemanager运行mapreduce程序的方式就是shuffl 阅读全文
posted @ 2018-03-05 00:20 梦里南柯 阅读(471) 评论(0) 推荐(0)
摘要:二.排序 对象排序 员工数据 Employee.java > 作为key2输出 需求:按照部门和薪水升序排列 Employee.java EmployeeSortMapper.java EmployeeSortMain.java 结果: 三.分区分区:Partition: 根据Map的输出(k2 v 阅读全文
posted @ 2018-03-03 23:36 梦里南柯 阅读(245) 评论(0) 推荐(0)
摘要:一.序列化 类似于Java的序列化:将对象——>文件 如果一个类实现了Serializable接口,这个类的对象就可以输出为文件 同理,如果一个类实现了的Hadoop的序列化机制(接口:Writable),这个类的对象就可以作为输入和输出的值 例子:使用序列化 求每个部门的工资总额 数据:在map阶 阅读全文
posted @ 2018-03-01 22:19 梦里南柯 阅读(478) 评论(0) 推荐(0)
摘要:一.分析Mapreduce程序开发的流程 1.图示过程 输入:HDFS文件 /input/data.txt Mapper阶段: K1:数据偏移量(以单词记)V1:行数据 K2:单词 V2:记一次数 Reducer阶段 : K3:单词(=K2) V3:V2计数的集合 K4:单词 V4:V3集合中元素累 阅读全文
posted @ 2018-03-01 00:14 梦里南柯 阅读(311) 评论(0) 推荐(0)