2018 年 3月随笔档案 - 梦里南柯

大数据笔记（二十九）——RDD简介、特性及常用算子

摘要：1、什么是RDD？最核心（*）弹性分布式数据集，Resilent distributed DataSet （*）Spark中数据的基本抽象（*）结合源码，查看RDD的概念 RDD属性 * Internally, each RDD is characterized by five main pr 阅读全文

posted @ 2018-03-31 22:30 梦里南柯阅读(1037) 评论(0) 推荐(0)

大数据笔记（二十八）——执行Spark任务、开发Spark WordCount程序

摘要：一、执行Spark任务: 客户端 1、Spark Submit工具：提交Spark的任务（jar文件）（*）spark提供的用于提交Spark任务工具（*）example：/root/training/spark-2.1.0-bin-hadoop2.7/examples/jars/spark-e 阅读全文

posted @ 2018-03-31 14:59 梦里南柯阅读(374) 评论(0) 推荐(0)

大数据笔记（二十七）——Spark Core简介及安装配置

摘要：Spark Core 一、什么是Spark？ 1、什么是Spark？生态体系结构 Apache Spark™ is a fast and general engine for large-scale data processing. 生态圈： 1、Spark Core 2、Spark SQL 3、S 阅读全文

posted @ 2018-03-31 14:24 梦里南柯阅读(443) 评论(0) 推荐(0)

大数据笔记（二十六）——Scala语言的高级特性

摘要：Scala语言的高级特性一、Scala的集合 1、可变集合mutable 不可变集合immutable 2、列表：List 3、序列: 常用的序列： Vector、Range 运行结果： 4、集（Set）: 是不重复元素的集合，默认的实现：HashSet 运行结果： 5、模式匹配：match 相当阅读全文

posted @ 2018-03-31 13:47 梦里南柯阅读(477) 评论(0) 推荐(0)

大数据笔记（二十五）——Scala函数式编程

摘要：Scala函数式编程一、Scala中的函数 (*) 函数是Scala中的头等公民，就和数字一样，可以在变量中存放函数，即：将函数作为变量的值（值函数）。运行：二、匿名函数：没有名字的函数运行：三、高阶函数：带函数参数的函数注意：把一个函数作为另外一个函数的参数值四、高阶函数示例运行：阅读全文

posted @ 2018-03-30 21:43 梦里南柯阅读(283) 评论(0) 推荐(0)

idea 无法创建Scala class 选项解决办法汇总

摘要：原因一：没有添加scala sdk 解决：file=>project structure =>Global Libraries,添加scala-sdk: 没有scala sdk的可以去网上下载。再检查一下.iml文件是否添加了scala sdk，没有的话加上：原因二：可能是maven的配置问题：阅读全文

posted @ 2018-03-29 23:26 梦里南柯阅读(25185) 评论(0) 推荐(0)

大数据笔记（二十四）——Scala面向对象编程实例

摘要：Scala语言的面向对象编程一、面向对象的基本概念:把数据和操作数据的方法放到一起，作为一个整体（类 class）面向对象的特征：（1）封装（2）继承（3）多态二、定义类: class，没有类的修饰符: public、protected、private 运行：三、属性的get和set方阅读全文

posted @ 2018-03-29 23:11 梦里南柯阅读(297) 评论(0) 推荐(0)

大数据笔记（二十三）——Scala语言基础

摘要：一.Scala简介：一种多范式的编程语言（*）面向对象（*）函数式编程：Scala的最大特点（*）基于JVM 二.Scala的运行环境（1）命令行：REPL 进入: scala 退出：:quit (*) paste 模式: 相当于vi编辑器进入： :paste 退出: ctrl+D （2）阅读全文

posted @ 2018-03-29 21:38 梦里南柯阅读(329) 评论(0) 推荐(0)

yum install ntp 报错：Error: Package: ntp-4.2.6p5-25.el7.centos.2.x86_64 (base)

摘要：redhat7 在安装ntp时报如下错误 Error: Package: ntp-4.2.6p5-25.el7.centos.2.x86_64 (base) Requires: ntpdate = 4.2.6p5-25.el7.centos.2 Installed: ntpdate-4.2.6p5- 阅读全文

posted @ 2018-03-28 21:20 梦里南柯阅读(2489) 评论(0) 推荐(0)

大数据笔记（二十二）——大数据实时计算框架Storm

摘要：一. 1、对比：离线计算和实时计算离线计算：MapReduce，批量处理（Sqoop-->HDFS--> MR > HDFS）实时计算：Storm和Spark Sparking，数据实时性（Flume > Kafka > 流式计算 > Redis） 2、常见的实时计算（流式计算）代表（1）Ap 阅读全文

posted @ 2018-03-27 21:08 梦里南柯阅读(3886) 评论(0) 推荐(0)

大数据笔记（二十一）——NoSQL数据库之Redis

摘要：一、Redis内存数据库一个key-value存储系统，支持存储的value包括string(字符串)、list(链表)、set(集合)、zset(sorted set--有序集合)和hash(哈希类型)。数据存在缓存中。与MemCached区别：（*）支持持久化（*）丰富的数据类型（*）阅读全文

posted @ 2018-03-27 17:33 梦里南柯阅读(200) 评论(0) 推荐(0)

大数据笔记（二十）——NoSQL数据库之MemCached

摘要：一、为什么要把数据存入内存？ 1、原因：快2、常见的内存数据库（*）MemCached：看成Redis的前身，严格来说Memcached的不能叫数据库，原因：不支持持久化（*）Redis：内存数据库，持久化（RDB、AOF）（*）Oracle TimesTen （*）SAP HANA 二、Me 阅读全文

posted @ 2018-03-27 15:59 梦里南柯阅读(189) 评论(0) 推荐(0)

大数据笔记（十九）——数据采集引擎Sqoop和Flume安装测试详解

摘要：一.Sqoop数据采集引擎采集关系型数据库中的数据用在离线计算的应用中强调：批量（1）数据交换引擎： RDBMS < > Sqoop < > HDFS、HBase、Hive （2）底层依赖MapReduce （3）依赖JDBC （4）安装：tar -zxvf sqoop-1.4.5.bin_ 阅读全文

posted @ 2018-03-27 14:29 梦里南柯阅读(552) 评论(0) 推荐(0)

大数据笔记（十八）——Pig的自定义函数

摘要：Pig的自定义函数有三种：1、自定义过滤函数：相当于where条件2、自定义运算函数：3、自定义加载函数：使用load语句加载数据，生成一个bag 默认：一行解析成一个Tuple 需要MR的jar包一.自定义过滤函数二.自定义运算函数三.自定义加载函数注册jar包: register def 阅读全文

posted @ 2018-03-26 22:27 梦里南柯阅读(594) 评论(0) 推荐(1)

大数据笔记（十七）——Pig的安装及环境配置、数据模型

摘要：一、Pig简介和Pig的安装配置 1、最早是由Yahoo开发，后来给了Apache 2、支持语言:PigLatin 类似SQL 3、翻译器 PigLatin > MapReduce（Spark） 4、安装和配置 (1)tar -zxvf pig-0.17.0.tar.gz -C ~/training 阅读全文

posted @ 2018-03-26 21:46 梦里南柯阅读(664) 评论(0) 推荐(0)

大数据笔记（十六）——Hive的客户端及自定义函数

摘要：一.Hive的Java客户端 JDBC工具类：JDBCUtils.java DemoTest.java 启动HiveServer:hiveserver2,会报错： java.lang.RuntimeException: org.apache.hadoop.ipc.RemoteException:Us 阅读全文

posted @ 2018-03-26 21:14 梦里南柯阅读(415) 评论(0) 推荐(0)

大数据笔记（十五）——Hive的体系结构与安装配置、数据模型

摘要：一．常见的数据分析引擎 Hive HDFS 表目录数据文件分区目2 2.Pig 3.Impala 4.Spark SQL 二．Hive 的体系结构用户接口主要有三个： 1.CLI Shell命令行 2.JDBC/ODBC：Hive的Java，与传统JDBC相似 3.Web管理界面三．H 阅读全文

posted @ 2018-03-26 20:41 梦里南柯阅读(335) 评论(0) 推荐(0)

大数据笔记（十四）——HBase的过滤器与Mapreduce

摘要：一. HBase过滤器 1、列值过滤器 2、列名前缀过滤器 3、多个列名前缀过滤器 4、行键过滤器5、组合过滤器二. HDFS上的mapreduce 建立表 create 'word','content' put 'word','1','content:info','I love Beijing' 阅读全文

posted @ 2018-03-26 14:03 梦里南柯阅读(565) 评论(0) 推荐(0)

大数据笔记（十三）——常见的NoSQL数据库之HBase数据库（A）

摘要：一.HBase的表结构和体系结构 1.HBase的表结构把所有的数据存到一张表中。通过牺牲表空间，换取良好的性能。 HBase的列以列族的形式存在。每一个列族包括若干列 2.HBase的体系结构主从结构：主节点：HBase 从节点：RegionServer 包含多个Region，一个列族就是一阅读全文

posted @ 2018-03-10 18:43 梦里南柯阅读(989) 评论(0) 推荐(0)

大数据笔记（十二）——使用MRUnit进行单元测试

摘要：package demo.wc; import java.util.ArrayList; import java.util.List; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.a... 阅读全文

posted @ 2018-03-10 15:42 梦里南柯阅读(297) 评论(0) 推荐(0)

大数据笔记（十一）——倒排索引

摘要：一.介绍及数据准备把文件ID对应到关键词的映射转换为关键词到文件ID的映射，每个关键词都对应着一系列的文件，这些文件中都出现这个关键词。参考博客：https://www.cnblogs.com/zlslch/p/6440114.html 1.建立一个文件夹 2.在文件夹下建立三个文件，准备数据：阅读全文

posted @ 2018-03-10 15:14 梦里南柯阅读(568) 评论(0) 推荐(0)

大数据笔记（十）——Shuffle与MapReduce编程案例（A）

摘要：一.什么是Shuffle yarn-site.xml文件配置的时候有这个参数：yarn.nodemanage.aux-services:mapreduce_shuffle 因为mapreduce程序运行在nodemanager上，nodemanager运行mapreduce程序的方式就是shuffl 阅读全文

posted @ 2018-03-05 00:20 梦里南柯阅读(471) 评论(0) 推荐(0)

大数据笔记（九）——Mapreduce的高级特性（B）

摘要：二.排序对象排序员工数据 Employee.java > 作为key2输出需求：按照部门和薪水升序排列 Employee.java EmployeeSortMapper.java EmployeeSortMain.java 结果：三.分区分区:Partition: 根据Map的输出（k2 v 阅读全文

posted @ 2018-03-03 23:36 梦里南柯阅读(245) 评论(0) 推荐(0)

大数据笔记（八）——Mapreduce的高级特性（A）

摘要：一.序列化类似于Java的序列化：将对象——>文件如果一个类实现了Serializable接口，这个类的对象就可以输出为文件同理，如果一个类实现了的Hadoop的序列化机制（接口：Writable），这个类的对象就可以作为输入和输出的值例子：使用序列化求每个部门的工资总额数据：在map阶阅读全文

posted @ 2018-03-01 22:19 梦里南柯阅读(478) 评论(0) 推荐(0)

大数据笔记（七）——Mapreduce程序的开发

摘要：一.分析Mapreduce程序开发的流程 1.图示过程输入：HDFS文件 /input/data.txt Mapper阶段： K1:数据偏移量（以单词记）V1：行数据 K2:单词 V2:记一次数 Reducer阶段 : K3:单词（=K2） V3:V2计数的集合 K4:单词 V4:V3集合中元素累阅读全文

posted @ 2018-03-01 00:14 梦里南柯阅读(311) 评论(0) 推荐(0)

lingluo2017

03 2018 档案

公告