mzzcy

2017年7月7日

摘要：定义： SQL (Structured Query Language) 数据库，指关系型数据库。主要代表：SQL Server，Oracle，MySQL(开源)，PostgreSQL(开源)。 NoSQL（Not Only SQL）泛指非关系型数据库。主要代表：MongoDB，Redis，Couch 阅读全文

posted @ 2017-07-07 23:57 mzzcy 阅读(198) 评论(0) 推荐(0)

2017年7月6日

Flume 和 kafka的区别和对比

摘要：定义： Flume：是Cloudera提供的一个分布式的海量日志采集、聚合和传输的系统； Kafka：是一种高吞吐量的分布式发布订阅消息系统；各特点：场景： Flume主要是和HDFS\HBase结合，有特殊优化效率更好； Kafka 是一个通用型系统，开发商 Cloudera 推荐如果数据需要阅读全文

posted @ 2017-07-06 09:41 mzzcy 阅读(2716) 评论(0) 推荐(0)

MapReduce ChainMapper/ChainReducer

摘要： The ChainMapper class allows to use multiple Mapper classes within a single Map task. The ChainReducer class allows to chain multiple Mapper classes a 阅读全文

posted @ 2017-07-06 01:14 mzzcy 阅读(259) 评论(0) 推荐(0)

2017年7月5日

Hive 自定义函数 UDF UDAF UDTF

摘要： 1、UDF：用户定义（普通）函数，只对单行数值产生作用；继承UDF类，添加方法 evaluate() 2、UDAF：User- Defined Aggregation Funcation；用户定义聚合函数，可对多行数据产生作用；等同与SQL中常用的SUM()，AVG()，也是聚合函数；聚合函数使阅读全文

posted @ 2017-07-05 08:48 mzzcy 阅读(13878) 评论(0) 推荐(0)

2017年7月4日

Hive JOIN的基本操作及内部实现

摘要： 1、HIVE基本操作： [一起学Hive]之十一-Hive中Join的类型和用法注：HIve不支持非等值连接；什么是等值连接： 2、HIVE JOIN 内部原理： Hive中Join的原理和机制 Hive的三种Join方式关于SMB： Hive 基础之：分区、桶、Sort Merge Buck 阅读全文

posted @ 2017-07-04 01:40 mzzcy 阅读(425) 评论(0) 推荐(0)

2017年7月3日

MAC Safari上网弹窗弹广告的最新有效解决方法

摘要： MAC Safari上网弹窗弹广告的最新有效解决方法流氓软件Mackeeper 阅读全文

posted @ 2017-07-03 14:10 mzzcy 阅读(2587) 评论(0) 推荐(0)

SQL JOIN连接分类[转]

摘要： 1、内联接（典型的联接运算，使用像 = 或 <> 之类的比较运算符）；包括相等联接和自然联接；内联接使用比较运算符根据每个表共有的列的值匹配两个表中的行； 2、外联接。外联接可以是左向外联接、右向外联接或完整外部联接。在 FROM子句中指定外联接时，可以由下列几组关键字中的一组指定： 1）LEF 阅读全文

posted @ 2017-07-03 09:49 mzzcy 阅读(225) 评论(0) 推荐(0)

Spark Streaming

摘要：一、梗概即时处理流式数据； Spark Streaming 使用离散化流(discretized stream) DStream作为抽象表示； DStream是随时间推移而收到的数据的序列。在内部，每个时间区间收到的数据都作为RDD存在，而DStream是由这些 RDD所组成的序列 (因此得名阅读全文

posted @ 2017-07-03 01:54 mzzcy 阅读(169) 评论(0) 推荐(0)

2017年7月2日

Spark SQL

摘要：和Hive SQL演变而来，有很多相似之处；挖坑待做； Spark入门之五：SparkSQL的原理以及架构阅读全文

posted @ 2017-07-02 23:41 mzzcy 阅读(131) 评论(0) 推荐(0)

Spark RDD

摘要：梗概： RDD 其实就是分布式的元素集合。在Spark中，对数据的所有操作不外乎创建RDD、转化已有RDD 以及调用RDD 操作进行求值。而在这一切背后，Spark会自动将RDD中的数据分发到集群上，并将操作并行化执行。 RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区，这些分区阅读全文

posted @ 2017-07-02 20:36 mzzcy 阅读(241) 评论(0) 推荐(0)

公告