会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
mzzcy
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
下一页
2017年7月7日
SQL 和 NoSQL 比较
摘要: 定义: SQL (Structured Query Language) 数据库,指关系型数据库。主要代表:SQL Server,Oracle,MySQL(开源),PostgreSQL(开源)。 NoSQL(Not Only SQL)泛指非关系型数据库。主要代表:MongoDB,Redis,Couch
阅读全文
posted @ 2017-07-07 23:57 mzzcy
阅读(197)
评论(0)
推荐(0)
2017年7月6日
Flume 和 kafka的区别和对比
摘要: 定义: Flume:是Cloudera提供的一个分布式的海量日志采集、聚合和传输的系统; Kafka:是一种高吞吐量的分布式发布订阅消息系统; 各特点: 场景: Flume主要是和HDFS\HBase结合,有特殊优化效率更好; Kafka 是一个通用型系统,开发商 Cloudera 推荐如果数据需要
阅读全文
posted @ 2017-07-06 09:41 mzzcy
阅读(2704)
评论(0)
推荐(0)
MapReduce ChainMapper/ChainReducer
摘要: The ChainMapper class allows to use multiple Mapper classes within a single Map task. The ChainReducer class allows to chain multiple Mapper classes a
阅读全文
posted @ 2017-07-06 01:14 mzzcy
阅读(257)
评论(0)
推荐(0)
2017年7月5日
Hive 自定义函数 UDF UDAF UDTF
摘要: 1、UDF:用户定义(普通)函数,只对单行数值产生作用; 继承UDF类,添加方法 evaluate() 2、UDAF:User- Defined Aggregation Funcation;用户定义聚合函数,可对多行数据产生作用;等同与SQL中常用的SUM(),AVG(),也是聚合函数; 聚合函数使
阅读全文
posted @ 2017-07-05 08:48 mzzcy
阅读(13875)
评论(0)
推荐(0)
2017年7月4日
Hive JOIN的基本操作 及 内部实现
摘要: 1、HIVE基本操作: [一起学Hive]之十一-Hive中Join的类型和用法 注:HIve不支持非等值连接; 什么是等值连接: 2、HIVE JOIN 内部原理: Hive中Join的原理和机制 Hive的三种Join方式 关于SMB: Hive 基础之:分区、桶、Sort Merge Buck
阅读全文
posted @ 2017-07-04 01:40 mzzcy
阅读(422)
评论(0)
推荐(0)
2017年7月3日
MAC Safari上网弹窗弹广告的最新有效解决方法
摘要: MAC Safari上网弹窗弹广告的最新有效解决方法 流氓软件Mackeeper
阅读全文
posted @ 2017-07-03 14:10 mzzcy
阅读(2569)
评论(0)
推荐(0)
SQL JOIN连接分类[转]
摘要: 1、内联接(典型的联接运算,使用像 = 或 <> 之类的比较运算符);包括相等联接和自然联接; 内联接使用比较运算符根据每个表共有的列的值匹配两个表中的行; 2、外联接。外联接可以是左向外联接、右向外联接或完整外部联接。 在 FROM子句中指定外联接时,可以由下列几组关键字中的一组指定: 1)LEF
阅读全文
posted @ 2017-07-03 09:49 mzzcy
阅读(222)
评论(0)
推荐(0)
Spark Streaming
摘要: 一、梗概 即时处理流式数据; Spark Streaming 使用 离散化流(discretized stream) DStream作为抽象表示; DStream是随时间推移而收到的数据的序列。在内部,每个时间区间收到的数据都作为RDD存在,而DStream是由这些 RDD所组成的序列 (因此 得名
阅读全文
posted @ 2017-07-03 01:54 mzzcy
阅读(167)
评论(0)
推荐(0)
2017年7月2日
Spark SQL
摘要: 和Hive SQL演变而来,有很多相似之处; 挖坑待做; Spark入门之五:SparkSQL的原理以及架构
阅读全文
posted @ 2017-07-02 23:41 mzzcy
阅读(131)
评论(0)
推荐(0)
Spark RDD
摘要: 梗概: RDD 其实就是分布式的元素集合。 在Spark中,对数据的所有操作不外乎创建RDD、转化已有RDD 以及 调用RDD 操作进行求值。而在这一切背后,Spark会自动将RDD中的数据分发到集群上,并将操作并行化执行。 RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分区,这些分区
阅读全文
posted @ 2017-07-02 20:36 mzzcy
阅读(240)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
下一页
公告