会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
不穿格子衫的徍爺
博客园
首页
新随笔
联系
订阅
管理
2019年9月16日
SparkSQL
摘要: SparkSQL 数据分析的方式 数据分析的方式大致上可以划分为 SQL 和 命令式两种 命令式在前面的 RDD 部分, 非常明显可以感觉的到是命令式的, 主要特征是通过一个算子, 可以得到一个结果, 通过结果再进行后续计算sc.textFile("...").flatMap(_.split(" "
阅读全文
posted @ 2019-09-16 00:12 不穿格子衫的徍爺
阅读(189)
评论(0)
推荐(0)
2019年9月7日
spark-初阶①(介绍+RDD)
摘要: spark-初阶①(介绍+RDD) Spark是什么? Apache Spark 是一个快速的, 多用途的集群计算系统, 相对于 Hadoop MapReduce 将中间结果保存在磁盘中, Spark 使用了内存保存中间结果, 能在数据尚未写入硬盘时在内存中进行运算. Spark的特点(优点) 速度
阅读全文
posted @ 2019-09-07 16:44 不穿格子衫的徍爺
阅读(252)
评论(0)
推荐(0)
2019年9月1日
hive调优
摘要: hive调优 参数调优 1、map阶段数据压缩set hive.exec.compress.intermediate=trueset mapred.map.output.compression.codec= org.apache.hadoop.io.compress.SnappyCodecset m
阅读全文
posted @ 2019-09-01 15:23 不穿格子衫的徍爺
阅读(181)
评论(0)
推荐(0)
2019年8月28日
二分查找法---scala方式
摘要: 二分查找法 scala方式 package com.leimport scala.util.control.Breaks._/** * * * @Author : Le * @CreatDate : 2019/8/28 * **/object test { def main(args: Array[
阅读全文
posted @ 2019-08-28 21:03 不穿格子衫的徍爺
阅读(483)
评论(0)
推荐(0)
2019年8月22日
创建Sqoop作业,报错Exception in thread "main" java.lang.NoClassDefFoundError: org/json/JSONObject
摘要: WARN tool.BaseSqoopTool: Setting your password on the command-line is insecure. Consider using -P instead. Exception in thread "main" java.lang.NoClas
阅读全文
posted @ 2019-08-22 00:58 不穿格子衫的徍爺
阅读(864)
评论(0)
推荐(0)
2019年8月20日
Hadoop-(Flume)
摘要: Hadoop-(Flume) 1. Flume 介绍 1.1. 概述 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件,socket数据包、文件、文件夹、kafka等各种形式源数据,又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive
阅读全文
posted @ 2019-08-20 17:13 不穿格子衫的徍爺
阅读(197)
评论(0)
推荐(0)
Hadoop-(Hive)
摘要: Hadoop-(Hive) 介绍 数据仓库的目的是构建面向分析的集成化数据环境; 数据仓库是存数据的,企业的各种数据往里面存,主要目的是为了分析有效数据,后续会基 于它产出供分析挖掘的数据,或者数据应用需要的数据 ; 特点 面向主题 : 数据仓库通过一个个主题域将多个业务系统的数据加载到一起,为了各
阅读全文
posted @ 2019-08-20 15:30 不穿格子衫的徍爺
阅读(335)
评论(0)
推荐(0)
2019年8月12日
hadoop(二MapReduce)
摘要: hadoop(二MapReduce) 介绍 MapReduce:其实就是把数据分开处理后再将数据合在一起. Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。Reduce负责“合”,即对map阶段的结果进行全局汇
阅读全文
posted @ 2019-08-12 00:07 不穿格子衫的徍爺
阅读(284)
评论(0)
推荐(0)
hadoop(一HDFS)
摘要: hadoop(一HDFS) 介绍 狭义上来说: hadoop指的是以下的三大系统: HDFS :分布式文件系统(高吞吐,没有延时要求,容错性,扩展能力)MapReduce : 分布式计算系统Yarn:分布式样集群资源管理 但是hadoop可不止这三个系统 广义上来说: hadoop指的是大数据的一个
阅读全文
posted @ 2019-08-12 00:05 不穿格子衫的徍爺
阅读(229)
评论(0)
推荐(0)
2019年7月7日
SSM整合
摘要: SSM整合 整合说明:SSM整合可以使用多种方式,咱们会选择XML(第三方对象) + 注解(自己new的对象)的方式 整合的思路 (1):先搭建整合的环境(2):先把Spring的配置搭建完成(3):再使用Spring整合SpringMVC框架(4):最后使用Spring整合MyBatis框架 (1
阅读全文
posted @ 2019-07-07 23:56 不穿格子衫的徍爺
阅读(269)
评论(0)
推荐(0)
下一页
公告