会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
子墨言良
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
···
14
下一页
2018年10月16日
Hadoop2.X分布式集群部署
摘要: 本博文集群搭建没有实现Hadoop HA,详细文档在后续给出,本次只是先给出大概逻辑思路。 (一)hadoop2.x版本下载及安装 Hadoop 版本选择目前主要基于三个厂商(国外)如下所示: 基于Apache厂商的最原始的hadoop版本, 所有发行版均基于这个版本进行改进。 基于HortonWo
阅读全文
posted @ 2018-10-16 20:52 子墨言良
阅读(668)
评论(0)
推荐(0)
2018年10月15日
Spark新闻项目介绍及Linux集群准备
摘要: 从今天开始博主后面的已连续博客都是关于一个新闻项目的博客:卡弗卡大数据用户行为(日志)分析项目,从该项目可以学习整个Spark集群的环境配置以及大数据分析技术,完成实时数据分析。 (一)项目介绍 本课程基于企业大数据经典案例项目(大数据日志分析),全方位、全流程讲解 大数据项目的业务分析、技术选型、
阅读全文
posted @ 2018-10-15 17:33 子墨言良
阅读(271)
评论(0)
推荐(0)
2018年10月10日
Spark on YARN
摘要: Spark on YARN YARN概述 YARN是什么 Apache Hadoop YARN(Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用
阅读全文
posted @ 2018-10-10 11:09 子墨言良
阅读(305)
评论(0)
推荐(0)
2018年10月9日
Spark运行模式
摘要: Spark运行模式简介 注:重点是Standalone模式,然后是YARNcluster和YARN client模式。 1. Standalone模式 即独立模式,自带完整的服务,可单独部署到一个集群中,无需依赖任何其他资源管理系统。从一定程度上说,该模式是其他两种的基础。借鉴Spark开发模式,我
阅读全文
posted @ 2018-10-09 11:34 子墨言良
阅读(237)
评论(0)
推荐(0)
2018年9月19日
Spark编程模型(下)
摘要: 创建Pair RDD 什么是Pair RDD 包含键值对类型的RDD类型被称作Pair RDD; Pair RDD通常用来进行聚合计算; Pair RDD通常由普通RDD做ETL转化而来。 Python: pairs = lines.map(lambda x: (x.split(" ")[0], x
阅读全文
posted @ 2018-09-19 16:03 子墨言良
阅读(231)
评论(0)
推荐(0)
2018年9月18日
Spark编程模型(中)
摘要: 创建RDD 方式一:从集合创建RDD makeRDD Parallelize 注意:makeRDD可以指定每个分区perferredLocations参数parallelize则没有。 方式二:读取外部存储创建RDD Spark与Hadoop完全兼容,所以对Hadoop所支持的文件类型或者数据库类型
阅读全文
posted @ 2018-09-18 14:47 子墨言良
阅读(171)
评论(0)
推荐(0)
2018年9月13日
Spark 编程模型(上)
摘要: 初识RDD 什么是RDD? 定义:Resilient distributed datasets (RDD), an efficient, general-purpose and fault-tolerant abstraction for sharing data in cluster applic
阅读全文
posted @ 2018-09-13 16:51 子墨言良
阅读(306)
评论(0)
推荐(0)
2018年9月12日
Spark编程环境搭建及WordCount实例
摘要: 基于Intellij IDEA搭建Spark开发环境搭建 基于Intellij IDEA搭建Spark开发环境搭——参考文档 ● 参考文档http://spark.apache.org/docs/latest/programming-guide.html ● 操作步骤 ·a)创建maven 项目 ·
阅读全文
posted @ 2018-09-12 17:39 子墨言良
阅读(2526)
评论(0)
推荐(0)
2018年9月11日
IDEA右键新建时没有Java Class选项
摘要: 今天在IDEA中新建了一个maven工程,但是在我想要新建Class时发件右键菜单里竟然没有Java Class选项!如下图所示: 如上图红圈所示,我们可以根据对项目的任意目录进行这五种目录类型标注,这个知识点非常非常重要,必须会。 Sources: 一般用于标注类似 src 这种可编译目录。有时候
阅读全文
posted @ 2018-09-11 16:54 子墨言良
阅读(53513)
评论(2)
推荐(9)
Spark最简安装
摘要: 该环境适合于学习使用的快速Spark环境,采用Apache预编译好的包进行安装。而在实际开发中需要使用针对于个人Hadoop版本进行编译安装,这将在后面进行介绍。 Spark预编译安装包下载——Apache版 下载地址:http://spark.apache.org/downloads.html (
阅读全文
posted @ 2018-09-11 11:13 子墨言良
阅读(418)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
···
14
下一页
公告