上一页 1 2 3 4 5 6 7 ··· 15 下一页
摘要: 背景:hadoop版本为3.1.3, 且以伪分布式形式安装,hive版本为3.1.2,hive为hadoop的一个客户端。 1. 安装简要步骤 (1) 官网下载apache-hive-3.1.2-bin.tar.gz,并解压缩 (2) 进入conf配置文件夹,将hive-env.sh.templat 阅读全文
posted @ 2019-11-30 18:03 mengrennwpu 阅读(1949) 评论(0) 推荐(0) 编辑
摘要: 本文参考: a. https://www.jianshu.com/p/c46bfaa5dd15 1. shuffle及历史简介 shuffle,即"洗牌",所有采用map-reduce思想的大数据计算框架的必经及最重要的阶段。顾名思义,其处于map与reduce之间,可分为2个子阶段: a. shu 阅读全文
posted @ 2019-11-19 18:43 mengrennwpu 阅读(677) 评论(0) 推荐(0) 编辑
摘要: 本文主要参考: a. https://www.cnblogs.com/yy3b2007com/p/10934090.html 0. 说明 a. 关于spark源码会不定期的更新与补充 b. 对于spark源码的历史博文,也会不定期修改、增加、优化 c. spark源码对应的spark版本为2.4.1 阅读全文
posted @ 2019-10-28 18:47 mengrennwpu 阅读(1886) 评论(0) 推荐(0) 编辑
摘要: 转自:https://www.cnblogs.com/yy3b2007com/p/11087180.html 本章将针对yarn-cluster(--master yarn –deploy-mode cluster)模式下全面进行代码补充解读: 1)什么时候初始化SparkContext; 2)如何 阅读全文
posted @ 2019-10-28 18:47 mengrennwpu 阅读(762) 评论(0) 推荐(0) 编辑
摘要: 近几月,想要了解Spark的内部实现原理,因此想要查阅Spark的源码信息,现将所了解的资料汇总如下: 1. 博客文字类 (1) 官网 1) github 2) Spark官网 (2) gitbook 1) The Internals of Spark Structured Streaming:对s 阅读全文
posted @ 2019-09-02 15:33 mengrennwpu 阅读(340) 评论(0) 推荐(0) 编辑
摘要: 1. 简介 SparkConf类负责管理Spark的所有配置项。在我们使用Spark的过程中,经常需要灵活配置各种参数,来使程序更好、更快地运行,因此也必然要与SparkConf类频繁打交道。了解它的细节不无裨益。 2. SparkConf类的构造方法 下面先来看一看SparkConf类的构造方法。 阅读全文
posted @ 2019-09-02 14:59 mengrennwpu 阅读(515) 评论(0) 推荐(0) 编辑
摘要: package com.ws.spark.study.scala import java.io.File import org.scalatest.FlatSpec import scala.io.Source class TestScala extends FlatSpec{ "for循环" should "成功" ignore { // 1. for中增加多个过滤 ... 阅读全文
posted @ 2019-08-05 09:58 mengrennwpu 阅读(343) 评论(0) 推荐(0) 编辑
摘要: 一. 简介 1. 机器学习中,可以将数据划分为连续数据和离散数据 a. 连续数据:可以取任何值,如房价 b. 离散数据:仅有少量特殊值,如一个房屋有2个或3个房间,但不能为2.75个房间 二. 创建向量 1. 向量中的各个维度称为特征 2. Spark中既有局部向量、矩阵,也有分布式矩阵。分布式矩阵 阅读全文
posted @ 2019-08-05 09:56 mengrennwpu 阅读(692) 评论(2) 推荐(0) 编辑
摘要: 1. 概述 ScalaTest是scala生态系统中最流行和灵活的测试工具,可以测试scala、js、java代码。 2. ScalaTest的特性 a. ScalaTest的核心是套件(suite),即0到多个测试的集合b. 测试可以是含有一个名称的任意内容,该名称可以用来启动、待处理或取消,也可 阅读全文
posted @ 2019-08-05 09:53 mengrennwpu 阅读(5830) 评论(0) 推荐(0) 编辑
摘要: 1. 背景 近日,线上的服务出现异常,调用服务返回的JSON格式数据不完整,导致客户端解析异常,因此记录了本次的填坑之旅(nnd)... 2. 排查过程 2.1 服务器分析 登录到服务所在linux服务器,查看磁盘I/O信息iotop、CPU信息top、网络请求netstat -alnp等一通操作, 阅读全文
posted @ 2019-06-28 11:16 mengrennwpu 阅读(450) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 15 下一页