05 2021 档案
摘要:1/ HIVE是什么?HIVE是一个可以将sql翻译为MR程序的工具HIVE支持用户将HDFS上的文件映射为表结构,然后用户就可以输入SQL对这些表(HDFS上的文件)进行查询分析HIVE将用户定义的库、表结构等信息存储hive的元数据库(可以是本地derby,也可以是远程mysql)中 2/ HI
阅读全文
摘要:转载自:https://www.cnblogs.com/jmcui/archive/2020/12/10/14117113.html#_label1 好好学习数据结构吧,毕业也几年了,很多东西都稀里糊涂,不能再这样下去了。 突然想起来了高中物理老师的一句话,做了十道题,不如弄懂一道题。 01. 前言
阅读全文
摘要:SparkSQL是Spark上的高级模块,SparkSQL是一个SQL解析引擎,将SQL解析成特殊的RDD(DataFrame),然后在Spark集群中运行 SparkSQL是用来处理结构化数据的(先将非结构化的数据转换成结构化数据) SparkSQL支持两种编程API 1.SQL方式 2.Data
阅读全文
摘要:package cn.edu360 import java.io.{FileInputStream, FileOutputStream, ObjectInputStream, ObjectOutputStream} /** * Created by zx on 2017/6/25. */class
阅读全文
摘要:本文转自:https://www.cnblogs.com/chhyan-dream/p/12013463.html 1、概述 为了更好地理解调度,我们先看一下集群模式的Spark程序运行架构图,如上所示: 2、Spark中的基本概念 1、Application:表示你的程序 2、Driver:表示m
阅读全文
摘要:Spark 任务执行的流程 四个步骤1.构建DAG(调用RDD上的方法)2.DAGScheduler将DAG切分Stage(切分的依据是Shuffle),将Stage中生成的Task以TaskSet的形式给TaskScheduler3.TaskScheduler调度Task(根据资源情况将Task调
阅读全文
摘要:1.SparkContext哪一端生成的? Driver端 2.DAG是在哪一端被构建的? Driver端 3.RDD是在哪一端生成的? Driver端 4.广播变量是在哪一端调用的方法进行广播的? Driver端 5.要广播的数据应该在哪一端先创建好再广播呢? Driver端 6.调用RDD的算子
阅读全文
摘要:1. 弹性分布式数据集RDD 1.1. RDD概述 1.1.1. 什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性
阅读全文
摘要:1.RDD是一个基本的抽象,操作RDD就像操作一个本地集合一样,降低了编程的复杂度 RDD的算子分为两类,一类是Transformation(lazy),一类是Action(触发任务执行)RDD不存真正要计算的数据,而是记录了RDD的转换关系(调用了什么方法,传入什么函数) 创建RDD有哪些中方式呢
阅读全文
摘要:提交一个spark程序到spark集群,会产生哪些进程? SparkSubmint(Driver)提交任务Executor 执行真正的计算任务的 提交任务可以指定多个master地址,目的是为了提交任务高可用 bin/spark-submit --master spark://node-4:7077
阅读全文
摘要:项目中用到了kafka,没用Streaming,只是用了个简单的kafka连接 最初的使用的是consumer.poll(10) 这样拉取得数据, 发现这样得拉取数据得方式当连接不上kafka时或者连接不正确,或者broker失败,总而言之就是连接不上kafka,会使得程序一直在运行停不下来. 解决
阅读全文
摘要:大数据: 概念:bigdata 数据: 数据就是数值,也就是我们通过观察、实验或计算得出的结果。数据有很多种,最简单的就是数字。数据也可以是文字、图像、声音等。数据可以用于科学研究、设计、查证等。 大数据:海量数据 特点: 4v特点: 1.VOLUME数据量大 GB TB 1 Byte =8 bit
阅读全文
摘要:Hive 如何使用mapjoin 转载:原文链接 https://www.jianshu.com/p/b52466e93226 https://www.cnblogs.com/1130136248wlxk/articles/5692594.html hive mapjoin使用 今天遇到一个hive
阅读全文
摘要:Spark性能调优 Container killed by YARN for exceeding memory limits. 碰到这个问题,是个正常人都觉得要加大内存或者调节excutor等参数配置。这个问题已解决。调参数作用微乎其微,而且背后也是有机制的,不是你调了就能看到效果,几乎没什么卵用。
阅读全文
摘要:关于Oracle中in和exists的区别 1、关于在 Oracle8i 时代中in和exists的区别 这里有条SQL语句:select * from A where id in(select id from B) 以上查询使用了in语句,in()只执行一次,它查出B表中的所有id字段并缓存起来.
阅读全文
摘要:Collection 常用功能 Collection是所有单列集合的父接口,因此在Collection中定义了单列集合(List和Set)通用的一些方法,这些方法可用于操作所有的单列集合。方法如下: public boolean add(E e): 把给定的对象添加到当前集合中 。 public v
阅读全文
摘要:final 关键字 常见四种用法 1 可以用来修饰一个类 (太监类) 2 可以修饰一个方法 (该方法不能被覆盖重写) 3 可以修饰局部变量 (地址值不能改变,但是地址的内容属性可以改变) 4 可以修饰成员遍量 (默认值没了,必须手动赋值。要么直接赋值,要么构造方法赋值) final关键字--修饰类
阅读全文
摘要:java的面向对象:找谁(方法)干什么事 java三大特性 :封装、继承、多态 一、封装 作用就是方便使用,面向对象 封装的的操作--private 关键字 封装优化--this关键字 this的作用。主要事重名的时候,起到区分作用。方法被谁调用谁就是this 二、继承 java是单继承的,继承主要
阅读全文
摘要:原文链接:https://blog.csdn.net/weixin_43153854/article/details/102683579 Java的内存需要划分成为5个部分: 栈(stack) 存放的都是方法中的局部变量。 方法的运行一定要在栈当中。 局部变量: 方法中的参数,或者方法{}内部的变量
阅读全文
摘要:操作步骤: 1 注册开发者账号 注册地址 https://mp.weixin.qq.com/ 注册后发邮箱激活,我测试玩玩用的选的个人模式 2 完善资料,填写,添加开发者,可以添加自己或者他人 3 开发-> 开发管理 记住你的AppId 作为项目的入口,后面要用 4 下载开发者工具 https://
阅读全文
摘要:DECODE函数简介 1:使用decode判断字符串是否一样 主要作用:将查询结果翻译成其他值(即以其他形式表现出来,以下举例说明); 使用方法: SELECT DECODE(columnname,值1,翻译值1,值2,翻译值2,...值n,翻译值n,缺省值) FROM talbename WHER
阅读全文
摘要:今天认真的来了解一些xml,主要从三方面来了解 XML 1. 概念 2. 语法 3. 解析 XML: 1. 概念:Extensible Markup Language 可扩展标记语言 * 可扩展:标签都是自定义的。 <user> <student> * 功能 * 存储数据 1. 配置文件 2. 在
阅读全文
摘要:Cloudera Manager离线部署CDH文档 目录: Cloudera Manager离线部署CDH文档1 目录: 1 一、说明 2 二、系统环境搭建 3 1、网络配置(所有节点)3 2、SSH免密码登录3 3、关闭防火墙3 4、关闭SELINUX4 5、安装JDK4 6、设置NTP5 7、安
阅读全文
摘要:架构 Hue了解 oozie 客户端告诉服务器xml的位置在哪 xml配置,驱动流程一个个向下流执行 oozie 有两类节点 你们公司用什么平台,怎么管理,怎么做的 用Cloudra 怎么用的。这个事情不是我做的,我们公司有专门的团队,但是我们每周四有个技术分享会,他们 给我们分享过怎么使用的,现在
阅读全文
摘要:一、介绍 1、Vue.js 是什么 Vue (读音 /vjuː/,类似于 view) 是一套用于构建用户界面的渐进式框架。 Vue 的核心库只关注视图层,不仅易于上手,还便于与第三方库或既有项目整合。另一方面,当与现代化的工具链以及各种支持类库结合使用时,Vue 也完全能够为复杂的单页应用提供驱动。
阅读全文
摘要:自学参考:http://es6.ruanyifeng.com/ 一、ECMAScript 6 简介 ECMAScript 6.0(以下简称 ES6)是 JavaScript 语言的下一代标准,已经在 2015 年 6 月正式发布了。它的目标,是使得 JavaScript 语言可以用来编写复杂的大型应
阅读全文
摘要:其实只是为了编造数据,找了几篇都不满意。项目中使用的是schema创建,下面将简单的创建写一下。 val schema=types.StructType( Array( StructField("TMNL_iD",StringType,false) , //想建立几列写几个StructField,逗
阅读全文
摘要:每次面试看到很多技术点不会都慌的一批,于是花了一下午的时间, 分别整理了Java和大数据的面试的技术栈和技术要求,加分项。 功夫在平时,平时的时候就把这些技术点,逐个击破。 自己整理的同时,希望也给读到这里的朋友一点帮助。 编辑的时候图片挺清晰的,点进来不太清晰,先看大致一个整体图 为了方便下大家,
阅读全文
摘要:1 前言 你完全可以用20%的时间去掌握80%常问的知识点。2. 操作系统2.1 基础 ★★★ 进程与线程的本质区别、以及各自的使用场景。 ★☆☆ 进程状态。 ★★★ 进程调度算法的特点以及使用场景。 ★☆☆ 线程实现的方式。 ★★☆ 协程的作用。 ★★☆ 常见进程同步问题。 ★★★ 进程通信方法的
阅读全文
摘要:假如我们开发了相应的微服务,如订单服务,用户服务,又对这些服务可以做集群部署,这些服务都会注册到Eureka注册中心, 服务之间相互调用可以通过FegIn进行调用,gateWay所有微服务的统一入口,一般是PC端或者终端请求,经过gateWay路由到不同的微服务,可以做一些权限鉴定,异常,日志等。在
阅读全文

浙公网安备 33010602011771号