06 2020 档案
摘要:File对象 Java的标准库java.io提供了File对象来操作文件和目录 File f = new Flie("C:\Windos\a.txt") 注意在字符串中\表示一个\ 用.表示当前目录,用..表示上级目录 getPath()返回构造方法传入的路径,getAbsolutePath(),返
阅读全文
摘要:Broadcast Join 适合情况,小表和大表,小表非常小,适合传播到各个节点。 当大表小表连接时,为了避免Shuffle,我们可以将小表广播到各个节点内存,供大表连接。一定程度上牺牲了空间,避免了Shuffle。这种Join在Spark中称作Broadcast Join。(需要注意的点是广播的
阅读全文
摘要:在知网可以下载。发表于2014年9年。 引言 在存储数据方面,Spark采取数据块的方式分布式存储在集群的各个节点,不支持传统并行数据仓库中的数据预划分和数据索引。也就是Spark无法干预数据的分布。 但是传统并行分析型数据块中,对等值连接操作的优化大多基于数据预划分。(这种情况使得Spark不能通
阅读全文
摘要:题目 (来自LeetCode) 给定一个包含 m × n 个格子的面板,每一个格子都可以看成是一个细胞。每个细胞都具有一个初始状态:1 即为活细胞(live),或 0 即为死细胞(dead)。每个细胞与其八个相邻位置(水平,垂直,对角线)的细胞都遵循以下四条生存定律: 如果活细胞周围八个位置的活细胞
阅读全文
摘要:Java集合简介 数组的限制: 数组初始化后大小不可取 数组只能按索引顺序存取 Java.util.Collection 除Map外的所有其他集合类的根接口。java.util包主要提供三种类型的集合:List、Set、Map List 一种有序列表的的集合,按索引排列 Set一种没有重复元素的集合
阅读全文
摘要:题目 假设按照升序排序的数组在预先未知的某个点上进行了旋转。 ( 例如,数组[0,1,2,4,5,6,7]可能变为[4,5,6,7,0,1,2])。 搜索一个给定的目标值,如果数组中存在这个目标值,则返回它的索引,否则返回-1。 你可以假设数组中不存在重复的元素。 你的算法时间复杂度必须是O(log
阅读全文
摘要:字符串和编码 String是一个引用类型,本身也是一个class String内部是通过一个char[]数组来表示 比较字符串时,必须用equals()而不能用== String类还提供了多种方法搜索子串、提取子串 contain() indexOf() startsWith() endsWith(
阅读全文
摘要:方法 public、private private 使用 method 来间接赋值 SetNum() GetNum() this.x = x; 传入数组类型 (String[] names) 方法可以让外部代码安全地访问实例字段 方法是一组执行语句,并且可以执行任意逻辑 方法内部遇到return返回
阅读全文
摘要:背景 集群资源管理,一般有计算资源、存储资源、网络资源。当前调度优化一般有基于数据本地研究与改进、负载均衡和基于作业优先级。 基于网络资源调度策略研究现状 大数据对网络资源的要求很高。网络资源调度,一般是基于SDN的改进。SDN,软件定义网络。使用一个控制器来使得网络达到负载均衡。对于网络资源的调度
阅读全文
摘要:题目 编写一个高效的算法来搜索 m x n 矩阵 matrix 中的一个目标值 target。该矩阵具有以下特性: 每行的元素从左到右升序排列 每列的元素从上到下升序排列 思路 暴力就是矩阵都搜过一遍,看有没有目标值,但肯定不是题目本意。 通过观察给出的矩阵,可以发现如果从矩阵左上角和右下角出发,当
阅读全文
摘要:通过知网可以查到这篇文章。于2020年3月发表在计算机应用研究。 背景 K-means是聚类算法的经典算法。由于运行时,初始聚类中心点和簇数的不确定性,使聚类结果存在很大不稳定性。两个缺点:一是要初始化中心,随机选择,具有不确定性;二是要有几个中心,也具有不确定性。 一般对K-means的改进,是中
阅读全文
摘要:通过知网下载此篇文章。于2018年7月发表在计算机科学。 引言 大数据平台的执行环境由于受到底层硬件、体系结构、操作系统、Spark框架本身以及用户编写的应用程序等多层次的综合影响。 如果不了解Spark底层复杂的执行机制,就找不到性能瓶颈,也就无法优化。 Spark工作原理 (这里只记录自己觉得需
阅读全文
摘要:通过知网可以下载这篇文章。是厦门大学唐振坤的硕士学位论文。 背景 本文讲述了基于“统计查询模型”和MapReduce,提出了能适用于海量数据的机器学习算法。随后有人开发出了Mahout机器学习算法库。但是由于Spark的内存计算和Spark Streaming对流数据的处理,MapReduce并不是
阅读全文
摘要:控制结构 Scala的控制结构有:if、while、for、try、match和函数调用。 if表达式 if可以作为一个返回值,如下面的代码。同时用val,就像Java的final变量一样,一旦初始化就不会改变。 val filename = if (!args.isEmpty) args(0) e
阅读全文
摘要:这篇文章可以在知网下载,发表时间2020-06-07。以下是个人对这篇文章的阅读笔记和个人感想。 侵删。 背景和简介 通过摘要和介绍,可以了解到Spark的“统一内存管理”模型共分为4层,自上往下分别是Spark层、JVM层、OS层、Hardware层。目前对Spark的性能优化,只停留在某一层。
阅读全文
摘要:函数式对象 以Rational类为例,以下介绍类参数、构造方法、方法、操作符、私有成员、重写、前置条件检查、重载以及自引用。 不可变对象和可变对象的区别 不可变对象通常比可变对象更容易推理,没有随着时间变化而变化,没有复杂的状态空间。其次,可以自由传递不可变对象。而对于可变对象,在传递之前,需要做保
阅读全文
摘要:题目 Solve the heart disease problem Here is a small dataset provided by the Cleveland Clinic Foundation for Heart Disease, which are several hundred ro
阅读全文
摘要:类和对象 在类定义中,有字段filed和方法method,统称为成员member,通过val和var定义字段指定对象的变量。通过def定义方法。(和Python一样)实例一个类后,会指派一些内存来保存对象的状态图。个人理解对通过地址间映射,有一块内存保存值。 对字段声明私有。在var、val前加。不
阅读全文
摘要:大家可以参考厦门大学数据库实验室这篇博客 虽然说,建立外部表会使用LOCATION指定位置,而建立内部表不使用LOCATION,会默认保存在/hive/warehouse/下,自动生成一个目录,目录名为表名。 但是通过一系列对比,我们可以发现,这两个参数之间是没有关系的。 我们可以建立外部表,不使用
阅读全文
摘要:学习《Scala编程》(第三版)的学习笔记。 一门可伸缩的语言 Scala,源于"scalable language",可伸缩的语言。从技术上来看,Scala是一门综合了面向对象和函数式编程概念的静态类型的编程语言。很适合编写将Java组件组装在一起的脚本。 在Scala中,面向对象的实现是纯的:每
阅读全文
摘要:根据这篇博客安装了scala,但是运行时,报空指针错误。 百度到这篇博客,意思是下载scala-2.13.2会有这个问题。 于是下载2.11.12版本,成功解决。 点击上面链接,下载.msi文件 一键安装 通过cmd,输入scala启动scala命令行
阅读全文
摘要:《大数据处理技术Spark》这门课需要完成对一个数据集进行数据预处理、数据存储、数据处理与分析、数据可视化。也就是一个大数据的基本处理流程。 本案例以和鲸社区的信用卡评分模型构建数据为数据集,以Python为编程语言,使用大数据框架Spark对数据进行处理分析,并对分析结果进行可视化。 具体内容可参
阅读全文
浙公网安备 33010602011771号