随笔档案「2020年6月」 - Tanglement

本地文件系统IO(Java)

摘要：File对象 Java的标准库java.io提供了File对象来操作文件和目录 File f = new Flie("C:\Windos\a.txt") 注意在字符串中\表示一个\ 用.表示当前目录，用..表示上级目录 getPath()返回构造方法传入的路径，getAbsolutePath()，返阅读全文

posted @ 2020-06-26 13:48 Tanglement 阅读(402) 评论(0) 推荐(0)

Spark的Join连接

摘要：Broadcast Join 适合情况，小表和大表，小表非常小，适合传播到各个节点。当大表小表连接时，为了避免Shuffle，我们可以将小表广播到各个节点内存，供大表连接。一定程度上牺牲了空间，避免了Shuffle。这种Join在Spark中称作Broadcast Join。（需要注意的点是广播的阅读全文

posted @ 2020-06-24 15:33 Tanglement 阅读(414) 评论(0) 推荐(0)

《Spark上的等值连接优化》学习笔记

摘要：在知网可以下载。发表于2014年9年。引言在存储数据方面，Spark采取数据块的方式分布式存储在集群的各个节点，不支持传统并行数据仓库中的数据预划分和数据索引。也就是Spark无法干预数据的分布。但是传统并行分析型数据块中，对等值连接操作的优化大多基于数据预划分。（这种情况使得Spark不能通阅读全文

posted @ 2020-06-24 15:09 Tanglement 阅读(297) 评论(0) 推荐(0)

Leet Code 289.生命游戏

摘要：题目 (来自LeetCode) 给定一个包含 m × n 个格子的面板，每一个格子都可以看成是一个细胞。每个细胞都具有一个初始状态：1 即为活细胞（live），或 0 即为死细胞（dead）。每个细胞与其八个相邻位置（水平，垂直，对角线）的细胞都遵循以下四条生存定律：如果活细胞周围八个位置的活细胞阅读全文

posted @ 2020-06-24 10:32 Tanglement 阅读(149) 评论(0) 推荐(0)

集合(Java)

摘要：Java集合简介数组的限制：数组初始化后大小不可取数组只能按索引顺序存取 Java.util.Collection 除Map外的所有其他集合类的根接口。java.util包主要提供三种类型的集合：List、Set、Map List 一种有序列表的的集合，按索引排列 Set一种没有重复元素的集合阅读全文

posted @ 2020-06-24 10:08 Tanglement 阅读(180) 评论(0) 推荐(0)

Leet Code 33.搜索旋转排序数组

摘要：题目假设按照升序排序的数组在预先未知的某个点上进行了旋转。 ( 例如，数组[0,1,2,4,5,6,7]可能变为[4,5,6,7,0,1,2])。搜索一个给定的目标值，如果数组中存在这个目标值，则返回它的索引，否则返回-1。你可以假设数组中不存在重复的元素。你的算法时间复杂度必须是O(log 阅读全文

posted @ 2020-06-23 11:03 Tanglement 阅读(155) 评论(0) 推荐(0)

Java核心类(Java)

摘要：字符串和编码 String是一个引用类型，本身也是一个class String内部是通过一个char[]数组来表示比较字符串时，必须用equals()而不能用== String类还提供了多种方法搜索子串、提取子串 contain() indexOf() startsWith() endsWith( 阅读全文

posted @ 2020-06-23 10:53 Tanglement 阅读(293) 评论(1) 推荐(0)

面向对象基础(Java)

摘要：方法 public、private private 使用 method 来间接赋值 SetNum() GetNum() this.x = x; 传入数组类型 (String[] names) 方法可以让外部代码安全地访问实例字段方法是一组执行语句，并且可以执行任意逻辑方法内部遇到return返回阅读全文

posted @ 2020-06-22 11:07 Tanglement 阅读(167) 评论(0) 推荐(0)

《基于Spark平台的资源调度策略研究现状》学习笔记

摘要：背景集群资源管理，一般有计算资源、存储资源、网络资源。当前调度优化一般有基于数据本地研究与改进、负载均衡和基于作业优先级。基于网络资源调度策略研究现状大数据对网络资源的要求很高。网络资源调度，一般是基于SDN的改进。SDN，软件定义网络。使用一个控制器来使得网络达到负载均衡。对于网络资源的调度阅读全文

posted @ 2020-06-20 13:04 Tanglement 阅读(241) 评论(0) 推荐(0)

Leet Code 240.搜索二维矩阵 Ⅱ

摘要：题目编写一个高效的算法来搜索 m x n 矩阵 matrix 中的一个目标值 target。该矩阵具有以下特性：每行的元素从左到右升序排列每列的元素从上到下升序排列思路暴力就是矩阵都搜过一遍，看有没有目标值，但肯定不是题目本意。通过观察给出的矩阵，可以发现如果从矩阵左上角和右下角出发，当阅读全文

posted @ 2020-06-18 10:53 Tanglement 阅读(189) 评论(0) 推荐(0)

《Spark环境下K-means初始中心点优化研究综述》学习笔记

摘要：通过知网可以查到这篇文章。于2020年3月发表在计算机应用研究。背景 K-means是聚类算法的经典算法。由于运行时，初始聚类中心点和簇数的不确定性，使聚类结果存在很大不稳定性。两个缺点：一是要初始化中心，随机选择，具有不确定性；二是要有几个中心，也具有不确定性。一般对K-means的改进，是中阅读全文

posted @ 2020-06-18 09:47 Tanglement 阅读(460) 评论(0) 推荐(0)

《Spark性能优化技术研究综述》学习笔记

摘要：通过知网下载此篇文章。于2018年7月发表在计算机科学。引言大数据平台的执行环境由于受到底层硬件、体系结构、操作系统、Spark框架本身以及用户编写的应用程序等多层次的综合影响。如果不了解Spark底层复杂的执行机制，就找不到性能瓶颈，也就无法优化。 Spark工作原理（这里只记录自己觉得需阅读全文

posted @ 2020-06-17 15:43 Tanglement 阅读(365) 评论(0) 推荐(0)

《基于Spark的机器学习平台设计与实现》学习笔记

摘要：通过知网可以下载这篇文章。是厦门大学唐振坤的硕士学位论文。背景本文讲述了基于“统计查询模型”和MapReduce，提出了能适用于海量数据的机器学习算法。随后有人开发出了Mahout机器学习算法库。但是由于Spark的内存计算和Spark Streaming对流数据的处理，MapReduce并不是阅读全文

posted @ 2020-06-16 10:46 Tanglement 阅读(654) 评论(0) 推荐(0)

控制结构(Scala)

摘要：控制结构 Scala的控制结构有：if、while、for、try、match和函数调用。 if表达式 if可以作为一个返回值，如下面的代码。同时用val，就像Java的final变量一样，一旦初始化就不会改变。 val filename = if (!args.isEmpty) args(0) e 阅读全文

posted @ 2020-06-15 19:04 Tanglement 阅读(361) 评论(0) 推荐(0)

《基于Spark的大数据访存行为跨层分析工具》学习笔记

摘要：这篇文章可以在知网下载，发表时间2020-06-07。以下是个人对这篇文章的阅读笔记和个人感想。侵删。背景和简介通过摘要和介绍，可以了解到Spark的“统一内存管理”模型共分为4层，自上往下分别是Spark层、JVM层、OS层、Hardware层。目前对Spark的性能优化，只停留在某一层。阅读全文

posted @ 2020-06-15 11:08 Tanglement 阅读(303) 评论(0) 推荐(0)

函数式对象（Scala）

摘要：函数式对象以Rational类为例，以下介绍类参数、构造方法、方法、操作符、私有成员、重写、前置条件检查、重载以及自引用。不可变对象和可变对象的区别不可变对象通常比可变对象更容易推理，没有随着时间变化而变化，没有复杂的状态空间。其次，可以自由传递不可变对象。而对于可变对象，在传递之前，需要做保阅读全文

posted @ 2020-06-14 10:19 Tanglement 阅读(287) 评论(0) 推荐(0)

心脏病预测（SVM模型）

摘要：题目 Solve the heart disease problem Here is a small dataset provided by the Cleveland Clinic Foundation for Heart Disease, which are several hundred ro 阅读全文

posted @ 2020-06-13 17:21 Tanglement 阅读(1967) 评论(0) 推荐(0)

类、对象、基础类型、操作(Scala)

摘要：类和对象在类定义中，有字段filed和方法method，统称为成员member，通过val和var定义字段指定对象的变量。通过def定义方法。（和Python一样）实例一个类后，会指派一些内存来保存对象的状态图。个人理解对通过地址间映射，有一块内存保存值。对字段声明私有。在var、val前加。不阅读全文

posted @ 2020-06-13 11:17 Tanglement 阅读(154) 评论(0) 推荐(0)

Hive中LOCATION参数和EXTERNAL参数的关系

摘要：大家可以参考厦门大学数据库实验室这篇博客虽然说，建立外部表会使用LOCATION指定位置，而建立内部表不使用LOCATION，会默认保存在/hive/warehouse/下，自动生成一个目录，目录名为表名。但是通过一系列对比，我们可以发现，这两个参数之间是没有关系的。我们可以建立外部表，不使用阅读全文

posted @ 2020-06-12 16:56 Tanglement 阅读(1979) 评论(0) 推荐(0)

Scala简介

摘要：学习《Scala编程》（第三版）的学习笔记。一门可伸缩的语言 Scala，源于"scalable language"，可伸缩的语言。从技术上来看，Scala是一门综合了面向对象和函数式编程概念的静态类型的编程语言。很适合编写将Java组件组装在一起的脚本。在Scala中，面向对象的实现是纯的：每阅读全文

posted @ 2020-06-12 16:45 Tanglement 阅读(680) 评论(0) 推荐(0)

Windows安装Scala及解决空指针异常问题

摘要：根据这篇博客安装了scala，但是运行时，报空指针错误。百度到这篇博客，意思是下载scala-2.13.2会有这个问题。于是下载2.11.12版本，成功解决。点击上面链接，下载.msi文件一键安装通过cmd，输入scala启动scala命令行阅读全文

posted @ 2020-06-12 15:45 Tanglement 阅读(404) 评论(0) 推荐(0)

基于信用卡逾期数据的Spark数据处理与分析（Python）

摘要：《大数据处理技术Spark》这门课需要完成对一个数据集进行数据预处理、数据存储、数据处理与分析、数据可视化。也就是一个大数据的基本处理流程。本案例以和鲸社区的信用卡评分模型构建数据为数据集，以Python为编程语言，使用大数据框架Spark对数据进行处理分析，并对分析结果进行可视化。具体内容可参阅读全文

posted @ 2020-06-09 21:04 Tanglement 阅读(1154) 评论(0) 推荐(0)

06 2020 档案

公告