02 2020 档案
摘要:根据[http://dblab.xmu.edu.cn/blog/804 2/]的安装步骤 1. 安装ubuntu18.04 2. 更换国内源,更新apt get 3. 安装shh,配置免密登录 4. 安装Java 5. 安装Hadoop,配置为伪分布式 6. 安装Spark,配置环境变量 最后形成H
阅读全文
摘要:Spark运行架构 基本概念 RDD:分布式内存的抽象概念,高度受限的共享内存模型 DAG:有向无环图,反应RDD的依赖关系 Executot:运行在工作节点的一个进程,负责运行任务,存储数据 任务Task:运行在Executor上的工作单元 作业:一个作业包含多个RDD及作用于相应RDD的操作 阶
阅读全文
摘要:判断一个整数是否是回文数。 题解 普通解法:将整数转为字符串,然后对字符串做判断。 我的解法代码 取出后半段数字进行翻转 每次进行取余操作,取出最低数字 将最低数字加到取出数的末尾 每取一位最低数,x就要/10 判断x是否小于取出数,小于时代表已经对半 如果是偶数,则两者相等,如果是奇数,需要/10
阅读全文
摘要:在Spark中,RDD(弹性分布式数据集)存在依赖关系,宽依赖和窄依赖。 宽依赖和窄依赖的区别是RDD之间是否存在shuffle操作。 窄依赖 窄依赖指父RDD的每一个分区最多被一个子RDD的分区所用,即一个父RDD对应一个子RDD或多个父RDD对应一个子RDD map,filter,union属于
阅读全文
摘要:实现一个atoi函数,使其能将字符串转成整数,根据需要丢弃无用的开头空格字符,直到寻找到第一个非空格的字符为止。当我们寻找到的第一个非空字符为正或负号时,则将该符号与后面尽可能多的连续数字组合起来,作为该整数的正负号。之后可能有多余字符,可以被忽略。不能有效转换,返回0. 题解 没有什么优解,只能根
阅读全文
摘要:简介和安装 HBase来源 列式数据库的优势 HBase的意义 HBase的安装、配置文件 客户端API:基础知识 基础操作Put Get Delete Scan Scan与Get的区别,一批记录和一条记录 Result类和ResultScanner类 行锁 较少RPC 远程程序调用,减少网络开销
阅读全文
摘要:Map public static class MyMapper extends Mapper 继承Mapper类 其中的含义如下: LongWritable为map函数的输入键,行首偏移量 Text为map函数的输入值,每行的内容 Text为输出类型,根据业务来定义 IntWritable为输出值
阅读全文
摘要:引自[https://blog.csdn.net/weixin_43192721/article/details/88420401] 1. 删除效果不一样 内部表:删除元数据和文件 外部表:删除元数据,不删除文件 所以ETL时,用内部表作为中间结果好一点 2. 内部表由hive管理,外部表由hdfs
阅读全文
摘要:引自[https://www.iteye.com/blog/langyu 992916] shuffle的意义有三点: 1.把map task端的数据完整传输到reduce task端 2.减少不必要的宽带消耗 3.减少磁盘IO消耗 首先把Shuffle理解为map的shuffle和reduce的s
阅读全文
摘要:给出一个32位的有符号整数,你需要将这个整数中每位上的数字进行反转。 题解 简单题。每次把数x的个位数分离出来,用新的数y加起来。有堆栈的思想。 题目的难点在于不能溢出一个范围 所以解题过程中,需要有判断条件 我的解法代码
阅读全文
摘要:将一个给定字符串根据给定的行数,以从上往下、从左到右进行Z字形排列。 比如输入字符串"LEETCODEISHIRING"行数为3时,排列如下: 之后,你的输出需要从左往右逐行读取,产生一个新的字符串,比如"LCIRETOESIIGEDHN" 题解 这个思想很奇妙,时间复杂度和空间复杂度都是O(n),
阅读全文
摘要:给定一个字符串s,找到s中最长的回文子串。你可以假设s的最大长度为1000. 这题是很经典的题目,找到最长回文子串,回文就是bab,cabac这样的。 题解 解法一 暴力法,列举所有的子串,判断是否为回文串,很明显时间复杂度为O(n^2)。 解法二 将原字符串s倒置s',然后寻找最长回文串就变成寻找
阅读全文
摘要:给定两个大小为m和n的有序数组nums1和nums2。请你找出这两个有序数组的中位数,并且要求算法的时间复杂度为O(log(m+n))。 你可以假设nums1和nums2不会同时为空。 题解 解法一 暴力法,即从头到尾找到合并数组的中位数。时间复杂度O(m+n) 解法二 看到log,要自然想到二分法
阅读全文
摘要:给定一个字符串,请你找出其中不含有重复字符的最长子串的长度。 题解 提交代码 public static int lengthOfLongestSubstring(String s) { int n = s.length(), ans = 0; Map map = new HashMap(); fo
阅读全文
摘要:链接分析算法 PageRank算法 PageRank算法是一种静态的网页评级方法,每一个网页都有一个PageRank值,作为网页排序的依据。 PageRank值的影响因素 数量因素:如果一个页面节点接收到的入链数量越多,这个页面越重要 质量因素:指向页面A的入链质量不同,越是质量高的页面指向页面A,
阅读全文
浙公网安备 33010602011771号