05 2020 档案

摘要:排序是MapReduce框架中重要的操作之一,其中MapTask和ReduceTask都会对数据按照key进行排序,这是Hadoop默认进行的操作。任何应用程序中的数据均会被排序,而不管逻辑上是否需要。一个MapReduce程序涉及了多种排序,而且相同类型的排序可能还进行了多次。其中,我们也可以自行 阅读全文
posted @ 2020-05-30 17:42 有心有梦 阅读(407) 评论(0) 推荐(0)
摘要:分区是MapReduce框架的Map阶段进行数据处理之后,将数据写出时需要进行的一项操作,分区的数量决定了ReduceTask的数量,也决定了最终的输出文件有多少个。其中,Hadoop是有默认的分区方法的,即HashPartitioner类是默认的分区类,该类的源码如下: public class 阅读全文
posted @ 2020-05-30 16:23 有心有梦 阅读(468) 评论(0) 推荐(0)
摘要:我们曾在《计算机组成原理》这门课中学习过进制转换的相关知识,在这之前,我们应该首先了解一下原码、反码和补码。根据我们以前在《计算机组成原理》学到的知识,我们知道对于正数和负数,他们的原码、反码、补码是不一样的。 一、原码、反码、补码 对于正数而言,原码、反码、补码都是一样的,其中最高位表示符号位,因 阅读全文
posted @ 2020-05-28 22:11 有心有梦 阅读(3204) 评论(1) 推荐(1)
摘要:今天在PyCharm中导入了一个OpenCV的项目,由于刚开始提示没有安装imutils这个模块,然后就在对应的虚拟环境中安装了这个模块,但是当我在Pycharm中配置好运行参数,点击运行的时候,却报错了: RunTimeError:implement_array_function method a 阅读全文
posted @ 2020-05-28 10:01 有心有梦 阅读(1912) 评论(0) 推荐(0)
摘要:题目: 给定一个整数,将其转化为7进制,并以字符串形式输出。 分析: 核心就是十进制转换为七进制,做法就是利用/和%这两个运算符,%为了计算当前进制位应该表示为几(从右向左),/是为了从左向右计算在当前的进制位下是否应该继续向左延申,即如果在截止到当前进制位表达不够输入的十进制数, 那就要向左延申进 阅读全文
posted @ 2020-05-26 23:10 有心有梦 阅读(352) 评论(0) 推荐(0)
摘要:最大公约数,也称最大公因数、最大公因子,指两个或多个整数共有约数中最大的一个。解法有很多,现在来总结一下: 1、穷举法 这是暴力的方法,即选择两个数中较小的一个作为遍历的范围大小。然后从1开始遍历,判断同时满足是两个数的因子的数有哪些,然后求出最大值即可。 2、更相减损法 这个思想起源于我国古代的《 阅读全文
posted @ 2020-05-26 22:14 有心有梦 阅读(4055) 评论(0) 推荐(0)
摘要:孤独地待了四个多月,内心也是经历了各种过程,有暴躁、有失落、也有迷茫,总之这几个月绝对是我人生中从未有过的,当然也可能是大多数人未有过的。期望的研究生生活就这样要过去三分之一了,这在一年前我怎么也不会想过如今会有这样的经历。回想这一年时间,内心不由得怀念我本科时一起生活了四年的同学、室友、兄弟。为什 阅读全文
posted @ 2020-05-25 23:11 有心有梦 阅读(234) 评论(0) 推荐(1)
摘要:埃拉托斯特尼筛法,简称埃氏筛或爱氏筛,是一种由希腊数学家埃拉托斯特尼所提出的一种简单检定素数的算法。要得到自然数n以内的全部素数,必须把不大于根号n的所有素数的倍数剔除,剩下的就是素数。 援引自百度百科 算法思想:要得到自然数n以内的全部素数,必须把不大于的所有素数的倍数剔除,剩下的就是素数。 给出 阅读全文
posted @ 2020-05-25 22:37 有心有梦 阅读(1767) 评论(0) 推荐(0)
摘要:题目: 给定一个包含红色、白色和蓝色,一共 n 个元素的数组,原地对它们进行排序,使得相同颜色的元素相邻,并按照红色、白色、蓝色顺序排列。此题中,我们使用整数 0、 1 和 2 分别表示红色、白色和蓝色。 注意: 不能使用代码库中的排序函数来解决这道题。 第一种分析: 考虑使用桶排序,因为只有红白蓝 阅读全文
posted @ 2020-05-25 21:15 有心有梦 阅读(309) 评论(0) 推荐(0)
摘要:桶排序是对整数进行排序的高效算法,在进行桶排序的时候我们需要先确定key,即key代表得含义,以及key的取值范围,key的取值范围决定了桶的数量。假设键值的范围是从0到t,那么需要t+1个桶,标记分别为0、1、……、t 。如果元素的键值是i,那么就将该元素放入桶i中,每个桶放的都是键值相同的元素。 阅读全文
posted @ 2020-05-24 22:04 有心有梦 阅读(1041) 评论(0) 推荐(0)
摘要:1、堆的概念 堆排序依赖的数据结构是完全二叉树,要想是完全二叉树,前提必须是二叉树(废话),二叉树就要求父亲结点至多有两个孩子,即可以有一个、两个或者没有孩子。 完全二叉树则是在二叉树的基础上多了一些限制条件,那就是: 1、要么二叉树的每一层都是满的,即除叶子结点之外,其他结点都必须拥有左右孩子; 阅读全文
posted @ 2020-05-24 20:00 有心有梦 阅读(295) 评论(0) 推荐(0)
摘要:除了上一篇提到的通过在客户端调用封装好的API可以直接堆HDFS进行读写操作,那如果想要自己实现上述的API操作也是可以的,就是通过I/O流的方式实现对HDFS的读和写,其中涉及的几个类有: org.apache.hadoop.fs.FSDataOutputStream org.apache.had 阅读全文
posted @ 2020-05-24 17:49 有心有梦 阅读(263) 评论(0) 推荐(0)
摘要:org.apache.hadoop.fs.FileSystem是Hadoop中一个相当通用的文件系统的抽象基类,它是一个面向最终用户的接口类。应该将所有可能使用Hadoop分布式文件系统的用户代码编写为使用一个FileSystem对象。Hadoop DFS是一种多机系统,显示为单个磁盘,由于其容错能 阅读全文
posted @ 2020-05-23 17:39 有心有梦 阅读(232) 评论(0) 推荐(0)
摘要:hdfs-site.xml是HDFS的配置文件,其中包含了各种对HDFS集群的设置参数,比如集群中存储文件副本的数量,namenode辅助节点的地址等。对于hdfs-site.xml中的属性值,我们可以在不同的地方进行设置, 第一种是通过HDFS客户端代码进行对属性值进行设置,这是优先级最高的方式; 阅读全文
posted @ 2020-05-21 17:13 有心有梦 阅读(1284) 评论(0) 推荐(0)
摘要:通过反序列化生成对象的过程主要由以下几个步骤: 1、创建一个对象输入流,它可以包装一个其他类型的源输入流,如文件输入流; 2、 通过对象输入流的readObject()方法读取对象。 其中正是readObject方法返回了一个对象,这个对象就是根据序列化生成的文件而创建的对象,所以反序列化如何创建对 阅读全文
posted @ 2020-05-19 23:18 有心有梦 阅读(2774) 评论(0) 推荐(0)
摘要:在Windows10下安装Anaconda后,想要创建一个专门供pytorch使用的虚拟环境,但是创建的时候发现无法正常创建,报错了: “CondaHTTPError: HTTP 000 CONNECTION FAILED for url......” 一看就知道是因为网络原因,所以就修改源呗,找了 阅读全文
posted @ 2020-05-19 11:12 有心有梦 阅读(1979) 评论(0) 推荐(0)
摘要:记录一下常用的HDFS的Shell操作命令,它们基本上与Linux命令相同,只不过使用的时候书写需要多点格式。 一定要先给hadoop添加了环境变量,才能像我下面这样在每个命令前面写上“hadoop fs”,当然也可以使用“hdfs dfs”作为前缀,但是使用这个前缀的时候必须在hadoop的根据录 阅读全文
posted @ 2020-05-18 19:06 有心有梦 阅读(486) 评论(0) 推荐(0)
摘要:想要搭建一个能够互相通信的集群并且能够避免每次IP的动态变化对我们的集群造成不必要的影响,给我们的集群分配固定的IP是十分必要的,而且为了方便,我们选择NAT网络模式,在这种模式下,外部机器访问不了我们内部的某个虚拟机,但是我们内部的虚拟机可以访问外部的IP。 前提条件: 1.你电脑的CPU开启了对 阅读全文
posted @ 2020-05-17 16:17 有心有梦 阅读(180) 评论(0) 推荐(0)
摘要:1、想要在IDEA上配置自己独立安装的maven时,可能会产生IDEA和maven版本不兼容的问题。 我的IDEA是2018社区版的,最开始使用的maven是3.6.3,配置完成之后,发现无法正常启动maven项目, 报出了如下的错误: unable to import maven project 阅读全文
posted @ 2020-05-11 20:38 有心有梦 阅读(279) 评论(0) 推荐(0)
摘要:今天在看《Java编程思想》中关于容器的那一章,其中提到了如何使用Arrays.asList向Collection中添加一组元素,Arrays是位于java.util包中的一个工具类,这个工具类主要包含了各种操作数组的方法,而asList方法是用来将一个数组或者一个用逗号分隔的元素列表(使用的可变参 阅读全文
posted @ 2020-05-08 10:24 有心有梦 阅读(261) 评论(0) 推荐(0)
摘要:1、交易次数限制为一次的情况: 题目: 给定一个数组,它的第 i 个元素是一支给定股票第 i 天的价格。 如果你最多只允许完成一笔交易(即买入和卖出一支股票一次),设计一个算法来计算你所能获取的最大利润。 注意:你不能在买入股票前卖出股票 分析: 由于交易的次数被限制为一次,所以我们要找的就是在这几 阅读全文
posted @ 2020-05-06 17:53 有心有梦 阅读(1122) 评论(0) 推荐(0)
摘要:1.将下载的hadoop的jar包解压到自己想要存放的目录下,然后再hadoop的根目录下复制它的完整路径 2.配置环境变量,创建一个系统变量“HADOOP_HOME”,变量值就是hadoop的路径 3.将这个变量添加到Path变量中: 4.保存后退出 5.打开cmd命令行窗口,输出命令“hadoo 阅读全文
posted @ 2020-05-06 12:12 有心有梦 阅读(687) 评论(0) 推荐(0)