上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 41 下一页
摘要: 步骤如下:1.首先导入爬虫的package:requests 2.使用UA 伪装进行反反爬虫,将爬虫伪装成一个浏览器进行上网 3.通过寻找,找到到谷歌搜索时请求的url。 假设我们在谷歌浏览器当中输入:不知道 我们可以得到请求结果的网址如下: 也就是: https://www.google.com/ 阅读全文
posted @ 2021-01-11 13:44 Geeksongs 阅读(2106) 评论(0) 推荐(0) 编辑
摘要: 一.MapReduce流程介绍 假设我们有一个任务:用于统计一个文件当中一个单词出现的总次数,查询结果保存到两个文件里,一个装载a-p单词出现的次数,一个文件装载q-z单词出现的个数。下面是这个任务使用mapreduce实现的具体流程: MapReduce当中需要注意的是: 1.一个MapReduc 阅读全文
posted @ 2021-01-11 11:32 Geeksongs 阅读(266) 评论(0) 推荐(0) 编辑
摘要: 一.HDFS的写(上传)操作 所谓的写操作,那么就是将client的文件(可能是本地)写入到HDFS当中。 写操作的流程如图所示: 过程概述: 1.我们有一个大小为200mb的文件,在逻辑上将其分为两个block,并不是在实际当中进行分割(这里不知道为什么分为了128mb和72mb两个block,因 阅读全文
posted @ 2021-01-05 13:36 Geeksongs 阅读(349) 评论(0) 推荐(0) 编辑
摘要: 一.程序的架构 一般来讲我们可以使用命令行在linux下对HDFS进行操作,那么我们也可以使用Java对HDFS进行操作,因为一旦使用了Java,我们可以编写Java程序定时对HDFS进行操作,这样就会更加的自动,也就不需要人为在linux下输入这些命令了。这里我使用了Junit的Java单元测试对 阅读全文
posted @ 2021-01-05 11:20 Geeksongs 阅读(291) 评论(0) 推荐(0) 编辑
摘要: 笔者鼓弄了两个星期,终于把所有有关hadoop的环境配置好了,一是虚拟机上的完全分布式集群,但是为了平时写代码的方便,则在windows上也配置了hadoop的伪分布式集群,同时在IDEA上就可以编写代码,同时在windows环境下进行运行。(如果不配置windows下的伪分布式集群,则在IDEA上 阅读全文
posted @ 2020-12-29 09:20 Geeksongs 阅读(4698) 评论(0) 推荐(1) 编辑
摘要: 默认安装路径是: /usr/lib/jvm 阅读全文
posted @ 2020-12-21 08:58 Geeksongs 阅读(677) 评论(0) 推荐(0) 编辑
摘要: 一.定义 HDFS(Hadoop Distributed File System):它是一个文件系统,用于储存文件,通过目录树来定位文件。同时,它是分布式的,由很多服务器联系起来实现其功能,集群的服务器有各自的角色。 HDFS的使用场景:适合一次写入,多次读入的场景,且不支持文件的修改。适合用来做数 阅读全文
posted @ 2020-12-15 08:06 Geeksongs 阅读(176) 评论(0) 推荐(0) 编辑
摘要: 1.启动NameNode: hadoop-daemon.sh start namenode 2.启动DataNode: hadoop-daemon.sh start datanode 3.启动Secondary DataNode: hadoop-daemon.sh start secondaryda 阅读全文
posted @ 2020-12-14 20:31 Geeksongs 阅读(223) 评论(0) 推荐(0) 编辑
摘要: 出现的错误如下: hadoop@mike-VirtualBox:/usr/local/hadoop/hadoop$ ./sbin/start-dfs.sh 20/12/14 20:15:06 WARN util.NativeCodeLoader: Unable to load native-hado 阅读全文
posted @ 2020-12-14 19:11 Geeksongs 阅读(1223) 评论(0) 推荐(0) 编辑
摘要: 当需要进行两次循环嵌套时,我们常常使用双指针法,直接将时间复杂度O(n^2)降低到O(n), 这个是做题时候的一个技巧,一看到两个循环,就需要想到双指针! 写下记录一下,以免之后做题的时候忘记了 阅读全文
posted @ 2020-12-13 20:23 Geeksongs 阅读(40) 评论(0) 推荐(0) 编辑
上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 41 下一页

Coded by Geeksongs on Linux

All rights reserved, no one is allowed to pirate or use the document for other purposes.