上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 41 下一页
摘要: 我们首先打开58同城的网站:观察网站的版面: 发现所有的title都是以h3开头,并且具有class为“ property-content-title-name ” 因此我们可以编写这样的程序即可得到整个版面的title,在程序当中使用Xpath表达式即可,使用起来非常方便: import requ 阅读全文
posted @ 2021-01-29 11:40 Geeksongs 阅读(1227) 评论(0) 推荐(0) 编辑
摘要: 假设我爬取了这样的一个html网页,前面的前端代码如下所示: <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>OK资源采集-最新影视资源大全</title> <meta http-equiv="Content-Type" conte 阅读全文
posted @ 2021-01-29 09:31 Geeksongs 阅读(766) 评论(0) 推荐(0) 编辑
摘要: 一.序列化简介 什么是序列化呢? 序列化:对象———》字节序列 反序列化:字节序列——》对象 备注:对象在内存(RAM)当中 字节序列:可以在磁盘(ROM)当中,也可以在网络当中进行传输 序列化的根本缘故:将对象从RAM里的数据 转化成ROM里的数据 二.序列化案例 我们这里将要编写的序列化的程序的 阅读全文
posted @ 2021-01-19 11:15 Geeksongs 阅读(260) 评论(0) 推荐(0) 编辑
摘要: 一.确定爬取思路 今天突发奇想,能不能使用python爬虫来爬取一些妹子图片呢,于是摩拳擦掌开始干了起来。首先打开网页htttps://gank.io 当中的妹子专栏, 发现里面全是妹子,如下所示: 网址如下所示: https://gank.io/special/Girl 翻到最下面发现按钮,一共有 阅读全文
posted @ 2021-01-16 14:12 Geeksongs 阅读(2198) 评论(2) 推荐(0) 编辑
摘要: 一.实现案例 实现WorldCount的流程如下: 备注:其中输入的数据是一个txt文件,里面有各种单词,每一行中用空格进行空行 一.Mapper的编写 我们在IDEA是使用“ctrl+alt+鼠标左键点击”的方式来查看源码,我们首先查看mapper 类的源码,同时源码我已经使用了,如下所示: // 阅读全文
posted @ 2021-01-15 13:27 Geeksongs 阅读(353) 评论(0) 推荐(0) 编辑
摘要: 步骤如下:1.首先导入爬虫的package:requests 2.使用UA 伪装进行反反爬虫,将爬虫伪装成一个浏览器进行上网 3.通过寻找,找到到谷歌搜索时请求的url。 假设我们在谷歌浏览器当中输入:不知道 我们可以得到请求结果的网址如下: 也就是: https://www.google.com/ 阅读全文
posted @ 2021-01-11 13:44 Geeksongs 阅读(4112) 评论(0) 推荐(0) 编辑
摘要: 一.MapReduce流程介绍 假设我们有一个任务:用于统计一个文件当中一个单词出现的总次数,查询结果保存到两个文件里,一个装载a-p单词出现的次数,一个文件装载q-z单词出现的个数。下面是这个任务使用mapreduce实现的具体流程: MapReduce当中需要注意的是: 1.一个MapReduc 阅读全文
posted @ 2021-01-11 11:32 Geeksongs 阅读(464) 评论(0) 推荐(0) 编辑
摘要: 一.HDFS的写(上传)操作 所谓的写操作,那么就是将client的文件(可能是本地)写入到HDFS当中。 写操作的流程如图所示: 过程概述: 1.我们有一个大小为200mb的文件,在逻辑上将其分为两个block,并不是在实际当中进行分割(这里不知道为什么分为了128mb和72mb两个block,因 阅读全文
posted @ 2021-01-05 13:36 Geeksongs 阅读(532) 评论(0) 推荐(0) 编辑
摘要: 一.程序的架构 一般来讲我们可以使用命令行在linux下对HDFS进行操作,那么我们也可以使用Java对HDFS进行操作,因为一旦使用了Java,我们可以编写Java程序定时对HDFS进行操作,这样就会更加的自动,也就不需要人为在linux下输入这些命令了。这里我使用了Junit的Java单元测试对 阅读全文
posted @ 2021-01-05 11:20 Geeksongs 阅读(460) 评论(0) 推荐(0) 编辑
摘要: 笔者鼓弄了两个星期,终于把所有有关hadoop的环境配置好了,一是虚拟机上的完全分布式集群,但是为了平时写代码的方便,则在windows上也配置了hadoop的伪分布式集群,同时在IDEA上就可以编写代码,同时在windows环境下进行运行。(如果不配置windows下的伪分布式集群,则在IDEA上 阅读全文
posted @ 2020-12-29 09:20 Geeksongs 阅读(7504) 评论(0) 推荐(3) 编辑
上一页 1 ··· 6 7 8 9 10 11 12 13 14 ··· 41 下一页

Coded by Geeksongs on Linux

All rights reserved, no one is allowed to pirate or use the document for other purposes.