爬虫 - 随笔分类 - silence-cc

使用selenium + Chrome爬取某网站乌云公开漏洞文章并保存为pdf文件

摘要：目的：使用selenium + Chrome爬取某网站指定类型的乌云公开漏洞文章，即在win10终端输入漏洞类型（如未授权），则爬取所有该类型的漏洞文章，并把每个分页的数字作为文件夹名，来保存该分页下面的所有的漏洞文章。总结：本例只是能简单的爬取某一类型漏洞的所有文章，但不能爬取多个类型漏洞的所有阅读全文

posted @ 2018-08-12 15:50 silence-cc 阅读(2471) 评论(0) 推荐(0)

使用mongodb保存爬取豆瓣电影的数据

摘要：1. 创建爬虫项目douban 2. 设置items.py文件，存储要保存的数据类型和字段名称 3. 设置爬虫文件doubanmovies.py coding: utf 8 import scrapy from douban.items import DoubanItem class Doubanm 阅读全文

posted @ 2018-07-31 23:43 silence-cc 阅读(743) 评论(0) 推荐(0)

爬取某网站所有的乌云漏洞公共文章，并保存为pdf文件

摘要：鼎鼎大名的乌云网站，仅存在6年左右，就停摆，真是可惜。。。从某网站爬取所有公开的乌云漏洞文章，保存为pdf格式，以作纪念学习使用首先创建一个文件夹wooyun，把下面代码保存为test.py，然后放在该文件夹测试效果如下阅读全文

posted @ 2018-07-31 23:35 silence-cc 阅读(565) 评论(0) 推荐(0)

使用scrapy爬取阳光热线问政平台

摘要：目的：爬取 "阳光热线问政平台问题反映" 每个帖子里面的标题、内容、编号和帖子url CrawlSpider版流程如下： 1. 创建爬虫项目dongguang 2. 设置items.py文件 3. 在spiders目录里面，创建并编写爬虫文件sun.py 4. 编写管道pipelines.py文件阅读全文

posted @ 2018-07-20 14:46 silence-cc 阅读(465) 评论(0) 推荐(0)

使用scrapy爬取手机版斗鱼主播的房间图片及昵称

摘要：目的：通过fiddler在电脑上对手机版 "斗鱼主播" 进行抓包，爬取所有主播的昵称和图片链接关于使用fiddler抓取手机包的设置：把手机和装有fiddler的电脑处在同一个网段（同一个wifi），手机连接好wifi后，点击手机wifi的连接，把代理改为手动，主机地址设置为fiddler所在的阅读全文

posted @ 2018-07-16 18:18 silence-cc 阅读(328) 评论(0) 推荐(0)

使用selenium + chrome爬取中国大学Mooc网的计算机学科的所有课程链接

摘要：目的：使用selenium + chrome爬取 "中国大学Mooc网" 计算机学科的所有的课程链接列表思路：找到每个分页的节点属性为class=”m course list” 的div元素，再找到该元素下面的类属性为class = “u clist f bg f cb f pr j href g 阅读全文

posted @ 2018-07-12 18:18 silence-cc 阅读(1072) 评论(0) 推荐(0)

使用scrapy爬取腾讯社招，获取所有分页的职位名称及chaolia、类型、人数、工作地点、发布日期超链接

摘要：目的：把 "腾讯社招" 的每个分页的职位名称及链接、类型、人数、工作地点、发布日期爬取下来，然后存储到json文件里面思路： 1. 新建爬虫项目 2. 在items.py文件里面设置存储的字段名称及类型 3. 在spiders文件夹里面设置爬虫文件 4. 设置管道文件 5. 设置settings. 阅读全文

posted @ 2018-07-11 19:04 silence-cc 阅读(761) 评论(0) 推荐(0)

python2使用bs4爬取腾讯社招

摘要：目的：获取 "腾讯社招" 这个页面的职位名称及超链接职位类别人数地点和发布时间要求：使用bs4进行解析，并把结果以json文件形式存储注意：如果直接把python列表没有序列化为json数组，写入到json文件，会产生中文写不进去到文件，所以要序列化并进行utf 8编码后写入文件。阅读全文

posted @ 2018-07-11 18:50 silence-cc 阅读(574) 评论(0) 推荐(0)

使用python2爬取百度贴吧指定关键字和分页帖子楼主所发的图片

摘要：目的：在百度贴吧输入关键字和要查找的起始结束页，获取帖子里面楼主所发的图片思路： 1. 获取分页里面的帖子链接列表 2. 获取帖子里面楼主所发的图片链接列表 3. 保存图片到本地注意事项：问题：在谷歌浏览器使用xpath helper插件时有匹配结果，但在程序里面使用python内带的xpat 阅读全文

posted @ 2018-06-27 11:14 silence-cc 阅读(300) 评论(0) 推荐(0)

使用urllib2简单爬取并保存内涵吧内涵段子指定分页的的描述信息

摘要：对 "内涵8的内涵段子" 爬取每个分页上面显示的描述信息，按回车键继续对下一页进行爬取，输入quit退出爬取。思路： 1. 爬取每个页面的源码 2. 对源码进行处理（使用正则），获取指定信息 3. 保存信息源码如下：代码测试：阅读全文

posted @ 2018-06-22 16:08 silence-cc 阅读(189) 评论(0) 推荐(0)

使用python2爬取有道翻译

摘要：爬虫的核心思想：模拟浏览器正常访问服务器，一般情况只要浏览器能访问的，都可以爬，如果被反爬，则考虑反复测试添加Request Header数据，知道可以爬取为止。反爬思路目前知道的有：User Agent，Cookie，Referer，访问速度，验证码，用户登录及前端js代码验证等。本例遇到js验阅读全文

posted @ 2018-06-17 17:49 silence-cc 阅读(368) 评论(1) 推荐(0)

抓包工具Fiddler的下载、安装及对谷歌浏览器进行抓包使用

摘要：一 Fiddler的安装和配置打开工具Fiddler，在Tools选项里面点击options 配置完后，重启Fiddler 二谷歌浏览器插件SwitchyOmega的安装使用 SwitchyOmega的github下载地址：https://github.com/FelisCatus/Switch 阅读全文

posted @ 2018-06-14 20:16 silence-cc 阅读(734) 评论(0) 推荐(0)

silence-cc

现在的努力决定你未来站立的高度,所立之处决定你看到什么样的风景

随笔分类 - 爬虫

公告