随笔分类 - 爬虫
摘要:目的:使用selenium + Chrome爬取某网站指定类型的乌云公开漏洞文章,即在win10终端输入漏洞类型(如未授权),则爬取所有该类型的漏洞文章,并把每个分页的数字作为文件夹名,来保存该分页下面的所有的漏洞文章。 总结:本例只是能简单的爬取某一类型漏洞的所有文章,但不能爬取多个类型漏洞的所有
阅读全文
摘要:1. 创建爬虫项目douban 2. 设置items.py文件,存储要保存的数据类型和字段名称 3. 设置爬虫文件doubanmovies.py coding: utf 8 import scrapy from douban.items import DoubanItem class Doubanm
阅读全文
摘要:鼎鼎大名的乌云网站,仅存在6年左右,就停摆,真是可惜。。。 从某网站爬取所有公开的乌云漏洞文章,保存为pdf格式,以作纪念学习使用 首先创建一个文件夹wooyun,把下面代码保存为test.py,然后放在该文件夹 测试效果如下
阅读全文
摘要:目的:爬取 "阳光热线问政平台问题反映" 每个帖子里面的标题、内容、编号和帖子url CrawlSpider版流程如下: 1. 创建爬虫项目dongguang 2. 设置items.py文件 3. 在spiders目录里面,创建并编写爬虫文件sun.py 4. 编写管道pipelines.py文件
阅读全文
摘要:目的:通过fiddler在电脑上对手机版 "斗鱼主播" 进行抓包,爬取所有主播的昵称和图片链接 关于使用fiddler抓取手机包的设置: 把手机和装有fiddler的电脑处在同一个网段(同一个wifi),手机连接好wifi后,点击手机wifi的连接,把代理改为手动,主机地址设置为fiddler所在的
阅读全文
摘要:目的:使用selenium + chrome爬取 "中国大学Mooc网" 计算机学科的所有的课程链接列表 思路:找到每个分页的节点属性为class=”m course list” 的div元素,再找到该元素下面的类属性为class = “u clist f bg f cb f pr j href g
阅读全文
摘要:目的:把 "腾讯社招" 的每个分页的职位名称及链接、类型、人数、工作地点、发布日期爬取下来,然后存储到json文件里面 思路: 1. 新建爬虫项目 2. 在items.py文件里面设置存储的字段名称及类型 3. 在spiders文件夹里面设置爬虫文件 4. 设置管道文件 5. 设置settings.
阅读全文
摘要:目的:获取 "腾讯社招" 这个页面的职位名称及超链接 职位类别 人数 地点和发布时间 要求:使用bs4进行解析,并把结果以json文件形式存储 注意:如果直接把python列表没有序列化为json数组,写入到json文件,会产生中文写不进去到文件,所以要序列化并进行utf 8编码后写入文件。
阅读全文
摘要:目的:在百度贴吧输入关键字和要查找的起始结束页,获取帖子里面楼主所发的图片 思路: 1. 获取分页里面的帖子链接列表 2. 获取帖子里面楼主所发的图片链接列表 3. 保存图片到本地 注意事项: 问题:在谷歌浏览器使用xpath helper插件时有匹配结果,但在程序里面使用python内带的xpat
阅读全文
摘要:对 "内涵8的内涵段子" 爬取每个分页上面显示的描述信息,按回车键继续对下一页进行爬取,输入quit退出爬取。 思路: 1. 爬取每个页面的源码 2. 对源码进行处理(使用正则),获取指定信息 3. 保存信息 源码如下: 代码测试:
阅读全文
摘要:爬虫的核心思想:模拟浏览器正常访问服务器,一般情况只要浏览器能访问的,都可以爬,如果被反爬,则考虑反复测试添加Request Header数据,知道可以爬取为止。 反爬思路目前知道的有:User Agent,Cookie,Referer,访问速度,验证码,用户登录及前端js代码验证等。本例遇到js验
阅读全文
摘要:一 Fiddler的安装和配置 打开工具Fiddler,在Tools选项里面点击options 配置完后,重启Fiddler 二 谷歌浏览器插件SwitchyOmega的安装使用 SwitchyOmega的github下载地址:https://github.com/FelisCatus/Switch
阅读全文