silence-cc

2018年11月23日

摘要：转载自廖飞的博客在第5部分讲到，构建一个tornado网站，必须包含一个或者多个handler，这些handler是RequestHandler的子类。每个请求都会被映射到handler中进行处理，处理后再将结果返回给客户端阅读全文

posted @ 2018-11-23 22:20 silence-cc 阅读(2055) 评论(1) 推荐(0)

2018年8月12日

使用selenium + Chrome爬取某网站乌云公开漏洞文章并保存为pdf文件

摘要：目的：使用selenium + Chrome爬取某网站指定类型的乌云公开漏洞文章，即在win10终端输入漏洞类型（如未授权），则爬取所有该类型的漏洞文章，并把每个分页的数字作为文件夹名，来保存该分页下面的所有的漏洞文章。总结：本例只是能简单的爬取某一类型漏洞的所有文章，但不能爬取多个类型漏洞的所有阅读全文

posted @ 2018-08-12 15:50 silence-cc 阅读(2478) 评论(0) 推荐(0)

2018年7月31日

使用mongodb保存爬取豆瓣电影的数据

摘要： 1. 创建爬虫项目douban 2. 设置items.py文件，存储要保存的数据类型和字段名称 3. 设置爬虫文件doubanmovies.py coding: utf 8 import scrapy from douban.items import DoubanItem class Doubanm 阅读全文

posted @ 2018-07-31 23:43 silence-cc 阅读(746) 评论(0) 推荐(0)

爬取某网站所有的乌云漏洞公共文章，并保存为pdf文件

摘要：鼎鼎大名的乌云网站，仅存在6年左右，就停摆，真是可惜。。。从某网站爬取所有公开的乌云漏洞文章，保存为pdf格式，以作纪念学习使用首先创建一个文件夹wooyun，把下面代码保存为test.py，然后放在该文件夹测试效果如下阅读全文

posted @ 2018-07-31 23:35 silence-cc 阅读(570) 评论(0) 推荐(0)

2018年7月20日

使用scrapy爬取阳光热线问政平台

摘要：目的：爬取 "阳光热线问政平台问题反映" 每个帖子里面的标题、内容、编号和帖子url CrawlSpider版流程如下： 1. 创建爬虫项目dongguang 2. 设置items.py文件 3. 在spiders目录里面，创建并编写爬虫文件sun.py 4. 编写管道pipelines.py文件阅读全文

posted @ 2018-07-20 14:46 silence-cc 阅读(466) 评论(0) 推荐(0)

2018年7月16日

使用scrapy爬取手机版斗鱼主播的房间图片及昵称

摘要：目的：通过fiddler在电脑上对手机版 "斗鱼主播" 进行抓包，爬取所有主播的昵称和图片链接关于使用fiddler抓取手机包的设置：把手机和装有fiddler的电脑处在同一个网段（同一个wifi），手机连接好wifi后，点击手机wifi的连接，把代理改为手动，主机地址设置为fiddler所在的阅读全文

posted @ 2018-07-16 18:18 silence-cc 阅读(332) 评论(0) 推荐(0)

2018年7月12日

使用selenium + chrome爬取中国大学Mooc网的计算机学科的所有课程链接

摘要：目的：使用selenium + chrome爬取 "中国大学Mooc网" 计算机学科的所有的课程链接列表思路：找到每个分页的节点属性为class=”m course list” 的div元素，再找到该元素下面的类属性为class = “u clist f bg f cb f pr j href g 阅读全文

posted @ 2018-07-12 18:18 silence-cc 阅读(1082) 评论(0) 推荐(0)

2018年7月11日

使用scrapy爬取腾讯社招，获取所有分页的职位名称及chaolia、类型、人数、工作地点、发布日期超链接

摘要：目的：把 "腾讯社招" 的每个分页的职位名称及链接、类型、人数、工作地点、发布日期爬取下来，然后存储到json文件里面思路： 1. 新建爬虫项目 2. 在items.py文件里面设置存储的字段名称及类型 3. 在spiders文件夹里面设置爬虫文件 4. 设置管道文件 5. 设置settings. 阅读全文

posted @ 2018-07-11 19:04 silence-cc 阅读(762) 评论(0) 推荐(0)

python2使用bs4爬取腾讯社招

摘要：目的：获取 "腾讯社招" 这个页面的职位名称及超链接职位类别人数地点和发布时间要求：使用bs4进行解析，并把结果以json文件形式存储注意：如果直接把python列表没有序列化为json数组，写入到json文件，会产生中文写不进去到文件，所以要序列化并进行utf 8编码后写入文件。阅读全文

posted @ 2018-07-11 18:50 silence-cc 阅读(579) 评论(0) 推荐(0)

2018年6月27日

使用python2爬取百度贴吧指定关键字和分页帖子楼主所发的图片

摘要：目的：在百度贴吧输入关键字和要查找的起始结束页，获取帖子里面楼主所发的图片思路： 1. 获取分页里面的帖子链接列表 2. 获取帖子里面楼主所发的图片链接列表 3. 保存图片到本地注意事项：问题：在谷歌浏览器使用xpath helper插件时有匹配结果，但在程序里面使用python内带的xpat 阅读全文

posted @ 2018-06-27 11:14 silence-cc 阅读(302) 评论(0) 推荐(0)

现在的努力决定你未来站立的高度,所立之处决定你看到什么样的风景

公告