随笔分类 -  爬虫

摘要:说在前面:今天把之前写过的壁纸爬虫拿出来用了一下,发现是很久以前写过的,用的还是python基本库urllib去做网络请求的,正好最近在学scrapy,于是就用scrapy框架重新写了一遍。环境要求:python:3.6 Scrapy:1.51正式开始:感谢... 阅读全文
posted @ 2018-08-08 16:11 GF66 阅读(244) 评论(0) 推荐(0)
摘要:最近学习scrapy框架,感受到了scrapy的强大,可能自己还没有学透,感觉有时候数据保存没有那么方便,等技术成熟也许会使用更加灵活,废话不多说,进入今天的主题。 首先,为什么要使用Resquest和Response.follow 按照我的理解,使用sc... 阅读全文
posted @ 2018-08-02 20:52 GF66 阅读(285) 评论(0) 推荐(0)
摘要:先说一句:程序我大一暑假留校的时候就想做的,但是当时做的很乱,功能也很不完善,现在实现了查成绩的基础功能,如果有BUG,可以通过评论或者最后的联系方式找我。 该程序已上传Github,点击查看环境介绍:python == 3.6.3beautifulsoup... 阅读全文
posted @ 2018-07-31 20:22 GF66 阅读(696) 评论(0) 推荐(0)
摘要:前提废话之前关注了一个python的公众号,每天都会推送文章,每次看都会看到他有使用wordcloud这个库来生成好看的词云,于是乎,我就学习了jieba分词和wordcloud词云。这里给win系统的小伙伴提示下,如果你的pip install wordc... 阅读全文
posted @ 2017-12-26 21:49 GF66 阅读(1236) 评论(0) 推荐(0)
摘要:好久没有写爬虫了,之前只是止步于爬取静态网页,于是准备找个简单的动态网页进行爬取,在学长的建议下,进军花瓣网。首先在爬取图片之前肯定要对网页源码进行分析这里可以使用chrome的F12开发人员工具,很简单就找到了图片的url,这不就直接可以开始爬取了么233... 阅读全文
posted @ 2017-12-14 18:06 GF66 阅读(324) 评论(0) 推荐(0)
摘要:#coding=utf-8import urllib2import urllibimport reimport timefrom bs4 import BeautifulSoupdef fun (): headerl = { 'User-... 阅读全文
posted @ 2017-07-20 09:50 GF66 阅读(161) 评论(0) 推荐(0)