Fork me on Gitee

随笔分类 -  python3爬虫

摘要:代码查看https://gitee.com/MarkPolaris/reptile/tree/master/jd 中的gly和demo03 阅读全文
posted @ 2019-04-29 16:27 MARK+ 阅读(1283) 评论(0) 推荐(0)
摘要:每天定时删除七天前数据 阅读全文
posted @ 2018-11-05 15:31 MARK+ 阅读(141) 评论(0) 推荐(0)
摘要:1.抓包 访问一个频道,Charles抓包,找到真实连接,一般返回json数据和网页中数据对应为真实连接 请求方式为post,所以要添加请求头和表单数据,由于在charles环境下,所以要添加charles的代理ip和认证文件,然后进行测试,访问成功。 对不同的频道分别经过charles抓包,发现请 阅读全文
posted @ 2018-10-18 11:00 MARK+ 阅读(1159) 评论(0) 推荐(0)
摘要:参考链接:python并行任务技巧 python多线程到底有没有用 我的笔记本是四核 因为多进程没用过,所以我自己写了个小例子,体现出在CPU密集型操作中多进程的优势 运行多进程,注释掉19行代码 运行多线程,注释掉18行代码 运行结果 1.多线程 CPU最高37% 2.多进程 CPU最高100% 阅读全文
posted @ 2018-10-12 17:51 MARK+ 阅读(281) 评论(0) 推荐(0)
摘要:帮别的院的同学批量下载点图片,并进行简单筛选 阅读全文
posted @ 2018-09-09 16:24 MARK+ 阅读(243) 评论(0) 推荐(0)
摘要:超级鹰打码平台 稍稍改写了一下他的demo,用的话直接调用get_code()函数就可以了 新用户还给1000题分测试用,用户名密码填写自己的,验证码类型查看 阅读全文
posted @ 2018-09-05 15:56 MARK+ 阅读(812) 评论(0) 推荐(0)
摘要:框架写起来代码是真的简洁多了,还有就是在requests爬取房多多的时候,无法爬取所有地区,而这个就不受影响 代码请查看码云 运行结果: 阅读全文
posted @ 2018-09-03 22:21 MARK+ 阅读(122) 评论(0) 推荐(0)
摘要:本来想正面刚一下这个验证码的,但是一直post不上去,只好设置随机延迟,防止反爬 fangdd.py get_pinyin.py save_to_mongo.py 因为设置了延迟,再加上数据量比较大,所以爬取时间有点长,我打完了一把王者荣耀,c开头的还没爬完,此时数据库中已经有22000条信息了 运 阅读全文
posted @ 2018-08-29 09:55 MARK+ 阅读(1204) 评论(0) 推荐(0)
摘要:总体来说代码还不是太完美 实现了js渲染网页的解析的一种思路 主要是这个下拉操作,不能一下拉到底,数据是在中间加载进来的, 具体过程都有写注释 运行结果 数据库 阅读全文
posted @ 2018-08-24 20:34 MARK+ 阅读(454) 评论(0) 推荐(0)
摘要:登录人人网为例 1.想要发送post请求,那么使用'scrapy.FormRequest'方法,可以方便的指定表单数据 2.如果想在爬虫一开始的时候就发送post请求,那么应该重写'start_requests'方法,在这个方法中发送post请求 spider.py 返回结果 dapeng.html 阅读全文
posted @ 2018-08-22 11:37 MARK+ 阅读(353) 评论(0) 推荐(0)
摘要:照着敲了一遍,,, 需要使用"LinkExtrator"和"Rule",这两个东西决定爬虫的走向。 1.allow设置规则的方法:要能够限制在我们想要的url上,不要跟其他的url产生相同的正则表达式即可 2.什么情况下使用follow:如果要爬取页面的时候,需要将满足当前条件的url再进行跟进,那 阅读全文
posted @ 2018-08-20 18:41 MARK+ 阅读(1090) 评论(0) 推荐(0)
摘要:糗事百科scrapy爬虫笔记 1.response是一个'scrapy.http.response.html.HtmlResponse'对象,可以执行xpath,css语法来提取数据 2.提取出来的数据,是一个'Selector'或者是一个'SelectorList'对象,如果想要获取其中的字符串, 阅读全文
posted @ 2018-08-16 16:59 MARK+ 阅读(229) 评论(0) 推荐(0)
摘要:#settings.py文件设置 #如果网站中没有robots文件,就不会抓取任何数据 ROBOTSTXT_OBEY = False #设置请求头 DEFAULT_REQUEST_HEADERS = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; …) 阅读全文
posted @ 2018-08-16 15:10 MARK+ 阅读(228) 评论(0) 推荐(0)
摘要:使用selenium进行翻页获取职位链接,再对链接进行解析 会爬取到部分空列表,感觉是网速太慢了,加了time.sleep()还是会有空列表 运行结果 阅读全文
posted @ 2018-08-13 10:38 MARK+ 阅读(231) 评论(0) 推荐(0)
摘要:拉勾网反爬虫做的比较严,请求头多添加几个参数才能不被网站识别 找到真正的请求网址,返回的是一个json串,解析这个json串即可,而且注意是post传值 通过改变data中pn的值来控制翻页 job_name读取的结果是一个列表 ['JAVA高级工程师、爬虫工程师'] ,而我只想得到里面的字符串,在 阅读全文
posted @ 2018-08-12 21:36 MARK+ 阅读(1066) 评论(0) 推荐(0)
摘要:运行结果 阅读全文
posted @ 2018-08-11 17:51 MARK+ 阅读(684) 评论(0) 推荐(0)
摘要:下载是相当快啊 阅读全文
posted @ 2018-08-11 14:15 MARK+ 阅读(334) 评论(0) 推荐(0)
摘要:为下一个多线程练练手 不多说了,沙海开始了。 阅读全文
posted @ 2018-08-10 20:09 MARK+ 阅读(717) 评论(0) 推荐(0)
摘要:日期: [1-9]\d{3}-(0[1-9]|1[0-2])-(0[1-9]|[1-2][0-9]|3[0-1]) 时间: (20|21|22|23|[0-1]\d):[0-5]\d:[0-5]\d 时间戳 1970纪元后经过的浮点秒数 tm_wday; /* 星期 – 取值区间为[0,6],其中0 阅读全文
posted @ 2018-08-08 08:34 MARK+ 阅读(5836) 评论(0) 推荐(0)
摘要:这个链接的正则表达式感觉写的没问题啊,可是匹配不到东西,奇了怪了,先放着吧,xpath可以匹配到 运行结果 阅读全文
posted @ 2018-08-06 17:11 MARK+ 阅读(346) 评论(0) 推荐(0)