会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Norni
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
10
11
12
13
14
15
16
17
18
···
28
下一页
2020年5月21日
爬取斗鱼房间的信息
摘要: >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 说明:仅学习参考,如有侵权,将立即删除此内容 <<<<<<<<<<<<<<<<<
阅读全文
posted @ 2020-05-21 13:37 Norni
阅读(170)
评论(0)
推荐(0)
2020年5月19日
爬取百度贴吧帖子页内容
摘要: >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 说明:仅学习参考,如有侵权,将立即删除此内容 <<<<<<<<<<<<<<<<<
阅读全文
posted @ 2020-05-19 12:22 Norni
阅读(536)
评论(0)
推荐(0)
2020年5月17日
爬虫通过re或bs3等提取数据时,一定要判空
摘要: 提取数据后要记得判空。否则当数据为空的时候,会发生list index out of range的异常。
阅读全文
posted @ 2020-05-17 18:31 Norni
阅读(228)
评论(0)
推荐(0)
2020年5月15日
爬虫作业时寻找post的地址和js分析
摘要: 1、寻找post的地址 1.1 使用chrome抓包工具 进入`https://www.renren.com` 检查网页源代码 定位到form标签下 (1)在form表单中寻找action对应的url地址,注意:不是所有的网站的action都有url地址,有的对应的是js (2)post的数据是in
阅读全文
posted @ 2020-05-15 00:01 Norni
阅读(1201)
评论(0)
推荐(1)
2020年5月14日
十五、cookies和session的使用
摘要: 1、cookie和session的区别 (1)cookie数据存放在客户的浏览器上,session数据放在服务器上。 (2)cookie不是很安全,别人可以分析存放在本地的cookie并进行cookie欺骗。 (3)session会在一定时间内保存在服务器上。当访问增多,会比较占用服务器的性能。 (
阅读全文
posted @ 2020-05-14 17:36 Norni
阅读(187)
评论(0)
推荐(0)
2020年5月13日
爬取腾讯社招职位信息
摘要: 腾讯社招职位(多线程+线程池) >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> version_1 声明:本内容仅学习参考,如有侵权,将立即删除 <<<<<<<<<<<<<<<<<<<<&l
阅读全文
posted @ 2020-05-13 21:37 Norni
阅读(600)
评论(0)
推荐(0)
4、python的进程守护和线程守护
摘要: 设定线程(进程)的daemon标志,当daemon=True表示守护,当daemon=False表示非守护(默认) 1、进程守护 守护进程会在主进程代码执行结束后就终止 守护进程内无法再开启子进程,否则会抛出异常:`AssertionError:daemonic processes are not
阅读全文
posted @ 2020-05-13 14:55 Norni
阅读(780)
评论(0)
推荐(0)
2020年5月12日
十一、Scrapy的Settings
摘要: Scrapy设置(settings)提供了定制Scrapy组件的方法,可以控制包括核心(core),插件(extension),pipeline以及spider组件。 官方文档:https://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/settings.h
阅读全文
posted @ 2020-05-12 16:33 Norni
阅读(195)
评论(0)
推荐(0)
十、scrapy中的Downloader Middlewares
摘要: 1、通常防止爬虫被反主要有以下几个策略 (1)动态设置User-Agent(随机切换User-Agent,模拟不同用户的浏览器信息) (2)禁用Cookies(即不启用cookies middleware,不向Server发送cookies,有些网站通过cookie的使用发现爬虫行为)(通过COOK
阅读全文
posted @ 2020-05-12 16:06 Norni
阅读(780)
评论(0)
推荐(0)
九、在Scrapy中模拟登陆
摘要: 使用FormRequest.from_response()方法模拟用户登录 官方参考文档:https://docs.pythontab.com/scrapy/scrapy0.24/topics/request-response.html#topics-request-response-ref-req
阅读全文
posted @ 2020-05-12 14:22 Norni
阅读(297)
评论(0)
推荐(0)
上一页
1
···
10
11
12
13
14
15
16
17
18
···
28
下一页
公告