欢迎访问yhm138的博客园博客, 你可以通过 [RSS] 的方式持续关注博客更新

MyAvatar

yhm138

HelloWorld!

摘要: 这里分享一个低配版知乎爬虫,利用了Selenium模块 爬取的过程中遇到了10002:请求参数异常,请升级客户端后重试,调用知乎某用户的回答API返回的HTTP状态码是403 Forbidden 之后找了一篇博客,里面给出的解决方案是:使用自己打开的一个浏览器,再用selenium接管这个浏览器这样 阅读全文
posted @ 2021-05-20 23:05 yhm138 阅读(1942) 评论(0) 推荐(0) 编辑
摘要: 直接去官网下载 reques时候的四大要素是: 请求方法 request URL request HEAD request BODY GET方法: 参数写进URL POST方法: 登录时,上传头像时 阅读全文
posted @ 2021-05-20 20:28 yhm138 阅读(8) 评论(0) 推荐(0) 编辑
摘要: 选择的教程是https://zhuanlan.zhihu.com/p/131325579 结果到这里我出错了,不知道为什么 阅读全文
posted @ 2021-05-20 17:01 yhm138 阅读(4) 评论(0) 推荐(0) 编辑
摘要: 忙了一上午学这个Selenium 考虑到我有备份博客园博客的需求,所以实战是仿着写了下面的代码,功能是Selenium爬取某用户博客园首页的全部博客 第一版只是把文章url和标题爬取了下来,博客网页另存为mhtml格式到本地 有时间会继续更新 from selenium import webdriv 阅读全文
posted @ 2021-05-20 11:35 yhm138 阅读(86) 评论(0) 推荐(0) 编辑