随笔分类 -  爬虫

摘要:1.启动Charles无法联网问题 解决办法help中选择Install Charles Root Certificate 全部信任 然后修改一下端口 重启 就可以抓包了 2.抓到包发现content乱码 解决方案: 将你要抓的网页host和端口号写在SSL Proxying下 阅读全文
posted @ 2019-01-09 16:22 BabyJoy❤️ 阅读(1770) 评论(0) 推荐(0)
摘要:作为一名比较懒的程序媛, 爬一点图片还是比一页一页翻是要省事些的, 啊哈哈... 这一次尝试的是Xpath而不是用正则 Xpath解析原理: --标签定位 对标签的属性或者文本数据进行捕获 --xpath路径表达式进行标签定位 --xpath表达式必须作用在xpath函数中 --xpath函数被封装 阅读全文
posted @ 2019-01-08 20:19 BabyJoy❤️ 阅读(265) 评论(0) 推荐(0)
摘要:今天突发奇想小试爬虫,获取一下某素材站一些图片 实现步骤如下: 结果: 期间遇到一点小坑, 此网站非常的鸡贼, 在网页点检查看到的前端代码并不是真正请求获得的, 而是请求发过去后前端对一些细节做了处理, 所以写正则匹配那一部分的时候不能参照网页检查现实的html 解决办法就是先发请求获得真正请求得到 阅读全文
posted @ 2019-01-07 21:53 BabyJoy❤️ 阅读(778) 评论(0) 推荐(0)