随笔分类 -  python爬虫

爬虫技术
摘要:转自:https://blog.csdn.net/tengdazhang770960436/article/details/90644523 阅读全文
posted @ 2019-09-24 01:23 olivertian 阅读(406) 评论(0) 推荐(0)
摘要:转自:https://blog.csdn.net/jimmyandrushking/article/details/80819103 阅读全文
posted @ 2019-09-12 01:17 olivertian 阅读(318) 评论(0) 推荐(0)
摘要:转自:https://www.cnblogs.com/yoyoketang/p/6778006.html 阅读全文
posted @ 2019-09-10 17:09 olivertian 阅读(139) 评论(0) 推荐(0)
摘要:一. 目标 ​ 作为一只万年单身狗,一直很好奇女生找对象的时候都在想啥呢,这事也不好意思直接问身边的女生,不然别人还以为你要跟她表白啥的,况且工科出身的自己本来接触的女生就少,即使是挨个问遍,样本量也太少,毕竟每个人的标准都会有差异的。这时候想到婚恋网站,上面不就有现成的数据吗,刚好最近也在学习爬虫 阅读全文
posted @ 2019-08-12 23:24 olivertian 阅读(1129) 评论(0) 推荐(0)
摘要:做个参考,转自:https://blog.csdn.net/qq_42281053/article/details/80658018 阅读全文
posted @ 2019-08-05 17:17 olivertian 阅读(537) 评论(0) 推荐(0)
摘要:原文地址:http://www.sohu.com/a/281228178_120047080 网络请求中的cookie与set-Cookie的交互模式和作用:https://my.oschina.net/ososchina/blog/339918 阅读全文
posted @ 2019-05-08 21:10 olivertian 阅读(155) 评论(0) 推荐(0)
摘要:原文地址:https://blog.csdn.net/mouday/article/details/80182397 user_agent = [ "Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 阅读全文
posted @ 2019-04-25 16:56 olivertian 阅读(2499) 评论(0) 推荐(0)
摘要:1.因为使用的yield,而不是return。parse函数将会被当做一个生成器使用。scrapy会逐一获取parse方法中生成的结果,并判断该结果是一个什么样的类型; 2.如果是request则加入爬取队列,如果是item类型则使用pipeline处理,其他类型则返回错误信息。 3.scrapy取 阅读全文
posted @ 2019-04-23 15:52 olivertian 阅读(2254) 评论(0) 推荐(0)
摘要:记录一下两个讲解scrapy源码的博客: 1、http://kaito-kidd.com/2016/11/21/scrapy-code-analyze-component-initialization/ 2、https://braincy.top/2018/02/24/scrapy-analyse/ 阅读全文
posted @ 2019-04-22 00:31 olivertian 阅读(176) 评论(0) 推荐(0)
摘要:审查元素,点击console控制台,键入document.charset命令即可 阅读全文
posted @ 2019-04-16 17:00 olivertian 阅读(1326) 评论(0) 推荐(0)
摘要:原文地址:https://blog.csdn.net/chroming/article/details/77104874 阅读全文
posted @ 2019-04-15 11:17 olivertian 阅读(249) 评论(0) 推荐(0)
摘要:转自https://blog.csdn.net/jqh2002_blog/article/details/24842217 其实比较不同的解析器对html的处理能力是有点麻烦的,因为它们处理的步骤并不完全相同的: 1. 解析HTML:能读入2. 解析为某个对象:能处理3. 序列化:能输出各个解析器做 阅读全文
posted @ 2019-04-15 11:13 olivertian 阅读(2156) 评论(0) 推荐(0)