文章分类 -  python爬虫

摘要:scrapy 就是一个帮助爬取网站数据,帮助提取网站结构化数据的框架。 组件概览: Scheduler : Scrapy Engine: 引擎负责数据流在整个系统中的流动,也就是在你start 启动的那一瞬间,会有相应触发事件。 spiders: 爬虫程序, 里包括如何爬取网页,分析返回的respo 阅读全文
posted @ 2017-09-02 16:47 tonycloud 阅读(264) 评论(0) 推荐(0)
摘要:requests 常用的方法: Beautifulsoup 的常用: ∆爬取伯乐在线的某一页面的文章: 结果: ∆登录git hub #github 属于访问页面就已经发了一个cookie 到客户端,所以在登录时也需要带着这个cookie 结果:在pycharm中查找自己帐户信息。如果则登录成功。 阅读全文
posted @ 2017-08-28 17:10 tonycloud 阅读(430) 评论(0) 推荐(0)