爬虫 - 随笔分类 - _慕

爬虫笔记四

摘要：一、Requests快速入门 import requests # 常见的请求方式 get post r = requests.get('https://github.com/timeline.json') # r = requests.post("http://httpbin.org/post") 阅读全文

posted @ 2018-01-27 10:41 _慕阅读(333) 评论(0) 推荐(0)

爬虫笔记三

摘要：一、Scrapy 爬虫框架学习 Scrapy 使用了 Twisted异步网络库来处理网络通讯。整体架构大致如下： Scrapy主要包括了以下组件：引擎(Scrapy) 用来处理整个系统的数据流处理, 触发事务(框架核心) 调度器(Scheduler) 用来接受引擎发过来的请求, 压入队列中, 并在阅读全文

posted @ 2017-12-03 20:40 _慕阅读(562) 评论(0) 推荐(0)

爬虫笔记二

摘要：一、BeautifulSoup模块 BeautifulSoup模块，该模块用于接收一个HTML或XML字符串，然后将其进行格式化，之后便可以使用它提供的方法进行快速查找指定元素，从而使得在HTML或XML中查找指定元素变得简单。安装：使用示例： from bs4 import Beautiful 阅读全文

posted @ 2017-12-02 11:44 _慕阅读(260) 评论(0) 推荐(0)

爬虫笔记一

摘要：要了解什么是爬虫？先睹为快，先跑一跑下面的这个例子（前提是你安装了requests和BeautifulSoup4模块）：一个例子不过瘾，再来看一个关于cookie的验证过程：有的网站在你get请求获取登录页面的时候就给你发了一个cookie，但是这个cookie某在后台进行验证，等你带着coo 阅读全文

posted @ 2017-11-30 23:02 _慕阅读(212) 评论(0) 推荐(0)

_慕

等风，也等你

随笔分类 - 爬虫

公告