随笔分类 - 爬虫
摘要:一、Requests快速入门 import requests # 常见的请求方式 get post r = requests.get('https://github.com/timeline.json') # r = requests.post("http://httpbin.org/post")
阅读全文
摘要:一、Scrapy 爬虫框架学习 Scrapy 使用了 Twisted异步网络库来处理网络通讯。整体架构大致如下: Scrapy主要包括了以下组件: 引擎(Scrapy) 用来处理整个系统的数据流处理, 触发事务(框架核心) 调度器(Scheduler) 用来接受引擎发过来的请求, 压入队列中, 并在
阅读全文
摘要:一、BeautifulSoup模块 BeautifulSoup模块,该模块用于接收一个HTML或XML字符串,然后将其进行格式化,之后便可以使用它提供的方法进行快速查找指定元素,从而使得在HTML或XML中查找指定元素变得简单。 安装: 使用示例: from bs4 import Beautiful
阅读全文
摘要:要了解什么是爬虫?先睹为快,先跑一跑下面的这个例子(前提是你安装了requests和BeautifulSoup4模块): 一个例子不过瘾,再来看一个 关于cookie的验证过程: 有的网站在你get请求获取登录页面的时候就给你发了一个cookie,但是这个cookie某在后台进行验证,等你带着coo
阅读全文