2018 年 6月随笔档案 - doitjust

Scrapy-架构

摘要：Scrapy架构(各组件的功能)及Scrapy引擎控制数据流的过程 1. Scrapy架构图(绿线是数据流向)： □ Scrapy引擎(Engine)：引擎负责控制数据流在系统的所有组件中流动，并在相应动作发生时触发事件。 □ 调度器(Scheduler)：调度器从引擎接收Request并将它们入队阅读全文

posted @ 2018-06-30 17:17 doitjust 阅读(177) 评论(0) 推荐(0)

scrapy-下载中间件

摘要：scrapy-下载中间件每个下载中间件组件是定义了以下一个或多个方法的Python类■ process_request(request,spider)■ process_response(request,response,spider)■ process_exception(request,exc 阅读全文

posted @ 2018-06-30 00:24 doitjust 阅读(179) 评论(0) 推荐(0)

selenium+chrome浏览器驱动-爬取百度图片

摘要：百度图片网页中中，当页面滚动到底部，页面会加载新的内容。我们通过selenium和谷歌浏览器驱动，执行js，是浏览器不断加载页面，通过抓取页面的图片路径来下载图片。 1 from selenium import webdriver 2 from selenium.webdriver.common. 阅读全文

posted @ 2018-06-24 22:37 doitjust 阅读(1995) 评论(0) 推荐(0)

selelinum+PhantomJS 爬取拉钩网职位

摘要：使用selenium+PhantomJS爬取拉钩网职位信息，保存在csv文件至本地磁盘拉钩网的职位页面，点击下一页，职位信息加载，但是浏览器的url的不变，说明数据不是发送get请求得到的。我们不去寻找它的API。这里使用另一种方式：使用PhantomJS模拟浏览，通过单击页面获取下一页。这里阅读全文

posted @ 2018-06-24 18:26 doitjust 阅读(209) 评论(0) 推荐(0)

urllib基础-利用网站结构爬取网页-百度搜索

摘要：有的时候爬取网页，可以利用网站额结构特点爬取网页在百度搜索框中输入搜索内容，单击搜索，浏览器会发送一个带有参数的url请求。尝试删除其中的一些参数，只剩下wd这个参数。发现wd是搜索内容。这样程序可以根据不同的wd值，请求不同的网页。 1 from urllib import request,pa 阅读全文

posted @ 2018-06-24 15:59 doitjust 阅读(667) 评论(0) 推荐(0)

urllib基础-构造请求对象，设置用户代理User-Agent

摘要：有的网页具有一些反爬机制，如：需要浏览器请求头中的User-Agent。User-Agent类似浏览器的身份证。程序中不设置User-Agent。默认是Python-urllib/3.5。这样网站就知道是程序(而不是人)在访问，有的网站(如：西刺代理)就不会响应这样的请求。程序中要设置浏览器请求阅读全文

posted @ 2018-06-24 15:40 doitjust 阅读(611) 评论(0) 推荐(0)

urllib基础-请求对象request

摘要：简单的案例-爬取百度首页 1 from urllib import request 2 ''' 3 爬取百度首页 4 ''' 5 # 确定爬去目标 6 base_url = 'http://www.baidu.com' 7 8 # 发起http请求返回一个类文件对象 9 response = re 阅读全文

posted @ 2018-06-24 14:48 doitjust 阅读(199) 评论(0) 推荐(0)

笔记是工作中的财富

06 2018 档案

公告