摘要: 开发环境:Python 3.6.0 版本 (当前最新)Scrapy 1.3.2 版本 (当前最新) 请求和响应 Scrapy的Request和Response对象用于爬网网站。 通常,Request对象在爬虫程序中生成并传递到系统,直到它们到达下载程序,后者执行请求并返回一个Response对象,该 阅读全文
posted @ 2018-10-20 11:22 lvye001 阅读(1271) 评论(0) 推荐(0)
摘要: spider # -*- coding: utf-8 -*- from urllib.parse import urlencode import requests import scrapy import re import json from ..items import TmallItem co 阅读全文
posted @ 2018-10-20 11:21 lvye001 阅读(1983) 评论(0) 推荐(0)
摘要: 如果连接直接这样写,看上去很直观,不过参数替换不是很方便,而且看着不舒服 https://www.mysite.com/?sortField=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD&pageIndex=3&pageSize=20 可以使用如下方式美化代码 from 阅读全文
posted @ 2018-10-20 11:20 lvye001 阅读(3515) 评论(0) 推荐(0)
摘要: 首先是安装python-docx:(centos环境) pip install python-docx 基本方法使用: from docx import Document from docx.shared import Pt from docx.oxml.ns import qn from docx 阅读全文
posted @ 2018-10-20 11:18 lvye001 阅读(878) 评论(0) 推荐(0)
摘要: 这篇文章中写了常用的下载中间件的用法和例子。Downloader Middleware处理的过程主要在调度器发送requests请求的时候以及网页将response结果返回给spiders的时候,所以从这里我们可以知道下载中间件是介于Scrapy的request/response处理的钩子,用于修改 阅读全文
posted @ 2018-10-20 11:12 lvye001 阅读(219) 评论(0) 推荐(0)
摘要: 开发环境: Python 3.6.0 版本 (当前最新) Scrapy 1.3.2 版本 (当前最新) 请求和响应 Scrapy的Request和Response对象用于爬网网站。 通常,Request对象在爬虫程序中生成并传递到系统,直到它们到达下载程序,后者执行请求并返回一个Response对象 阅读全文
posted @ 2018-10-20 09:45 lvye001 阅读(365) 评论(0) 推荐(0)