2018 年 10月 20 日随笔档案 - Mr_lvye

2018年10月20日

摘要：开发环境：Python 3.6.0 版本（当前最新）Scrapy 1.3.2 版本（当前最新）请求和响应 Scrapy的Request和Response对象用于爬网网站。通常，Request对象在爬虫程序中生成并传递到系统，直到它们到达下载程序，后者执行请求并返回一个Response对象，该阅读全文

posted @ 2018-10-20 11:22 Mr_lvye 阅读(1273) 评论(0) 推荐(0)

scrapy 爬取天猫商品信息

摘要： spider # -*- coding: utf-8 -*- from urllib.parse import urlencode import requests import scrapy import re import json from ..items import TmallItem co 阅读全文

posted @ 2018-10-20 11:21 Mr_lvye 阅读(1985) 评论(0) 推荐(0)

Python爬虫：带参url的拼接

摘要：如果连接直接这样写，看上去很直观，不过参数替换不是很方便，而且看着不舒服 https://www.mysite.com/?sortField=%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD&pageIndex=3&pageSize=20 可以使用如下方式美化代码 from 阅读全文

posted @ 2018-10-20 11:20 Mr_lvye 阅读(3519) 评论(0) 推荐(0)

使用python-docx生成Word文档

摘要：首先是安装python-docx：（centos环境） pip install python-docx 基本方法使用： from docx import Document from docx.shared import Pt from docx.oxml.ns import qn from docx 阅读全文

posted @ 2018-10-20 11:18 Mr_lvye 阅读(883) 评论(0) 推荐(0)

Python爬虫从入门到放弃之 Scrapy框架中Download Middleware用法

摘要：这篇文章中写了常用的下载中间件的用法和例子。Downloader Middleware处理的过程主要在调度器发送requests请求的时候以及网页将response结果返回给spiders的时候，所以从这里我们可以知道下载中间件是介于Scrapy的request/response处理的钩子，用于修改阅读全文

posted @ 2018-10-20 11:12 Mr_lvye 阅读(219) 评论(0) 推荐(0)

Scrapy爬虫入门Request和Response（请求和响应）

摘要：开发环境： Python 3.6.0 版本（当前最新） Scrapy 1.3.2 版本（当前最新）请求和响应 Scrapy的Request和Response对象用于爬网网站。通常，Request对象在爬虫程序中生成并传递到系统，直到它们到达下载程序，后者执行请求并返回一个Response对象阅读全文

posted @ 2018-10-20 09:45 Mr_lvye 阅读(368) 评论(0) 推荐(0)

Mr_lvye

拒绝平庸，追求每一行代码的极致性能与优雅。

公告