大江东去,浪淘尽,千古风流人物。故垒西边,人道是,三国周郎赤壁。乱石穿空,惊涛拍岸,卷起千堆雪。江山如画,一时多少豪杰。遥想公瑾当年,小乔初嫁了,雄姿英发。羽扇纶巾,谈笑间,樯橹灰飞烟灭。故国神游,多情应笑我,早生华发。人生如梦,一尊还酹江月。

人生苦短 我用Python

扩大
缩小

随笔分类 -  012-工程化爬虫

Scrapy 数据存储 图片和文件
摘要:Scrapy 数据存储 图片和文件 阅读全文

posted @ 2019-05-23 01:22 GuoZeping 阅读(532) 评论(0) 推荐(0)

logger
摘要:logger 阅读全文

posted @ 2019-05-05 09:43 GuoZeping 阅读(353) 评论(0) 推荐(0)

Scrapy 文件介绍
摘要:Scrapy 文件介绍 Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的 https://www.baidu.com/link?url=cA3U-oFgb77zD_XOW_HGDBnCAqW2LMNk4XZ_joVgnQVz9mHr4WF7W6U 阅读全文

posted @ 2019-05-05 09:38 GuoZeping 阅读(401) 评论(0) 推荐(0)

Scrapy 增量式爬虫
摘要:Scrapy 增量式爬虫 https://blog.csdn.net/mygodit/article/details/83931009 https://blog.csdn.net/mygodit/article/details/83896412 https://blog.csdn.net/qq_39 阅读全文

posted @ 2019-04-30 11:09 GuoZeping 阅读(184) 评论(0) 推荐(0)

数据存储 twisted
摘要:数据存储 twisted adbapi.ConnectionPool方法可以创建一个数据库连接池对象,其中包括多个连接对象,每个连接对象在独立的线程中工作。adbapi只是提供了异步访问数据库的编程框架,在其内部依然使mysql这样的库访问数据库。dbpool.runInteraction(inse 阅读全文

posted @ 2019-04-30 10:54 GuoZeping 阅读(165) 评论(0) 推荐(0)

数据存储 mongodb
摘要:数据存储 mongodb 1 from pymongo import MongoClient 2 import os 3 base_dir = os.getcwd() 4 class MongoPipeline(object): 5 # 实现保存到mongo数据库的类, 6 collection = 阅读全文

posted @ 2019-04-30 10:51 GuoZeping 阅读(192) 评论(0) 推荐(0)

数据存储 redis
摘要:数据存储 redis 阅读全文

posted @ 2019-04-30 10:51 GuoZeping 阅读(192) 评论(0) 推荐(0)

数据存储 mysql
摘要:数据存储 mysql 一、MySQL 同步存储 二、MySQL 异步存储 1 from scrapy import log 2 import pymysql 3 import pymysql.cursors 4 import codecs 5 from twisted.enterprise impo 阅读全文

posted @ 2019-04-30 10:50 GuoZeping 阅读(290) 评论(0) 推荐(0)

数据存储 txt
摘要:数据存储 txt 阅读全文

posted @ 2019-04-30 10:50 GuoZeping 阅读(251) 评论(0) 推荐(0)

数据存储 csv
摘要:数据存储 csv 阅读全文

posted @ 2019-04-30 10:49 GuoZeping 阅读(266) 评论(0) 推荐(0)

数据存储 Json
摘要:数据存储 Json 一、JsonLInesEx 1 from scrapy.exporters import JsonLinesItemExporter 2 class JsonLinesItemExporterPipeline(object): 3 def __init__(self): 4 se 阅读全文

posted @ 2019-04-30 10:44 GuoZeping 阅读(173) 评论(0) 推荐(0)

start_requests
摘要:start_requests 简化前,我们需要定义一个方法:start_requests(self),然后经过这个方法不断循环发送请求: 简化后,以上的链接可以写在:start_urls这个常量里面,是不是省了好多事,人生是不是又美满了一大截? 但是!上帝给你开一扇门,就会给你关另一扇门,用简化的方 阅读全文

posted @ 2019-04-30 10:31 GuoZeping 阅读(2855) 评论(0) 推荐(0)

Scarpy 命令行工具
摘要:Scarpy 命令行工具 一、Scarpy 全局命令 scrapy startproject project_name (创建项目) scrapy crawl xx (运行xxspider文件) scrapy shell http://www.scrapyd.cn (调试网址为http:www.sc 阅读全文

posted @ 2019-04-30 10:22 GuoZeping 阅读(198) 评论(0) 推荐(0)

custom_setting
摘要:custom_setting 一、定义 二、配置 1.middlewares 1 # SeleniumMiddlerware中间件,不添加全局 2 from selenium import webdriver 3 from selenium.common.exceptions import Time 阅读全文

posted @ 2019-04-30 09:25 GuoZeping 阅读(874) 评论(0) 推荐(0)

工程化爬虫 目录
摘要:工程化爬虫 目录 目录 应用 其他补充 阅读全文

posted @ 2019-04-29 19:07 GuoZeping 阅读(369) 评论(0) 推荐(0)

网页解析 xpath
摘要:网页解析 xpath extract()返回列表 不加返回<class 'scrapy.selector.unified.Selector'> 阅读全文

posted @ 2019-04-29 19:04 GuoZeping 阅读(183) 评论(0) 推荐(0)

网页解析 css
摘要:网页解析 css 阅读全文

posted @ 2019-04-29 19:03 GuoZeping 阅读(187) 评论(0) 推荐(0)

Settings
摘要:Settings 一、定义 Scrapy设定(settings)提供了定制Scarpy组件的方法。可以控制包括核心(core),插件(extension),pipeline及spider组件。设定为代码提供了提取key-value映射的配置值的全局命名空间(namespace)。 二、Scrapy内 阅读全文

posted @ 2019-04-29 11:33 GuoZeping 阅读(931) 评论(0) 推荐(0)

Downloader Middleware
摘要:Downloader Middleware 源码解析: 阅读全文

posted @ 2019-04-26 14:41 GuoZeping 阅读(267) 评论(0) 推荐(0)

网络请求 selenium
摘要:网络请求 selenium 部分流程: 第一:爬虫引擎生成requests请求,送往scheduler调度模块,进入等待队列,等待调度。第二:scheduler模块开始调度这些requests,出队,发往爬虫引擎。第三:爬虫引擎将这些requests送到下载中间件(多个,例如加header,代理,自 阅读全文

posted @ 2019-04-26 14:30 GuoZeping 阅读(166) 评论(0) 推荐(0)

导航