012-工程化爬虫 - 随笔分类 - GuoZeping

Scrapy 数据存储图片和文件

摘要：Scrapy 数据存储图片和文件阅读全文

posted @ 2019-05-23 01:22 GuoZeping 阅读(532) 评论(0) 推荐(0)

logger

摘要：logger 阅读全文

posted @ 2019-05-05 09:43 GuoZeping 阅读(353) 评论(0) 推荐(0)

Scrapy 文件介绍

摘要：Scrapy 文件介绍 Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如：是否跟进链接)以及如何从网页的 https://www.baidu.com/link?url=cA3U-oFgb77zD_XOW_HGDBnCAqW2LMNk4XZ_joVgnQVz9mHr4WF7W6U 阅读全文

posted @ 2019-05-05 09:38 GuoZeping 阅读(401) 评论(0) 推荐(0)

Scrapy 增量式爬虫

摘要：Scrapy 增量式爬虫 https://blog.csdn.net/mygodit/article/details/83931009 https://blog.csdn.net/mygodit/article/details/83896412 https://blog.csdn.net/qq_39 阅读全文

posted @ 2019-04-30 11:09 GuoZeping 阅读(184) 评论(0) 推荐(0)

数据存储 twisted

摘要：数据存储 twisted adbapi.ConnectionPool方法可以创建一个数据库连接池对象，其中包括多个连接对象，每个连接对象在独立的线程中工作。adbapi只是提供了异步访问数据库的编程框架，在其内部依然使mysql这样的库访问数据库。dbpool.runInteraction(inse 阅读全文

posted @ 2019-04-30 10:54 GuoZeping 阅读(165) 评论(0) 推荐(0)

数据存储 mongodb

摘要：数据存储 mongodb 1 from pymongo import MongoClient 2 import os 3 base_dir = os.getcwd() 4 class MongoPipeline(object): 5 # 实现保存到mongo数据库的类， 6 collection = 阅读全文

posted @ 2019-04-30 10:51 GuoZeping 阅读(192) 评论(0) 推荐(0)

数据存储 redis

摘要：数据存储 redis 阅读全文

posted @ 2019-04-30 10:51 GuoZeping 阅读(192) 评论(0) 推荐(0)

数据存储 mysql

摘要：数据存储 mysql 一、MySQL 同步存储二、MySQL 异步存储 1 from scrapy import log 2 import pymysql 3 import pymysql.cursors 4 import codecs 5 from twisted.enterprise impo 阅读全文

posted @ 2019-04-30 10:50 GuoZeping 阅读(290) 评论(0) 推荐(0)

数据存储 txt

摘要：数据存储 txt 阅读全文

posted @ 2019-04-30 10:50 GuoZeping 阅读(251) 评论(0) 推荐(0)

数据存储 csv

摘要：数据存储 csv 阅读全文

posted @ 2019-04-30 10:49 GuoZeping 阅读(266) 评论(0) 推荐(0)

数据存储 Json

摘要：数据存储 Json 一、JsonLInesEx 1 from scrapy.exporters import JsonLinesItemExporter 2 class JsonLinesItemExporterPipeline(object): 3 def __init__(self): 4 se 阅读全文

posted @ 2019-04-30 10:44 GuoZeping 阅读(173) 评论(0) 推荐(0)

start_requests

摘要：start_requests 简化前，我们需要定义一个方法：start_requests(self)，然后经过这个方法不断循环发送请求：简化后，以上的链接可以写在：start_urls这个常量里面，是不是省了好多事，人生是不是又美满了一大截？但是！上帝给你开一扇门，就会给你关另一扇门，用简化的方阅读全文

posted @ 2019-04-30 10:31 GuoZeping 阅读(2855) 评论(0) 推荐(0)

Scarpy 命令行工具

摘要：Scarpy 命令行工具一、Scarpy 全局命令 scrapy startproject project_name (创建项目) scrapy crawl xx （运行xxspider文件） scrapy shell http://www.scrapyd.cn (调试网址为http:www.sc 阅读全文

posted @ 2019-04-30 10:22 GuoZeping 阅读(198) 评论(0) 推荐(0)

custom_setting

摘要：custom_setting 一、定义二、配置 1.middlewares 1 # SeleniumMiddlerware中间件，不添加全局 2 from selenium import webdriver 3 from selenium.common.exceptions import Time 阅读全文

posted @ 2019-04-30 09:25 GuoZeping 阅读(874) 评论(0) 推荐(0)

工程化爬虫目录

摘要：工程化爬虫目录目录应用其他补充阅读全文

posted @ 2019-04-29 19:07 GuoZeping 阅读(369) 评论(0) 推荐(0)

网页解析 xpath

摘要：网页解析 xpath extract()返回列表不加返回<class 'scrapy.selector.unified.Selector'> 阅读全文

posted @ 2019-04-29 19:04 GuoZeping 阅读(183) 评论(0) 推荐(0)

网页解析 css

摘要：网页解析 css 阅读全文

posted @ 2019-04-29 19:03 GuoZeping 阅读(187) 评论(0) 推荐(0)

Settings

摘要：Settings 一、定义 Scrapy设定(settings)提供了定制Scarpy组件的方法。可以控制包括核心(core),插件(extension),pipeline及spider组件。设定为代码提供了提取key-value映射的配置值的全局命名空间(namespace)。二、Scrapy内阅读全文

posted @ 2019-04-29 11:33 GuoZeping 阅读(931) 评论(0) 推荐(0)

Downloader Middleware

摘要：Downloader Middleware 源码解析：阅读全文

posted @ 2019-04-26 14:41 GuoZeping 阅读(267) 评论(0) 推荐(0)

网络请求 selenium

摘要：网络请求 selenium 部分流程：第一：爬虫引擎生成requests请求，送往scheduler调度模块，进入等待队列，等待调度。第二：scheduler模块开始调度这些requests，出队，发往爬虫引擎。第三：爬虫引擎将这些requests送到下载中间件（多个，例如加header，代理，自阅读全文

posted @ 2019-04-26 14:30 GuoZeping 阅读(166) 评论(0) 推荐(0)