公告

随笔分类 - scrapy

scrapy下载文件，当传递一个url列表到pipelines管道处理时，如何做到不受多线程影响进行排序。

摘要：与下载图片类似： 1.item中需要有固定的字段 file_urls = scrapy.Field() files = scrapy.Field() 2.获取到文件的url，通过item["file_urls"]传送到 pipelines def parse_item(self, response) 阅读全文

posted @ 2021-03-31 10:53 .Tang 阅读(275) 评论(0) 推荐(0)

scrapy下载图片坑

摘要：ptt = r"http[s]*://[a-zA-Z0-9-./]+(?:jpg|jpeg|png)" 先是爬取到图片url -> yeild url到piplines中定义图片下载的专属piplines，类中的3个函数名固定的，是从写方法，注意图片命名 class DownloadImages 阅读全文

posted @ 2021-03-29 17:31 .Tang 阅读(219) 评论(0) 推荐(0)

一个连续的scrapy

摘要：1.创建一个scrapy项目 scrapy startproject SpiderAnything 2.生成一个爬虫 itcash爬虫名字， itcash.cn爬虫范围 scrapy genspider tb 'taobao.com' # 启动爬虫 or 创建py启动文件 ps:windows可通过阅读全文

posted @ 2021-03-29 15:17 .Tang 阅读(130) 评论(0) 推荐(0)

scrapy 分布式爬虫- RedisCrawlSpider

摘要：CrawlSpider 阅读全文

posted @ 2019-05-10 16:36 .Tang 阅读(123) 评论(0) 推荐(0)

scrapy 分布式爬虫- RedisSpider

摘要：爬去当当书籍信息多台机器同时爬取，共用一个redis记录 scrapy_redis 带爬取的request对象储存在redis中，每台机器读取request对象并删除记录，经行爬取。实现分布式爬虫阅读全文

posted @ 2019-05-10 16:27 .Tang 阅读(139) 评论(0) 推荐(0)

scrapy爬去京东书籍信息

摘要：# -*- coding: utf-8 -*- import scrapy import urllib import json from copy import deepcopy class JdSpider(scrapy.Spider): name = 'jd' allowed_domains = ['jd.com', 'p.3.cn'] start_urls ... 阅读全文

posted @ 2019-04-28 22:26 .Tang 阅读(331) 评论(0) 推荐(0)

scrapy-redis

摘要：scrapy_redis的大概思路：将爬取的url通过 hashlin.sha1生成唯一的指纹，持久化存入redis，之后的url判断是否已经存在，达到去重的效果下载scrapy-redis settings 阅读全文

posted @ 2019-04-28 16:08 .Tang 阅读(263) 评论(0) 推荐(0)

xpath， urllib

摘要：xpath 响应的同类数据但是格式不同，比如此时取文本可以这样取响应的同类数据但是格式不同，比如完善url 阅读全文

posted @ 2019-04-28 14:01 .Tang 阅读(229) 评论(0) 推荐(0)

scrapy-middlewares

摘要：1.scrapy中间件下载中间件Downloader Middlewares 下载器中间件处理请求与响应，对应两个方法 process_request(self, request, spider) 每个request通过下载器中间件时，该方法被调用 process_response(self, r 阅读全文

posted @ 2019-04-27 19:01 .Tang 阅读(600) 评论(0) 推荐(0)

scrpy-cookie

摘要：两种方法模拟登陆 1.直接携带cookie 2.找到发送post请求的url地址，带上信息，发送请求。 scrapy.FormRequest 阅读全文

posted @ 2019-04-27 17:34 .Tang 阅读(341) 评论(0) 推荐(0)

crawlspider

摘要：crawlspider提取url 创建一个crawlspider爬虫 scrapy genspider --t crawl baidu baidu.com py脚本启动多个spider from scrapy.utils.project import get_project_settings fro 阅读全文

posted @ 2019-04-27 14:40 .Tang 阅读(122) 评论(0) 推荐(0)

scrapy-pipeline的方法

摘要：a 阅读全文

posted @ 2019-04-11 17:33 .Tang 阅读(156) 评论(0) 推荐(0)

scrapy-shell， settings

摘要：进入scrapy shell交互终端 scrapy shell url settings配置文件可以通过 spider对象调用阅读全文

posted @ 2019-04-11 17:05 .Tang 阅读(286) 评论(0) 推荐(0)

scrapy-items

摘要：items定义字段名字当怕爬取到数据时 pipelines储存进mongodb，需将数据转换成dict 阅读全文

posted @ 2019-04-10 18:34 .Tang 阅读(172) 评论(0) 推荐(0)

scrapy-实现下一页请求， scrapy.Request

摘要：# -*- coding: utf-8 -*- import scrapy class HrSpider(scrapy.Spider): name = 'hr' allowed_domains = ['tencent.com'] start_urls = ['https://hr.tencent.com/position.php'] def parse(... 阅读全文

posted @ 2019-04-10 17:57 .Tang 阅读(563) 评论(0) 推荐(0)

scrapy-logging

摘要：settings 阅读全文

posted @ 2019-04-10 15:50 .Tang 阅读(133) 评论(0) 推荐(0)

scrapy-pipeline,mysql

摘要：scrapy中多个pipeline作用：一个项目可能需要爬取多个网站，根据每个网站的数据量（处理方式）不同，可创建多个管道 pipeline pipeline的方法 mysql mongodb 阅读全文

posted @ 2019-04-10 15:28 .Tang 阅读(282) 评论(0) 推荐(0)

scrapy

摘要：scrapy中间件下载中间件Downloader Middlewares和开发代理中间件 1.创建一个scrapy项目 scrapy startproject SpiderAnything 2.生成一个爬虫 itcash爬虫名字， itcash.cn爬虫范围 scrapy genspider it 阅读全文

posted @ 2019-04-10 15:18 .Tang 阅读(208) 评论(0) 推荐(0)