爬虫 - 随笔分类 - Dbass

scrapy爬虫之断点续爬和多个spider同时爬取

摘要：from scrapy.commands import ScrapyCommand from scrapy.utils.project import get_project_settings #断点续爬scrapy crawl spider_name -s JOBDIR=crawls/spider_ 阅读全文

posted @ 2018-03-20 10:04 Dbass 阅读(3220) 评论(0) 推荐(0)

scrapy爬虫之模拟ajax post请求获取数据

摘要：实质：分析真实请求地址,根据规则构造新地址从而获得数据。分析发现数据是通过异步ajax方式→post 获得的于是通过分析response ↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓ 发现每次翻页网页都会新请求一个NoticeKTSearch，以post方式请求 ↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓ 阅读全文

posted @ 2018-03-01 10:34 Dbass 阅读(634) 评论(0) 推荐(0)

scrapy 中 xpath 用string方法提取带有空格符解决方法

摘要：注释掉的是刚开始的代码，匹配的全是带空格的，replace替换不了空格后面加上了normalize-space（）匹配到的文本内容变成了可replace 问题解决阅读全文

posted @ 2018-01-31 17:01 Dbass 阅读(452) 评论(0) 推荐(0)

利用正则+requests爬取猫眼电影信息

摘要：1 import json 2 # from multiprocessing import Pool 3 import requests 4 from requests.exceptions import RequestException 5 import re 6 7 8 def get_one_ 阅读全文

posted @ 2017-11-30 16:45 Dbass 阅读(888) 评论(0) 推荐(1)

selenium+phantomjs+pyquery 爬取淘宝商品信息

摘要：1 from selenium import webdriver 2 from selenium.common.exceptions import TimeoutException 3 from selenium.webdriver.common.by import By 4 from seleni 阅读全文

posted @ 2017-11-30 16:38 Dbass 阅读(258) 评论(0) 推荐(0)

Dbass

导航

公告

随笔分类 - 爬虫

scrapy爬虫之断点续爬和多个spider同时爬取

scrapy爬虫之模拟ajax post请求获取数据

scrapy 中 xpath 用string方法提取带有空格符解决方法

利用正则+requests爬取猫眼电影信息

selenium+phantomjs+pyquery 爬取淘宝商品信息