Dbass

导航

随笔分类 -  爬虫

scrapy爬虫之断点续爬和多个spider同时爬取
摘要:from scrapy.commands import ScrapyCommand from scrapy.utils.project import get_project_settings #断点续爬scrapy crawl spider_name -s JOBDIR=crawls/spider_ 阅读全文

posted @ 2018-03-20 10:04 Dbass 阅读(3220) 评论(0) 推荐(0)

scrapy爬虫之模拟ajax post请求获取数据
摘要:实质:分析真实请求地址,根据规则构造新地址从而获得数据。 分析发现数据是通过异步ajax方式→post 获得的 于是通过分析response ↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓ 发现每次翻页 网页都会新请求一个NoticeKTSearch,以post方式请求 ↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓ 阅读全文

posted @ 2018-03-01 10:34 Dbass 阅读(634) 评论(0) 推荐(0)

scrapy 中 xpath 用string方法提取带有空格符解决方法
摘要:注释掉的是刚开始的代码,匹配的全是带空格的,replace替换不了空格 后面加上了normalize-space() 匹配到的文本内容变成了可replace 问题解决 阅读全文

posted @ 2018-01-31 17:01 Dbass 阅读(452) 评论(0) 推荐(0)

利用正则+requests爬取猫眼电影信息
摘要:1 import json 2 # from multiprocessing import Pool 3 import requests 4 from requests.exceptions import RequestException 5 import re 6 7 8 def get_one_ 阅读全文

posted @ 2017-11-30 16:45 Dbass 阅读(888) 评论(0) 推荐(1)

selenium+phantomjs+pyquery 爬取淘宝商品信息
摘要:1 from selenium import webdriver 2 from selenium.common.exceptions import TimeoutException 3 from selenium.webdriver.common.by import By 4 from seleni 阅读全文

posted @ 2017-11-30 16:38 Dbass 阅读(258) 评论(0) 推荐(0)