会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
陈乾
博客园
首页
新随笔
联系
管理
订阅
上一页
1
2
3
4
5
6
7
···
14
下一页
2018年5月21日
Scrapy学习-10-Request&Response对象
摘要: 请求URL流程 Scarpy使用请求和响应对象来抓取网站 通常情况下,请求对象会在spider中生成,并在系统中传递,直到到达downloader,它执行请求并返回一个响应对象,该对象返回发送请求的spider。 请求和响应类都有子类,它们添加了基类中不需要的功能。 Request对象 部分参数解析
阅读全文
posted @ 2018-05-21 21:30 前路~
阅读(2590)
评论(0)
推荐(0)
2018年5月17日
Scrapy学习-9-FromRequest
摘要: 用FromRequest模拟登陆知乎网站 实例 默认登陆成功以后的请求都会带上cookie # -*- coding: utf-8 -*- import re import json import datetime try: import urlparse as parse except: from
阅读全文
posted @ 2018-05-17 21:22 前路~
阅读(701)
评论(0)
推荐(0)
Requests模拟登陆
摘要: requests模拟登陆知乎网站 实例 # -*- coding: utf-8 -*- __author__ = 'CQ' import requests try: import cookielib except: import http.cookiejar as cookielib import
阅读全文
posted @ 2018-05-17 21:20 前路~
阅读(218)
评论(0)
推荐(0)
Scrapy学习-8-ItemLoader
摘要: ItemLoader使用 作用 方便管理维护重用xpath或css规则 实例 itemloader+图片处理 # items.py import scrapy from scrapy.loader.processors import MapCompose, Join, TakeFirst from
阅读全文
posted @ 2018-05-17 21:18 前路~
阅读(254)
评论(0)
推荐(0)
Scrapy学习-7-数据存储至数据库
摘要: 使用MySQL数据库存储 安装mysql模块包 pip install mysqlclient 相关库文件 sudo apt-get install libmysqlclient-devel sudo apt-get install python-devel mysql-devel 阻塞型的数据写入
阅读全文
posted @ 2018-05-17 21:16 前路~
阅读(186)
评论(0)
推荐(0)
Scrapy学习-6-JSON数据处理
摘要: 使用json模块处理JSON数据 class JsonwithEncodingPipeline(object): def __init__(self): self.file = codecs.open('article.json', 'w', encoding='utf-8') def proces
阅读全文
posted @ 2018-05-17 21:13 前路~
阅读(343)
评论(0)
推荐(0)
Scrapy学习-5-下载图片实例
摘要: 1. 在项目下创建一个images文件用于存放图片 2. 载图片相关模块 1 pip install pillow 3.修改配置文件,激活pipelines ITEM_PIPELINES = { 'ArticleSpider.pipelines.ArticlespiderPipeline': 300
阅读全文
posted @ 2018-05-17 21:11 前路~
阅读(149)
评论(0)
推荐(0)
Scrapy学习-4-Items类&Pipelines类
摘要: items类使用 作用 能使得我们非常方便的操作字段名 在items.py中定制我们的类 class ArticleItem(scrapy.Item): title = scrapy.Field() create_time = scrapy.Field() url = scrapy.Field()
阅读全文
posted @ 2018-05-17 21:06 前路~
阅读(206)
评论(0)
推荐(0)
Scrapy学习-3-Request回调巧用
摘要: 基于twisted的异步回调 使得页面爬取有阶段性和连续性
阅读全文
posted @ 2018-05-17 21:00 前路~
阅读(325)
评论(0)
推荐(0)
Scrapy学习-2-xpath&css使用
摘要: xpath使用 简介 xpath使用路径表达式在xml和html中进行导航 语法 body # 选取所有body元素的所有子节点 /html # 选取根元素 body/a # 选取所有属于body的子元素的a元素 //div # 选取所有dic子元素(任意地方) body//div # 选取所有属于
阅读全文
posted @ 2018-05-17 20:58 前路~
阅读(358)
评论(0)
推荐(1)
上一页
1
2
3
4
5
6
7
···
14
下一页
公告