15-scrapy - 随笔分类(第2页) - 守护式等待

摘要：测ip地址http://2018.ip138.com/ic.asphttps://www.ip.cn/ 阅读全文

posted @ 2018-12-19 14:56 守护式等待阅读(255) 评论(0) 推荐(0)

摘要：1. 安装Scrapyd sudo pip3.6 install scrapyd # 安装scrapyd服务 sudo pip3.6 install scrapyd-client # 安装scrapyd客户端 1.1 修改default_scrapyd.conf文件使外部能访问 vim /usr/ 阅读全文

posted @ 2018-12-19 13:52 守护式等待阅读(1199) 评论(0) 推荐(0)

setting 常用配置

摘要：一，保存logging 信息 # 保存log信息的文件名 LOG_LEVEL = "INFO" LOG_STDOUT = True LOG_ENCODING = 'utf-8' # 路径 os.path.dirname(os.path.dirname(os.path.dirname(__file__ 阅读全文

posted @ 2018-12-17 20:29 守护式等待阅读(768) 评论(0) 推荐(0)

requests

摘要：一，requests发请求 s = requests.Session() payload = {'key1': 'value1', 'key2': 'value2'} proxies = {'http': 'http://47.98.163.18:8080', 'https': 'http://47 阅读全文

posted @ 2018-12-17 16:25 守护式等待阅读(1111) 评论(0) 推荐(0)

scrapy 常用代码

摘要：一，scrapy请求 yield scrapy.Request(url=url, dont_filter=True, callback=self.page, meta={'item': copy.deepcopy(item)}) yield scrapy.FormRequest(url=self.u 阅读全文

posted @ 2018-12-17 16:05 守护式等待阅读(593) 评论(0) 推荐(0)

middleware

摘要：from collections import defaultdict import logging import pprint from scrapy.exceptions import NotConfigured from scrapy.utils.misc import load_object from scrapy.utils.defer import process_parallel... 阅读全文

posted @ 2018-12-17 14:33 守护式等待阅读(410) 评论(0) 推荐(0)

scrapy-redis

摘要：Scrapy 和 scrapy-redis的区别 Scrapy 是一个通用的爬虫框架，但是不支持分布式，Scrapy-redis是为了更方便地实现Scrapy分布式爬取，而提供了一些以redis为基础的组件(仅有组件)。 pip install scrapy-redis Scrapy-redis提供阅读全文

posted @ 2018-12-17 14:31 守护式等待阅读(551) 评论(0) 推荐(0)

CrawlSpiders

摘要：CrawlSpiders 通过下面的命令可以快速创建 CrawlSpider模板的代码： scrapy genspider -t crawl tencent tencent.com 上一个案例中，我们通过正则表达式，制作了新的url作为Request请求参数，现在我们可以换个花样... class 阅读全文

posted @ 2018-12-17 14:30 守护式等待阅读(321) 评论(1) 推荐(0)

Spider

摘要：Spider Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。换句话说，Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。 class scrapy.Spider是最基本的类，所有编写阅读全文

posted @ 2018-12-17 14:28 守护式等待阅读(594) 评论(0) 推荐(0)

Scrapy 框架

摘要：Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。 Scrapy 使用了 Twisted['twɪstɪd](其主要对手阅读全文

posted @ 2018-12-17 14:25 守护式等待阅读(199) 评论(0) 推荐(0)

Selenium

摘要：Selenium Selenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，类型像我们玩游戏用的按键精灵，可以按指定的命令自动操作，不同是Selenium 可以直接运行在浏览器上，它支持所有主流的浏览器（包括PhantomJS这些无界面的浏览器）。 Selenium 可以根据我们阅读全文

posted @ 2018-12-17 14:23 守护式等待阅读(497) 评论(0) 推荐(0)

随笔分类 - 15-scrapy