2023 年 6月 25 日随笔档案 - jiang_jiayun

2023年6月25日

摘要： Mongo_如果快速学习Mongo MongoDB与RDMS(关系型数据库)比较，如下图所示 RDMS MongoDB database（数据库） database（数据库） table （表） collection（集合） row（行） document（ BSON 文档） column （列阅读全文

posted @ 2023-06-25 21:56 jiang_jiayun 阅读(21) 评论(0) 推荐(0)

MongoDB介绍

摘要： MongoDB介绍 MongoDB简介 MongoDB 是免费开源的跨平台 NoSQL 数据库，命名源于英文单词 humongous，意思是「巨大无比」，可见开发组对 MongoDB 的定位。与关系型数据库不同，MongoDB 的数据以类似于 JSON 格式的二进制文档存储： { name: "i 阅读全文

posted @ 2023-06-25 21:47 jiang_jiayun 阅读(59) 评论(0) 推荐(0)

下载中间件实战-Scrapy与Selenium结合

摘要：下载中间件实战-Scrapy与Selenium结合有的页面反爬技术比较高端，一时破解不了，这时我们就是可以考虑使用selenium来降低爬取的难度。问题来了，如何将Scrapy与Selenium结合使用呢？思考的思路：只是用Selenium来帮助下载数据。因此可以考虑通过下载中间件来处理这块阅读全文

posted @ 2023-06-25 20:13 jiang_jiayun 阅读(140) 评论(0) 推荐(0)

Scrapy 中 Downloader 设置代理

摘要： from scrapy.downloadermiddlewares.httpproxy import HttpProxyMiddleware class MyProxyMiddleware: def process_request(self, request, spider): # request. 阅读全文

posted @ 2023-06-25 19:30 jiang_jiayun 阅读(49) 评论(0) 推荐(0)

Scrapy_下载中间件设置UserAgent

摘要： Scrapy 中 Downloader 设置UA 下载中间件是Scrapy请求/响应处理的钩子框架。这是一个轻、低层次的应用。通过可下载中间件，可以处理请求之前和请求之后的数据。如果使用下载中间件需要在Scrapy中的setting.py的配置DOWNLOADER_MIDDLEWARES才可以使阅读全文

posted @ 2023-06-25 19:17 jiang_jiayun 阅读(107) 评论(0) 推荐(0)

Scrapy中下载中间件

摘要： Scrapy中下载中间件下载中间件是Scrapy请求/响应处理的钩子框架。这是一个轻、低层次的应用。通过可下载中间件，可以处理请求之前和请求之后的数据。每个中间件组件都是一个Python类，它定义了一个或多个以下方法，我们可能需要使用方法如下： process_request() proces 阅读全文

posted @ 2023-06-25 18:06 jiang_jiayun 阅读(76) 评论(0) 推荐(0)

Scrapy_FormRequest对象的使用

摘要： FormRequest是Request的扩展类，具体常用的功能如下：请求时，携带参数，如表单数据从Response中获取表单的数据 FormRequest类可以携带参数主要原因是：增加了新的构造函数的参数formdata。其余的参数与Request类相同. formdata参数类型为:dict 阅读全文

posted @ 2023-06-25 16:14 jiang_jiayun 阅读(283) 评论(0) 推荐(0)

Scrapy_Request对象Cookie的演示

摘要： Cookie的使用 import scrapy class CookieSpider(scrapy.Spider): name = "爬虫名" allowed_domains = ["域名.com"] start_urls = ["url地址"] def start_requests(self): 阅读全文

posted @ 2023-06-25 15:52 jiang_jiayun 阅读(60) 评论(0) 推荐(0)

Scrapy_Request对象dont_filter演示

摘要： import scrapy class BaiduSpider(scrapy.Spider): name = "baidu" allowed_domains = ["baidu.com"] start_urls = ["https://baidu.com"] def parse(self, resp 阅读全文

posted @ 2023-06-25 15:14 jiang_jiayun 阅读(211) 评论(0) 推荐(0)

Scrapy_Request对象meta演示

摘要： request里面的meta 的使用 import scrapy class Xs2Spider(scrapy.Spider): name = "爬虫名" allowed_domains = ["域名"] start_urls = ["url地址"] def parse(self, response 阅读全文

posted @ 2023-06-25 14:14 jiang_jiayun 阅读(67) 评论(0) 推荐(0)

jiangjiayun

公告