摘要:
Mongo_如果快速学习Mongo MongoDB与RDMS(关系型数据库)比较,如下图所示 RDMS MongoDB database(数据库) database(数据库) table (表) collection( 集合) row( 行) document( BSON 文档) column (列 阅读全文
posted @ 2023-06-25 21:56
jiang_jiayun
阅读(19)
评论(0)
推荐(0)
摘要:
MongoDB介绍 MongoDB简介 MongoDB 是免费开源的跨平台 NoSQL 数据库,命名源于英文单词 humongous,意思是「巨大无比」,可见开发组对 MongoDB 的定位。 与关系型数据库不同,MongoDB 的数据以类似于 JSON 格式的二进制文档存储: { name: "i 阅读全文
posted @ 2023-06-25 21:47
jiang_jiayun
阅读(49)
评论(0)
推荐(0)
摘要:
下载中间件实战-Scrapy与Selenium结合 有的页面反爬技术比较高端,一时破解不了,这时我们就是可以考虑使用selenium来降低爬取的难度。 问题来了,如何将Scrapy与Selenium结合使用呢? 思考的思路: 只是用Selenium来帮助下载数据。因此可以考虑通过下载中间件来处理这块 阅读全文
posted @ 2023-06-25 20:13
jiang_jiayun
阅读(137)
评论(0)
推荐(0)
摘要:
from scrapy.downloadermiddlewares.httpproxy import HttpProxyMiddleware class MyProxyMiddleware: def process_request(self, request, spider): # request. 阅读全文
posted @ 2023-06-25 19:30
jiang_jiayun
阅读(45)
评论(0)
推荐(0)
摘要:
Scrapy 中 Downloader 设置UA 下载中间件是Scrapy请求/响应处理的钩子框架。这是一个轻、低层次的应用。 通过可下载中间件,可以处理请求之前和请求之后的数据。 如果使用下载中间件需要在Scrapy中的setting.py的配置DOWNLOADER_MIDDLEWARES才可以使 阅读全文
posted @ 2023-06-25 19:17
jiang_jiayun
阅读(105)
评论(0)
推荐(0)
摘要:
Scrapy中下载中间件 下载中间件是Scrapy请求/响应处理的钩子框架。这是一个轻、低层次的应用。 通过可下载中间件,可以处理请求之前和请求之后的数据。 每个中间件组件都是一个Python类,它定义了一个或多个以下方法,我们可能需要使用方法如下: process_request() proces 阅读全文
posted @ 2023-06-25 18:06
jiang_jiayun
阅读(70)
评论(0)
推荐(0)
摘要:
FormRequest是Request的扩展类,具体常用的功能如下: 请求时,携带参数,如表单数据 从Response中获取表单的数据 FormRequest类可以携带参数主要原因是:增加了新的构造函数的参数formdata。其余的参数与Request类相同. formdata参数类型为:dict 阅读全文
posted @ 2023-06-25 16:14
jiang_jiayun
阅读(275)
评论(0)
推荐(0)
摘要:
Cookie的使用 import scrapy class CookieSpider(scrapy.Spider): name = "爬虫名" allowed_domains = ["域名.com"] start_urls = ["url地址"] def start_requests(self): 阅读全文
posted @ 2023-06-25 15:52
jiang_jiayun
阅读(53)
评论(0)
推荐(0)
摘要:
import scrapy class BaiduSpider(scrapy.Spider): name = "baidu" allowed_domains = ["baidu.com"] start_urls = ["https://baidu.com"] def parse(self, resp 阅读全文
posted @ 2023-06-25 15:14
jiang_jiayun
阅读(204)
评论(0)
推荐(0)
摘要:
request里面的meta 的使用 import scrapy class Xs2Spider(scrapy.Spider): name = "爬虫名" allowed_domains = ["域名"] start_urls = ["url地址"] def parse(self, response 阅读全文
posted @ 2023-06-25 14:14
jiang_jiayun
阅读(60)
评论(0)
推荐(0)