摘要: Mongo_如果快速学习Mongo MongoDB与RDMS(关系型数据库)比较,如下图所示 RDMS MongoDB database(数据库) database(数据库) table (表) collection( 集合) row( 行) document( BSON 文档) column (列 阅读全文
posted @ 2023-06-25 21:56 jiang_jiayun 阅读(19) 评论(0) 推荐(0)
摘要: MongoDB介绍 MongoDB简介 MongoDB 是免费开源的跨平台 NoSQL 数据库,命名源于英文单词 humongous,意思是「巨大无比」,可见开发组对 MongoDB 的定位。 与关系型数据库不同,MongoDB 的数据以类似于 JSON 格式的二进制文档存储: { name: "i 阅读全文
posted @ 2023-06-25 21:47 jiang_jiayun 阅读(49) 评论(0) 推荐(0)
摘要: 下载中间件实战-Scrapy与Selenium结合 有的页面反爬技术比较高端,一时破解不了,这时我们就是可以考虑使用selenium来降低爬取的难度。 问题来了,如何将Scrapy与Selenium结合使用呢? 思考的思路: 只是用Selenium来帮助下载数据。因此可以考虑通过下载中间件来处理这块 阅读全文
posted @ 2023-06-25 20:13 jiang_jiayun 阅读(137) 评论(0) 推荐(0)
摘要: from scrapy.downloadermiddlewares.httpproxy import HttpProxyMiddleware class MyProxyMiddleware: def process_request(self, request, spider): # request. 阅读全文
posted @ 2023-06-25 19:30 jiang_jiayun 阅读(45) 评论(0) 推荐(0)
摘要: Scrapy 中 Downloader 设置UA 下载中间件是Scrapy请求/响应处理的钩子框架。这是一个轻、低层次的应用。 通过可下载中间件,可以处理请求之前和请求之后的数据。 如果使用下载中间件需要在Scrapy中的setting.py的配置DOWNLOADER_MIDDLEWARES才可以使 阅读全文
posted @ 2023-06-25 19:17 jiang_jiayun 阅读(105) 评论(0) 推荐(0)
摘要: Scrapy中下载中间件 下载中间件是Scrapy请求/响应处理的钩子框架。这是一个轻、低层次的应用。 通过可下载中间件,可以处理请求之前和请求之后的数据。 每个中间件组件都是一个Python类,它定义了一个或多个以下方法,我们可能需要使用方法如下: process_request() proces 阅读全文
posted @ 2023-06-25 18:06 jiang_jiayun 阅读(70) 评论(0) 推荐(0)
摘要: FormRequest是Request的扩展类,具体常用的功能如下: 请求时,携带参数,如表单数据 从Response中获取表单的数据 FormRequest类可以携带参数主要原因是:增加了新的构造函数的参数formdata。其余的参数与Request类相同. formdata参数类型为:dict 阅读全文
posted @ 2023-06-25 16:14 jiang_jiayun 阅读(275) 评论(0) 推荐(0)
摘要: Cookie的使用 import scrapy class CookieSpider(scrapy.Spider): name = "爬虫名" allowed_domains = ["域名.com"] start_urls = ["url地址"] def start_requests(self): 阅读全文
posted @ 2023-06-25 15:52 jiang_jiayun 阅读(53) 评论(0) 推荐(0)
摘要: import scrapy class BaiduSpider(scrapy.Spider): name = "baidu" allowed_domains = ["baidu.com"] start_urls = ["https://baidu.com"] def parse(self, resp 阅读全文
posted @ 2023-06-25 15:14 jiang_jiayun 阅读(204) 评论(0) 推荐(0)
摘要: request里面的meta 的使用 import scrapy class Xs2Spider(scrapy.Spider): name = "爬虫名" allowed_domains = ["域名"] start_urls = ["url地址"] def parse(self, response 阅读全文
posted @ 2023-06-25 14:14 jiang_jiayun 阅读(60) 评论(0) 推荐(0)