上一页 1 ··· 88 89 90 91 92 93 94 95 96 ··· 98 下一页
摘要: Scrapy框架进阶之start_requests重写 start_rquests重写 scrapy中start_url是通过start_requests来进行处理的, 其实现代码如下 def start_requests(self): cls = self.__class__ if method_ 阅读全文
posted @ 2023-04-19 10:15 Chimengmeng 阅读(268) 评论(0) 推荐(0)
摘要: Scrapy框架之Settings配置文件 1. 为什么项目中需要配置文件 在配置文件中存放一些公共变量,在后续的项目中方便修改,如:本地测试数据库和部署服务器的数据库不一致 2. 配置文件中的变量使用方法 变量名一般全部大写 导入即可使用 3. settings.py中的重点字段和含义 - USE 阅读全文
posted @ 2023-04-19 10:15 Chimengmeng 阅读(41) 评论(0) 推荐(0)
摘要: Scrapy框架之下载中间件 class MyDownMiddleware(object): def process_request(self, request, spider): """ 请求需要被下载时,经过所有下载器中间件的process_request调用 :param request: : 阅读全文
posted @ 2023-04-19 10:14 Chimengmeng 阅读(19) 评论(0) 推荐(0)
摘要: Scrapy框架详解 【1】 Spider类 Spiders是定义如何抓取某个站点(或一组站点)的类,包括如何执行爬行(即跟随链接)以及如何从其页面中提取结构化数据(即抓取项目)。 换句话说,Spiders是您为特定站点(或者在某些情况下,一组站点)爬网和解析页面定义自定义行为的地方。 1、 生成初 阅读全文
posted @ 2023-04-07 15:58 Chimengmeng 阅读(29) 评论(0) 推荐(0)
摘要: Scrapy框架简介 (1)基本介绍 Scrapy一个开源和协作的框架, 其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。 但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在获取API所返 阅读全文
posted @ 2023-04-07 15:57 Chimengmeng 阅读(52) 评论(0) 推荐(0)
摘要: web自动化 随着互联网的发展,前端技术也在不断变化,数据的加载方式也不再是单纯的服务端渲染了。 现在你可以看到很多网站的数据可能都是通过接口的形式传输的, 或者即使不是接口那也是一些 JSON 的数据,然后经过 JavaScript 渲染得出来的。 这时,如果你还用 requests 来爬取内容, 阅读全文
posted @ 2023-04-06 11:15 Chimengmeng 阅读(152) 评论(0) 推荐(0)
摘要: PyMongo 在这里我们来看一下Python3下MongoDB的存储操作,在本节开始之前请确保你已经安装好了MongoDB并启动了其服务,另外安装好了Python的PyMongo库。 安装: pip install pymongo 添加文档 import pymongo client = pymo 阅读全文
posted @ 2023-04-02 20:28 Chimengmeng 阅读(34) 评论(0) 推荐(0)
摘要: MongoDB 一般爬虫使用的数据库,是根据项目来定的。 如需求方指定了使用什么数据库、如果没指定,那么决定权就在爬虫程序员手里, 如果自选的话,mysql 和mongodb 用的都是比较多的。 但不同的数据库品种有各自的优缺点,不同的场景任何一种数据库都可以用来存储,但是某种可能会更好。 比如如果 阅读全文
posted @ 2023-04-02 20:28 Chimengmeng 阅读(26) 评论(0) 推荐(0)
摘要: Python操作redis (1)连接redis # 方式1 import redis r = redis.Redis(host='127.0.0.1', port=6379) r.set('foo', 'Bar') print(r.get('foo')) # 方式2 import redis po 阅读全文
posted @ 2023-04-02 20:26 Chimengmeng 阅读(18) 评论(0) 推荐(0)
摘要: Redis redis介绍 定义 Redis(Remote Dictionary Server ,远程字典服务) 是一个使用ANSIC编写的开源、支持网络、基于内存、可选持久性的键值对存储数据库,是NoSQL数据库。 redis的出现主要是为了替代早期的Memcache缓存系统的。 map内存型(数 阅读全文
posted @ 2023-04-02 20:26 Chimengmeng 阅读(22) 评论(0) 推荐(0)
上一页 1 ··· 88 89 90 91 92 93 94 95 96 ··· 98 下一页