python爬虫 - 随笔分类 - 没有想象力

selenium的基本使用

摘要：动态网页抓取问题某些网站采用动态网页技术，页面中的数据通过执行js向dom树中动态增加元素，这样的网页我们无法直接从网页源代码中获取数据，因为这是客户端（浏览器）执行js后动态添加的无头浏览器一个无界面的浏览器，可以执行与其他浏览器同样的操作，接受网页数据并渲染，执行js文件，动态的生成dom 阅读全文

posted @ 2020-06-09 18:55 没有想象力阅读(428) 评论(0) 推荐(0)

xpath 和 jsonpath 解析

摘要：XPath 是一门在 XML 文档中查找信息的语言，可用来在 XML 文档中对元素和属性进行遍历，快速提取xml文档中的的信息，详细的xpath教程参见：https://www.w3school.com.cn/xpath/index.asp。 xpath用法 //任意层次下，/ 根或下一层 //@i 阅读全文

posted @ 2020-06-09 18:47 没有想象力阅读(2800) 评论(0) 推荐(0)

python分布式爬虫框架 --- scrapy-redis

摘要：scrapy-redis模块 scrapy-redis是为了实现scrapy的分布式爬取而提供了一个python库，通过更换scrapy的内置组件，将爬取请求队列和item数据放入第三方的redis数据库中，由此可以有多个scrapy进程从redis中读取request数据和写入items数据，实现阅读全文

posted @ 2020-06-09 18:33 没有想象力阅读(1330) 评论(0) 推荐(0)

python爬虫框架——scrapy

摘要：scrapy 流程图 Scrap Engine(引擎) 负责控制数据流在系统中所有组件中流动，并在相应动作发生时触发事件，是整个爬虫的调度中心。调度器（ Scheduler）调度器接收从引擎发送过来的 request，并将他们加入到爬取队列，以便之后引擎请求他们时提供给引擎。初始的爬取URL和后阅读全文

posted @ 2020-06-09 18:25 没有想象力阅读(3160) 评论(0) 推荐(1)

python爬虫 --- urllib

摘要：urllib包 urllib是python3中的一个标准库，它是一个工具包模块，使用该模块我们可以模仿浏览器向服务器发送请求，并获得返回结果数据进行处理。 urllib包分级简单，在该包下5个模块 urllib.request ：用于打开和读写url urllib.response：将获取后的内容进阅读全文

posted @ 2020-06-09 17:38 没有想象力阅读(528) 评论(0) 推荐(0)

学习

随笔分类 - python爬虫

公告