随笔分类 -  python爬虫

摘要:动态网页抓取问题 某些网站采用动态网页技术,页面中的数据通过执行js向dom树中动态增加元素,这样的网页我们无法直接从网页源代码中获取数据,因为这是客户端(浏览器)执行js后动态添加的 无头浏览器 一个无界面的浏览器,可以执行与其他浏览器同样的操作,接受网页数据并渲染,执行js文件,动态的生成dom 阅读全文
posted @ 2020-06-09 18:55 没有想象力 阅读(428) 评论(0) 推荐(0)
摘要:XPath 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历,快速提取xml文档中的的信息,详细的xpath教程参见:https://www.w3school.com.cn/xpath/index.asp。 xpath用法 //任意层次下,/ 根或下一层 //@i 阅读全文
posted @ 2020-06-09 18:47 没有想象力 阅读(2800) 评论(0) 推荐(0)
摘要:scrapy-redis模块 scrapy-redis是为了实现scrapy的分布式爬取而提供了一个python库,通过更换scrapy的内置组件,将爬取请求队列和item数据放入第三方的redis数据库中,由此可以有多个scrapy进程从redis中读取request数据和写入items数据,实现 阅读全文
posted @ 2020-06-09 18:33 没有想象力 阅读(1330) 评论(0) 推荐(0)
摘要:scrapy 流程图 Scrap Engine(引擎) 负责控制数据流在系统中所有组件中流动,并在相应动作发生时触发事件,是整个爬虫的调度中心。 调度器( Scheduler) 调度器接收从引擎发送过来的 request,并将他们加入到爬取队列,以便之后引擎请求他们时提供给引擎。初始的爬取URL和后 阅读全文
posted @ 2020-06-09 18:25 没有想象力 阅读(3160) 评论(0) 推荐(1)
摘要:urllib包 urllib是python3中的一个标准库,它是一个工具包模块,使用该模块我们可以模仿浏览器向服务器发送请求,并获得返回结果数据进行处理。 urllib包分级简单,在该包下5个模块 urllib.request :用于打开和读写url urllib.response:将获取后的内容进 阅读全文
posted @ 2020-06-09 17:38 没有想象力 阅读(528) 评论(0) 推荐(0)