摘要: 在上篇博客中总结了scrapy+selenium实战,但是那样在抓取大量数据时效率很慢,所以准备采取调用API的办法进行抓取,本篇博客记录scrapy调用API抓取信息实战。 如何找到相关数据API:在想要抓取数据的当前网页打开网页抓包工具,选择 network——>XHR后点开每个XHR选择pre 阅读全文
posted @ 2022-04-07 16:58 肥余 阅读(1030) 评论(1) 推荐(0)
摘要: 最近编写了一个爬取震坤行(网址:https://www.zkh.com/)所有分类的产品数据以及产品的同型号产品数据,在编写爬虫的过程中遇到不少问题,故记录在这篇博客中为以后的遇到问题时提供解决思路。 问题总结: 同一页数据需要滚轮拖动加载才能完全显示,否则不能完全爬取——>滚轮拖拽 横向、纵向拖动 阅读全文
posted @ 2022-04-04 20:15 肥余 阅读(825) 评论(0) 推荐(0)
摘要: 通俗讲解APIhttps://www.zhihu.com/question/21430743 利用网页API爬取数据https://zhuanlan.zhihu.com/p/418869045 爬虫与APIhttps://zhuanlan.zhihu.com/p/36260167 爬虫系列总结htt 阅读全文
posted @ 2022-03-27 20:44 肥余 阅读(199) 评论(0) 推荐(0)
摘要: 数据提取 response.xpath(........./text()).extract_first( ) 提取xpath到的第一个文本 response.xpath(.........//text()).extract( ) 提取xpath到的所有文本,其中可能有br分段 请求传参 在请求传参过 阅读全文
posted @ 2022-03-25 21:01 肥余 阅读(40) 评论(0) 推荐(0)
摘要: 刚开始学习selenium动态网页的爬虫,就想着自己做个实战练习练习,然后就准备爬取马蜂窝旅游网重庆的全部旅游景点,本来以为不是特别难,没想到中间还是出现了很多问题,包括重写下载中间件,加cookies,selenium动态刷新下一页网页后提取到的数据仍然是前一页的数据,提取元素的方法选择,子页面跳 阅读全文
posted @ 2022-03-23 13:52 肥余 阅读(1183) 评论(0) 推荐(0)
摘要: 在我们编写爬虫文件时有时会发现网页上的数据抓取不到,页面源代码没有相应数据,那么这些就是动态加载的数据,需要使用selenium模块实现网页动态数据的抓取。 from selenium import webdriver from lxml import etree from time import 阅读全文
posted @ 2022-03-20 14:38 肥余 阅读(196) 评论(0) 推荐(0)
摘要: Javascripts 触发事件 DOM 通过 HTML DOM,可访问 JavaScript HTML 文档的所有元素。 JavaScript 能够改变页面中的所有 HTML 元素 JavaScript 能够改变页面中的所有 HTML 属性 JavaScript 能够改变页面中的所有 CSS 样式 阅读全文
posted @ 2022-03-12 00:39 肥余 阅读(55) 评论(0) 推荐(0)
摘要: HTML:用于给网页输入文本内容 常见标签:html,head,title,body,ul,li(ul+li为无序列表),h1~h6,p 常用HTML标签元素结合及简介 <html></html> 创建一个HTML文档 <head></head> 设置文档标题和其它在网页中不显示的信息 <title 阅读全文
posted @ 2022-03-11 22:47 肥余 阅读(191) 评论(0) 推荐(0)
摘要: Scrapy框架 crapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。 Scheduler(调度器): 它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还 阅读全文
posted @ 2022-03-10 12:41 肥余 阅读(102) 评论(0) 推荐(0)
摘要: 有时候我们会遇到这样一个问题,就是明明xpath解析式是对的,但是却一直返回空列表的情况,这个时候我们就需要注意我们爬取的网页是哪种渲染方式,如果是服务器渲染那么通过xpath我们就可以轻松得到想要的内容,但如果是客户端渲染那么我们将得不到想要的数据,两者的区别在于前者在网页源代码中有相应内容,而后 阅读全文
posted @ 2022-03-10 12:17 肥余 阅读(2212) 评论(0) 推荐(0)