随笔分类 -  scrapy框架爬虫

摘要:在上篇博客中总结了scrapy+selenium实战,但是那样在抓取大量数据时效率很慢,所以准备采取调用API的办法进行抓取,本篇博客记录scrapy调用API抓取信息实战。 如何找到相关数据API:在想要抓取数据的当前网页打开网页抓包工具,选择 network——>XHR后点开每个XHR选择pre 阅读全文
posted @ 2022-04-07 16:58 肥余 阅读(1030) 评论(1) 推荐(0)
摘要:最近编写了一个爬取震坤行(网址:https://www.zkh.com/)所有分类的产品数据以及产品的同型号产品数据,在编写爬虫的过程中遇到不少问题,故记录在这篇博客中为以后的遇到问题时提供解决思路。 问题总结: 同一页数据需要滚轮拖动加载才能完全显示,否则不能完全爬取——>滚轮拖拽 横向、纵向拖动 阅读全文
posted @ 2022-04-04 20:15 肥余 阅读(825) 评论(0) 推荐(0)
摘要:通俗讲解APIhttps://www.zhihu.com/question/21430743 利用网页API爬取数据https://zhuanlan.zhihu.com/p/418869045 爬虫与APIhttps://zhuanlan.zhihu.com/p/36260167 爬虫系列总结htt 阅读全文
posted @ 2022-03-27 20:44 肥余 阅读(199) 评论(0) 推荐(0)
摘要:数据提取 response.xpath(........./text()).extract_first( ) 提取xpath到的第一个文本 response.xpath(.........//text()).extract( ) 提取xpath到的所有文本,其中可能有br分段 请求传参 在请求传参过 阅读全文
posted @ 2022-03-25 21:01 肥余 阅读(40) 评论(0) 推荐(0)
摘要:刚开始学习selenium动态网页的爬虫,就想着自己做个实战练习练习,然后就准备爬取马蜂窝旅游网重庆的全部旅游景点,本来以为不是特别难,没想到中间还是出现了很多问题,包括重写下载中间件,加cookies,selenium动态刷新下一页网页后提取到的数据仍然是前一页的数据,提取元素的方法选择,子页面跳 阅读全文
posted @ 2022-03-23 13:52 肥余 阅读(1183) 评论(0) 推荐(0)
摘要:在我们编写爬虫文件时有时会发现网页上的数据抓取不到,页面源代码没有相应数据,那么这些就是动态加载的数据,需要使用selenium模块实现网页动态数据的抓取。 from selenium import webdriver from lxml import etree from time import 阅读全文
posted @ 2022-03-20 14:38 肥余 阅读(196) 评论(0) 推荐(0)
摘要:Scrapy框架 crapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。 Scheduler(调度器): 它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还 阅读全文
posted @ 2022-03-10 12:41 肥余 阅读(102) 评论(0) 推荐(0)
摘要:有时候我们会遇到这样一个问题,就是明明xpath解析式是对的,但是却一直返回空列表的情况,这个时候我们就需要注意我们爬取的网页是哪种渲染方式,如果是服务器渲染那么通过xpath我们就可以轻松得到想要的内容,但如果是客户端渲染那么我们将得不到想要的数据,两者的区别在于前者在网页源代码中有相应内容,而后 阅读全文
posted @ 2022-03-10 12:17 肥余 阅读(2212) 评论(0) 推荐(0)
摘要:Re解析(正则表达式): 常用元字符 re模块: re.findall(正则表达式,原始字符串) 匹配字符串中所有符合正则的内容,返回列表 import re s=re.findall(r"\d",'12erfc456gffg7') print(s) ['1', '2', '4', '5', '6' 阅读全文
posted @ 2022-03-09 20:46 肥余 阅读(90) 评论(0) 推荐(0)
摘要:Web请求过程: 服务器渲染:收到请求后服务器把请求的数据和html整合在一起打包返回给浏览器,只需要一次访问就能得到想要的数据,查看网页源代码可以找到相应数据。 客户端渲染:收到请求后服务器直接返回网页骨架,但是没有数据,需要第二次请求数据才能得到相应数据,查看网页源代码没有相应数据,通过浏览器两 阅读全文
posted @ 2022-03-09 11:18 肥余 阅读(46) 评论(0) 推荐(0)