摘要: 京东这一个网站呢,适合和豆瓣有点相似的,但是呢,豆瓣应该是最近改版了,看过以前的视频都知道,豆瓣和京东,里面的滑块图片和背景图片都能在我们的网页中的src中找到但是呢,豆瓣改成了下面的鬼样子。 那我们的京东是可以在网页中找到我们滑块图片和背景图的src属性。而豆瓣呢只能通过打码平台去实现滑动,你说巧 阅读全文
posted @ 2022-10-17 13:07 南潇 阅读(550) 评论(0) 推荐(0)
摘要: 相信有很多新手小白都跟我遇到一样的问题,在验证码识别这一块出现了很多的问题。 那么,我是对于那些截图的验证码的提交的方法有些混乱,但是,有些打码平台给出的案列呢,又无法看明白,搞了几天都没能搞出来的。这一种是非常的痛苦的。那么对于自动化登录,验证码的类型有非常的多。列子如下: 纯英文 纯数字 英文加 阅读全文
posted @ 2022-10-14 09:10 南潇 阅读(328) 评论(0) 推荐(0)
摘要: 总有那么几个网站总是不按照套路出牌。那么微博指数必然是属于其中之一。 1.找到微博指数的网站进入之后,你就会发现界面压根就没有任何的数据。 那么在这个界面呢,我们需要打开浏览器的抓包工具,然后切换成手机端才能让其显示数据。 点击之后刷新按钮,就可以得到数据 然而我们的这个网站是一个异步的加载方式,那 阅读全文
posted @ 2022-10-10 12:37 南潇 阅读(320) 评论(0) 推荐(0)
摘要: 是否还在跟男朋友或者第女朋友聊天的时候说不出他的专属情话,别急,哥们,这不就来了吗!! 1.首先我们需要在度娘的输入框中输入情话网。 这里的对象任你选择。。 现在呢,我们就是碎念选择一个,就好比如女朋友吧! 点击之后,右键选择检查,选择网络,这里的内容都是一个静态加载的内容,所以就不用担心打印的re 阅读全文
posted @ 2022-10-10 10:49 南潇 阅读(59) 评论(0) 推荐(0)
摘要: 众所周知,最基本的记载方式分为两种。一种为同步,一种为异步。 那么该如何区分同步和异步呢??? 教一个简单的方式。看一下左上角的刷新按钮,如果他动了就是同步,没变化就是异步(自己的认识方式)。 那么以腾讯新闻为例,她是一个妥妥的一个异步加载,并且返回的对象是一个json字符串格式。 打开抓包工具,选 阅读全文
posted @ 2022-10-09 18:53 南潇 阅读(358) 评论(0) 推荐(0)
摘要: 1.图片的加载信息只有两种,(个人认为,目前只遇到过两种) - 同步加载 - 异步加载 2.(1)同步加载,在你返回的数据中可以清晰的看到,你所需要的数据全部都在你所打印的response中,也就是说,可以找到想想要的数据。那么只需要一个简单的模板就可以爬取你想要的数据信息,以及图片信息。 (2)异 阅读全文
posted @ 2022-10-09 14:44 南潇 阅读(65) 评论(0) 推荐(0)
摘要: 1.创建一个scrapy项目 scrapy startgproject tupian cd tupian 创建爬虫文件 scrapy genspider Image www.com(域名)后续需要更改 开通pip管道是需要注意,我们将之前的类注释了,所以我们需要将原来的pip管道的名称加以修改 在终 阅读全文
posted @ 2022-10-09 13:16 南潇 阅读(49) 评论(0) 推荐(0)
摘要: 校花网的信息资源都可以在我们打印出来的响应对象中找到,所以说,校花网的加载方式是属于静态加载的,所以,我们就可以直接在scrapy框架中的爬虫文件档中将我们所需要的信息全部爬取下来。 1.新建一个scrapy项目文件 在我们的pycharm当中有一个Terminal,我们点击他,就回出现以下。 这里 阅读全文
posted @ 2022-10-09 12:32 南潇 阅读(49) 评论(0) 推荐(0)