摘要: ###简述 今天也是同事在做微信小程序的开发,需要音乐接口的测试,可是用网易云的开放接口比较麻烦,也不能进行测试,这里也是和我说了一下,所以就用爬虫写了个简单网易云歌曲URL的爬虫,把数据存入mysql数据库,再利用django封装装了一个简单的API接口,给同事测试使用。 ###原理 创建djan 阅读全文
posted @ 2021-01-21 13:10 mushroom27 阅读(367) 评论(0) 推荐(0)
摘要: 这里是利用了selenium+图片识别验证,来实现12306的模拟登录,中间也参考了好几个项目,实现了这个小demo,中间也遇到了很多的坑,主要难点在于图片识别和滑动验证这两个方面,图片识别是利用超级鹰的服务进行验证识别的,其次一个难点就是在账户密码和图片识别都过了以后的滑动验证,因为12306网站做了反爬,利用selenium滑动时,会报错,提示你一直刷新,这里也是更改了滑动框。 阅读全文
posted @ 2020-12-22 15:49 mushroom27 阅读(277) 评论(3) 推荐(0)
摘要: 这是一个爬取动漫之家的小demo,也是针对某一本动漫进行爬取,主要难点在于动漫之家做了几个反爬策略,使得前期分析中比较费力。 这里也是参考了Jack Cui的案例,其用的是分析动态加载和利用正则表达式进行匹配图片id。然后拼凑出图片的url,只不过我对正则的不太熟悉,所以用了selenium进行了分析,虽然在解析上省事了不少,但是在爬取效率上比前辈慢了很多。 阅读全文
posted @ 2020-12-22 15:16 mushroom27 阅读(213) 评论(0) 推荐(0)
摘要: 通过requests三方库,使用get请求,对相应的小说进行请求,返回对应的数据,然后用lxml对返回的网页进行解析,利用Beautifulsoup和xpath对章节和内容进行提取,最后保存,也是一个比较小的demo,用来练手再合适不过了。 这里用的是单线程的下载,速度比较慢,当然这也是保守的方式,因为我们在获取资源的同时,也要为对方考虑,不能给对方的服务器造成压力,大家好才是真的好。 阅读全文
posted @ 2020-12-22 15:14 mushroom27 阅读(870) 评论(0) 推荐(0)
摘要: 网络爬虫是当前互联网行业比较流行的概念,也可以把它理解成搜索引擎,其实总的来说就是从网络上取数据,保存下来,主要的两个方面就是取数据、存数据。 而提到网络爬虫,很多人第一反应就是python这个编程语言,包括python的集成爬虫框架scrapy框架,都是搭建爬虫工具的利器。 我们简单的说一下利用python,写一个简单的小爬虫,只需要短短几行,就可以完成这个小demo,这里,给大家讲一种最简单的抓取情况,比如说获取一般静态页面的源码(在Chrome浏览器中可以选择右键→查看网页源代码)。如下图,就是网易新闻排行榜页面的源代码,其中这里面有我们想要的数据,比如说一条条的新闻标题和对应的链接。 阅读全文
posted @ 2020-12-22 15:04 mushroom27 阅读(121) 评论(0) 推荐(0)