会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
mushroom27
首页
订阅
管理
2021年1月21日
爬虫+django,打造个性化API接口
摘要: ###简述 今天也是同事在做微信小程序的开发,需要音乐接口的测试,可是用网易云的开放接口比较麻烦,也不能进行测试,这里也是和我说了一下,所以就用爬虫写了个简单网易云歌曲URL的爬虫,把数据存入mysql数据库,再利用django封装装了一个简单的API接口,给同事测试使用。 ###原理 创建djan
阅读全文
posted @ 2021-01-21 13:10 mushroom27
阅读(367)
评论(0)
推荐(0)
2020年12月22日
4、python+selenium实现12306模拟登录
摘要: 这里是利用了selenium+图片识别验证,来实现12306的模拟登录,中间也参考了好几个项目,实现了这个小demo,中间也遇到了很多的坑,主要难点在于图片识别和滑动验证这两个方面,图片识别是利用超级鹰的服务进行验证识别的,其次一个难点就是在账户密码和图片识别都过了以后的滑动验证,因为12306网站做了反爬,利用selenium滑动时,会报错,提示你一直刷新,这里也是更改了滑动框。
阅读全文
posted @ 2020-12-22 15:49 mushroom27
阅读(277)
评论(3)
推荐(0)
3、动漫的爬取
摘要: 这是一个爬取动漫之家的小demo,也是针对某一本动漫进行爬取,主要难点在于动漫之家做了几个反爬策略,使得前期分析中比较费力。 这里也是参考了Jack Cui的案例,其用的是分析动态加载和利用正则表达式进行匹配图片id。然后拼凑出图片的url,只不过我对正则的不太熟悉,所以用了selenium进行了分析,虽然在解析上省事了不少,但是在爬取效率上比前辈慢了很多。
阅读全文
posted @ 2020-12-22 15:16 mushroom27
阅读(213)
评论(0)
推荐(0)
2、小说网站的爬取
摘要: 通过requests三方库,使用get请求,对相应的小说进行请求,返回对应的数据,然后用lxml对返回的网页进行解析,利用Beautifulsoup和xpath对章节和内容进行提取,最后保存,也是一个比较小的demo,用来练手再合适不过了。 这里用的是单线程的下载,速度比较慢,当然这也是保守的方式,因为我们在获取资源的同时,也要为对方考虑,不能给对方的服务器造成压力,大家好才是真的好。
阅读全文
posted @ 2020-12-22 15:14 mushroom27
阅读(870)
评论(0)
推荐(0)
1、最基本的网络爬虫
摘要: 网络爬虫是当前互联网行业比较流行的概念,也可以把它理解成搜索引擎,其实总的来说就是从网络上取数据,保存下来,主要的两个方面就是取数据、存数据。 而提到网络爬虫,很多人第一反应就是python这个编程语言,包括python的集成爬虫框架scrapy框架,都是搭建爬虫工具的利器。 我们简单的说一下利用python,写一个简单的小爬虫,只需要短短几行,就可以完成这个小demo,这里,给大家讲一种最简单的抓取情况,比如说获取一般静态页面的源码(在Chrome浏览器中可以选择右键→查看网页源代码)。如下图,就是网易新闻排行榜页面的源代码,其中这里面有我们想要的数据,比如说一条条的新闻标题和对应的链接。
阅读全文
posted @ 2020-12-22 15:04 mushroom27
阅读(121)
评论(0)
推荐(0)
公告