mushroom27

2021年1月21日

摘要： ###简述今天也是同事在做微信小程序的开发，需要音乐接口的测试，可是用网易云的开放接口比较麻烦，也不能进行测试，这里也是和我说了一下，所以就用爬虫写了个简单网易云歌曲URL的爬虫，把数据存入mysql数据库，再利用django封装装了一个简单的API接口，给同事测试使用。 ###原理创建djan 阅读全文

posted @ 2021-01-21 13:10 mushroom27 阅读(370) 评论(0) 推荐(0)

2020年12月22日

4、python+selenium实现12306模拟登录

摘要：这里是利用了selenium+图片识别验证，来实现12306的模拟登录，中间也参考了好几个项目，实现了这个小demo，中间也遇到了很多的坑，主要难点在于图片识别和滑动验证这两个方面，图片识别是利用超级鹰的服务进行验证识别的，其次一个难点就是在账户密码和图片识别都过了以后的滑动验证，因为12306网站做了反爬，利用selenium滑动时，会报错，提示你一直刷新，这里也是更改了滑动框。阅读全文

posted @ 2020-12-22 15:49 mushroom27 阅读(285) 评论(3) 推荐(0)

3、动漫的爬取

摘要：这是一个爬取动漫之家的小demo，也是针对某一本动漫进行爬取，主要难点在于动漫之家做了几个反爬策略，使得前期分析中比较费力。这里也是参考了Jack Cui的案例，其用的是分析动态加载和利用正则表达式进行匹配图片id。然后拼凑出图片的url，只不过我对正则的不太熟悉，所以用了selenium进行了分析，虽然在解析上省事了不少，但是在爬取效率上比前辈慢了很多。阅读全文

posted @ 2020-12-22 15:16 mushroom27 阅读(218) 评论(0) 推荐(0)

2、小说网站的爬取

摘要：通过requests三方库，使用get请求，对相应的小说进行请求，返回对应的数据，然后用lxml对返回的网页进行解析，利用Beautifulsoup和xpath对章节和内容进行提取，最后保存，也是一个比较小的demo，用来练手再合适不过了。这里用的是单线程的下载，速度比较慢，当然这也是保守的方式，因为我们在获取资源的同时，也要为对方考虑，不能给对方的服务器造成压力，大家好才是真的好。阅读全文

posted @ 2020-12-22 15:14 mushroom27 阅读(882) 评论(0) 推荐(0)

1、最基本的网络爬虫

摘要：网络爬虫是当前互联网行业比较流行的概念，也可以把它理解成搜索引擎，其实总的来说就是从网络上取数据，保存下来，主要的两个方面就是取数据、存数据。而提到网络爬虫，很多人第一反应就是python这个编程语言，包括python的集成爬虫框架scrapy框架，都是搭建爬虫工具的利器。我们简单的说一下利用python，写一个简单的小爬虫，只需要短短几行，就可以完成这个小demo，这里，给大家讲一种最简单的抓取情况，比如说获取一般静态页面的源码（在Chrome浏览器中可以选择右键→查看网页源代码）。如下图，就是网易新闻排行榜页面的源代码，其中这里面有我们想要的数据，比如说一条条的新闻标题和对应的链接。阅读全文

posted @ 2020-12-22 15:04 mushroom27 阅读(127) 评论(0) 推荐(0)

公告