摘要: 一、页面分析 首先打开猫眼电影,然后点击一个正在热播的电影(比如:毒液)。打开开发者工具,点击左上角的箭头,然后用鼠标点击网页上的票价,可以看到源码中显示的不是数字,而是某些根本看不懂的字符,这是因为使用了font-face定义字符集,并通过unicode去映射展示,所以我们在网页上看到的是数字,但阅读全文
posted @ 2018-12-07 10:57 TM0831 阅读(169) 评论(0) 编辑
摘要: Appium是移动端的自动化测试工具,类似于Selenium,利用它可以驱动Android、iOS等设备完成自动化测试,比如模拟点击、滑动、输入等操作,其官方网站为:http://appium.io/。 一、Appium环境搭建(针对Windows+Android) 1、安装Node.js 进入官网阅读全文
posted @ 2018-12-01 16:27 TM0831 阅读(74) 评论(0) 编辑
摘要: 此次爬虫要实现的是爬取某个微博用户的关注和粉丝的用户公开基本信息,包括用户昵称、id、性别、所在地和其粉丝数量,然后将爬取下来的数据保存在MongoDB数据库中,最后再生成几个图表来简单分析一下我们得到的数据。 一、具体步骤: 这里我们选取的爬取站点是https://m.weibo.cn,此站点是微阅读全文
posted @ 2018-11-21 13:50 TM0831 阅读(471) 评论(0) 编辑
摘要: 一、思路分析: 在之前写拉勾网的爬虫的时候,总是得到下面这个结果(真是头疼),当你看到下面这个结果的时候,也就意味着被反爬了,因为一些网站会有相应的反爬虫措施,例如很多网站会检测某一段时间某个IP的访问次数,如果访问频率太快以至于看起来不像正常访客,它可能就会禁止这个IP的访问: 对于拉勾网,我们要阅读全文
posted @ 2018-11-14 19:37 TM0831 阅读(459) 评论(1) 编辑
摘要: 此次要实现的目标是登录12306网站和查看火车票信息。 具体步骤 一、登录 登录功能是通过使用selenium实现的,用到了超级鹰来识别验证码。没有超级鹰账号的先注册一个账号,充值一点题分,然后把下载这个Python接口文件,再在里面添加一个use_cjy的函数,以后使用的时候传入文件名就可以了(验阅读全文
posted @ 2018-11-01 12:50 TM0831 阅读(1019) 评论(2) 编辑
摘要: 此次的目标是爬取网易云音乐上指定歌曲所有评论并生成词云 具体步骤: 一:实现JS加密 找到这个ajax接口没什么难度,问题在于传递的数据,是通过js加密得到的,因此需要查看js代码。 通过断掉调试可以找到数据是由core_8556f33641851a422ec534e33e6fa5a4.js?855阅读全文
posted @ 2018-10-23 16:16 TM0831 阅读(845) 评论(4) 编辑
摘要: 首先你需要一个GitHub的账号,然后点击new repository新建一个公共仓库,如下图: 然后点击Create repository就可以了,这样我们就成功新建了一个公共仓库,那我们要怎么把代码上传到GitHub呢? 有两种办法,一种是使用Git,另一种是使用GitHubDesktop。(我阅读全文
posted @ 2018-09-27 13:46 TM0831 阅读(191) 评论(1) 编辑
摘要: 先说下我写这个爬虫的思路吧:首先是利用selenium模拟浏览器,然后搜索贴吧名,如果不存在就提示“没有找到该贴吧”,然后重新输入,如果搜到了这个贴吧,就进入该贴吧并且显示该贴吧首页上的所有帖子,然后我们可以选择查看哪一个帖子,程序就会返回该帖子的内容,对于评论较多的帖子,还可以查看下一页,如果想看阅读全文
posted @ 2018-09-17 20:41 TM0831 阅读(296) 评论(0) 编辑
摘要: 一、目标: 下载网易云音乐热门歌单 二、用到的模块: requests,multiprocessing,re。 三、步骤: (1)页面分析:首先打开网易云音乐,选择热门歌单,可以看到以下歌单列表,然后打开开发者工具 因此我们需要请求的url就是https://music.163.com/discov阅读全文
posted @ 2018-09-02 13:50 TM0831 阅读(526) 评论(9) 编辑
摘要: 经过测试,可以下载要付费下载的歌曲(n_n) 准备工作:Python3.5+Pycharm 使用到的库:requests,re,json 步骤: 打开酷狗音乐的官网,输入想要搜索的歌曲(例如《天后》),然后回车搜索,得到如下页面: 右键检查或者按F12打开开发者工具,点击JS选项,查找到如下信息,F阅读全文
posted @ 2018-08-23 15:52 TM0831 阅读(502) 评论(3) 编辑