随笔分类 -  爬虫

摘要:0.前言 m3u8是一种很常见的网页视频播放器的视频源,比如说中国大学MOOC中课程就是使用了该种视频格式。 随便打开一门课程,就可以发现在网络请求中存在一个m3u8的文件,在preview中预览,它并不像我们想象中是乱码的视频流。 里面是一个列表,有一堆ts结尾的文件名,每个下面还跟了一个EXTI 阅读全文
posted @ 2019-11-25 13:29 AntzUhl 阅读(4259) 评论(8) 推荐(7)
摘要:本系列从零开始阐述如何编写Python网络爬虫,以及网络爬虫中容易遇到的问题,比如具有反爬,加密的网站,还有爬虫拿不到数据,以及登录验证等问题,会伴随大量网站的爬虫实战来进行。 我们编写网络爬虫最主要的目的是爬取想要的数据还有通过爬虫去自动完成我们想在网站中做的一些事情。 从今天开始我会从基础开始讲 阅读全文
posted @ 2019-09-16 11:12 AntzUhl 阅读(6678) 评论(3) 推荐(2)
摘要:目录 前言 1.内存数据排查 1.1 例 植物大战僵尸 1.2 例 只狼 2.外挂程序编写 3.挂机类自动外挂 4.网络游戏外挂 前言 记得小学的时候玩页游把家里电脑弄坏了(怎么回事,页游还能弄坏电脑?),然后我爸拿去重新装了系统,回来之后电脑里有了两个新的单机游戏,植物大战僵尸和大鱼吃小鱼。 那个 阅读全文
posted @ 2019-07-09 10:01 AntzUhl 阅读(11755) 评论(36) 推荐(50)
摘要:微博Rss邮箱推送 :raising_hand: Weibo subscription and sentiment analysis. 假期在家无聊,想到做一个微博订阅系统,可以将朋友or女朋友的微博更新动态通过邮件推送给我。 就是这样,代码已经写好了,就差个女朋友了。 最后的效果就是实时检测某一微 阅读全文
posted @ 2019-01-25 15:21 AntzUhl 阅读(1942) 评论(5) 推荐(4)
摘要:项目代码: "Github" [目录] "一.引入问题" "二.分步实现" "1.页面爬取" "2.woff下载" "3.字体解析规则" 一.引入问题 可以看到,猫眼网电影评分,票房等的数据在响应的html中并不是直接提供给你的。这里的xefcf,xef87等数据,是以‘特殊符号’的形式显示出来的。 阅读全文
posted @ 2019-01-24 18:08 AntzUhl 阅读(3018) 评论(0) 推荐(1)
摘要:一 . Java爬取B站弹幕 弹幕的存储位置 如何通过B站视频AV号找到弹幕对应的xml文件号 首先爬取视频网页,将对应视频网页源码获得 就可以找到该视频的av号aid=8678034 还有弹幕序号,cid=14295428 弹幕存放位置为 http://comment.bilibili.com/1 阅读全文
posted @ 2018-07-17 15:05 AntzUhl 阅读(1465) 评论(0) 推荐(1)
摘要:曾经144区的王者 学了计算机后 头发逐渐从李白变成了达摩 秀发有何用,变秃亦变强 (emmm徒弟说李白比达摩强,变秃不一定变强) 前言 前几天开了农药的安装包,发现农药是.Net实现的游戏 虽然游戏用的语言和排位一样让人恼火 但感觉图片美工还是可以的 比如: 不知...不知道你们是不是和我一样喜欢 阅读全文
posted @ 2018-06-26 21:11 AntzUhl 阅读(1571) 评论(0) 推荐(0)
摘要:前文参考: Python爬虫(一)——开封市58同城租房信息 Python爬虫(二)——对开封市58同城出租房数据进行分析 Python爬虫(三)——对豆瓣图书各模块评论数与评分图形化分析 数据的构建 在这张表中我们可以发现这里有5个数据,这里有两个特征(房租是否少于2000,房屋面积是否大于50) 阅读全文
posted @ 2018-06-26 14:10 AntzUhl 阅读(607) 评论(0) 推荐(0)
摘要:前文参考: Python爬虫(一)——豆瓣下图书信息 Python爬虫(二)——豆瓣图书决策树构建 Python爬虫(三)——对豆瓣图书各模块评论数与评分图形化分析 数据的构建 在这张表中我们可以发现这里有5个数据,这里有三个特征(评分是否超过8.0,评分是否超过9.5,评价数是否超过45,000) 阅读全文
posted @ 2018-06-26 11:24 AntzUhl 阅读(1235) 评论(0) 推荐(0)
摘要:你的账号访问太频繁,请一分钟之后再试! 从大一开始 就用脚本在刷课 在专业课踢的只剩下一门C#的情况下 活活刷到一周的课 大二开始教务系统多了一个非常**的操作 退课池 and 访问频繁缓冲 难道,我大三下还要去学政治课咩? 虽然学政治不如敲代码 但我想毕业啊 emmmmmm 在量子力学的角度,没有 阅读全文
posted @ 2018-06-25 11:36 AntzUhl 阅读(773) 评论(2) 推荐(3)
摘要:决策树框架: 构造信息: 结果: 阅读全文
posted @ 2018-06-24 21:21 AntzUhl 阅读(461) 评论(0) 推荐(0)
摘要:出租房面积(area) 出租房价格(price) 对比信息 代码 阅读全文
posted @ 2018-06-24 21:12 AntzUhl 阅读(657) 评论(0) 推荐(0)
摘要:代码: 阅读全文
posted @ 2018-06-24 15:35 AntzUhl 阅读(623) 评论(0) 推荐(1)
摘要:文化 经管 ....略 结论: 一个模块的评分与评论数相关,评分为 [8.8——9.2] 之间的书籍评论数往往是模块中最多的 阅读全文
posted @ 2018-06-23 22:42 AntzUhl 阅读(818) 评论(0) 推荐(0)
摘要:前文参考: https://www.cnblogs.com/LexMoon/p/douban1.html Matplotlib绘制决策树代码: 运行结果: 阅读全文
posted @ 2018-06-23 19:50 AntzUhl 阅读(516) 评论(0) 推荐(0)
摘要:爬虫代码概述 一.数据存储 csv文件存储,为方便后继使用pandas进行分析,对于爬取的html文件使用BeautifulSoup进行解析 字段选择为 : 书名(titles) 作者/出版社(authors) 评分(nums) 评论数(peoples) 二.网页解析 html中书名(titles) 阅读全文
posted @ 2018-06-23 15:09 AntzUhl 阅读(1271) 评论(0) 推荐(0)
摘要:目标:http://fanyi.youdao.com/ 用爬虫实现翻译功能。 利用f12查看网页Network,可以发现 有关翻译的表单请求通过 http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule 来发送 其返回 阅读全文
posted @ 2018-01-12 21:25 AntzUhl 阅读(510) 评论(0) 推荐(1)
摘要:在遍历型的网络爬虫中。 参考宽度优先遍历 http://www.cnblogs.com/LexMoon/p/javaMyClawler.html 网络爬虫在遍历抓取一张网页的链接时,会出现的情况。 1 .链接本身可能是一个无限循环,以至于白白的消耗资源。 2 .看似不同的链接却指向同一个网页。(动态 阅读全文
posted @ 2017-12-26 16:15 AntzUhl 阅读(531) 评论(0) 推荐(1)
摘要:如何通过B站视频AV号找到弹幕对应的xml文件号 首先爬取视频网页,将对应视频网页源码获得 就可以找到该视频的av号aid=8678034 还有弹幕序号,cid=14295428 弹幕存放位置为 http://comment.bilibili.com/14295428.xml 获得该链接内容即可。 阅读全文
posted @ 2017-12-12 15:15 AntzUhl 阅读(2663) 评论(0) 推荐(0)
摘要:登录界面,首先随意输入一个账号,登录查看发送表单的请求 可以发现请求是Post : https://www.zhihu.com/login/phone_num 发送的表单是 可能出现的情况 请求返回体为: { "r": 1, "errcode": 1991829, "data": {"captcha 阅读全文
posted @ 2017-12-11 13:54 AntzUhl 阅读(3852) 评论(7) 推荐(0)