摘要: 这是一个稍微复杂的demo,它的功能如下: 1. 输入专利号,下载对应的专利文档 2. 输入关键词,下载所有相关的专利文档 0. 模块准备 首先是requests,这个就不说了,爬虫利器 其次是安装[tesseract ocr][1],pytesseract 和 [PIL][2] 「用于识别验证码」 阅读全文
posted @ 2016-12-23 19:12 BIGBALLON 阅读(3431) 评论(0) 推荐(0) 编辑
摘要: 1. [Beautiful Soup][1] 在它的官网有这样一段话: You didn't write that awful page. You're just trying to get some data out of it. Beautiful Soup is here to help. S 阅读全文
posted @ 2016-12-23 19:07 BIGBALLON 阅读(225) 评论(0) 推荐(0) 编辑
摘要: 堂弟喜欢各种游戏,在没有网络的情况下,上4399显得很无力。 另外,4399广告好多,,而且加载慢。。 怎么办,,写个爬虫吧,,把4399上的“好玩”游戏爬下来。 1. 分析阶段 4399上的游戏,都是 格式的 想 到一个游戏,我们需要跳转若干的链接: ![真是][1] 选择一个游戏 进入到游戏介绍 阅读全文
posted @ 2016-12-23 19:06 BIGBALLON 阅读(1974) 评论(0) 推荐(0) 编辑
摘要: 上一篇文章中,我们介绍了python爬虫利器——requests,并且拿HDU做了小测试。 这篇文章,我们来爬取一下自己AC的代码。 1 确定ac代码对应的页面 如下图所示,我们一般情况可以通过该顺序找到我们曾经AC过的代码 ![hdu accode][1] 我们可以看到,所有AC代码的页面都是 + 阅读全文
posted @ 2016-12-23 19:05 BIGBALLON 阅读(1179) 评论(1) 推荐(0) 编辑
摘要: Requests 是使用 Apache2 Licensed 许可证的 HTTP 库。用 Python 编写,真正的为人类着想。 Python 标准库中的 urllib2 模块提供了你所需要的大多数 HTTP 功能,但是它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作,甚 阅读全文
posted @ 2016-12-23 19:04 BIGBALLON 阅读(540) 评论(0) 推荐(0) 编辑
摘要: 上一次我们拿学校的URP做了个小小的demo。。。。 其实我们还可以把每个学生的证件照爬下来做成一个证件照校花校草评比 另外也可以写一个物理实验自动选课。。。 但是出于多种原因,,还是绕开这些敏感话题。。 今天,我们来扒一下cf的题面! PS:本代码不是我原创 1. 必要的分析 1.1 页面的获取 阅读全文
posted @ 2016-12-23 19:03 BIGBALLON 阅读(1061) 评论(0) 推荐(0) 编辑
摘要: 0. 本爬虫目标 模拟登陆URP教务系统 查询 本学期/历年 成绩 计算历年成绩的绩点 下面是一点废「私」话「货」: 一般情况,查询成绩大家会通过如下方式: 最终可以看到你的成绩 吐槽一下,查询成绩必须使用IE内核的浏览器,在IE11中还需要设置兼容性,非IE内核的浏览器是无法查看成绩的。 ![CR 阅读全文
posted @ 2016-12-23 19:01 BIGBALLON 阅读(5517) 评论(4) 推荐(0) 编辑
摘要: 本文从最基本的页面抓取开始介绍,最后用实例来分析如何进行模拟登陆 以下所有例子均使用 [杭电][1] 主页进行分析 1. 基本操作 1.1 最基本的抓取 最一般的情况,我们可以通过如下代码来抓取页面: 1.2 伪装成浏览器访问 某些网站(比如:[http://acm.hdu.edu.cn/][2]) 阅读全文
posted @ 2016-12-23 19:00 BIGBALLON 阅读(329) 评论(0) 推荐(0) 编辑
摘要: 我喜欢去ZOL找一些动漫壁纸当作桌面,而一张一张保存显然是太慢了。 那怎么办呢,我们尝试使用简单的爬虫来解决这个问题。 0. 本爬虫目标 1. 抓取给定分类「或子分类」网址的内容 2. 分析并得到每个分类下的所有图片专辑 3. 下载每一个专辑中的图片「每一个专辑对应一个文件夹」 1. 必要的分析 我 阅读全文
posted @ 2016-12-23 18:59 BIGBALLON 阅读(806) 评论(0) 推荐(0) 编辑
摘要: 0. 前言 如果你从来没有接触过爬虫,刚开始的时候可能会有些许吃力 因为我不会从头到尾把所有知识点都说一遍,很多文章主要是记录我自己写的一些爬虫 所以建议先学习一下 大神的 [Python爬虫学习系列教程 ][1] 的入门部分。 它的整个系列教程我觉得写得非常好,值得一看! 当然,即便是你什么都不会 阅读全文
posted @ 2016-12-23 18:55 BIGBALLON 阅读(350) 评论(0) 推荐(0) 编辑