2017 年 2月 8 日随笔档案 - 叮了咣当

2017年2月8日

摘要：在前面的四篇文章中, 我们一直采用 python 3 自带的 urllib 模块来抓取网页, 然后用 re 模块来处理抓取到的数据. 这次我们使用 Requests 库来代替 urllib, 用 BeautifulSoup 来代替 re 模块. 对于这两个模块来说, 学习使用它们的最好方法是看官方文阅读全文

posted @ 2017-02-08 10:41 叮了咣当阅读(536) 评论(0) 推荐(0)

零基础自学用Python 3开发网络爬虫(四): 登录

摘要：今天的工作很有意思, 我们用 Python 来登录网站, 用Cookies记录登录信息, 然后就可以抓取登录之后才能看到的信息. 今天我们拿知乎网来做示范. 为什么是知乎? 这个很难解释, 但是肯定的是知乎这么大这么成功的网站完全不用我来帮他打广告. 知乎网的登录比较简单, 传输的时候没有对用户名和阅读全文

posted @ 2017-02-08 10:37 叮了咣当阅读(285) 评论(0) 推荐(0)

零基础自学用Python 3开发网络爬虫(三): 伪装浏览器君

摘要：上一次我自学爬虫的时候, 写了一个简陋的勉强能运行的爬虫alpha. alpha版有很多问题. 比如一个网站上不了, 爬虫却一直在等待连接返回response, 不知道超时跳过; 或者有的网站专门拦截爬虫程序, 我们的爬虫也不会伪装自己成为浏览器正规部队; 并且抓取的内容没有保存到本地, 没有什么作阅读全文

posted @ 2017-02-08 10:13 叮了咣当阅读(286) 评论(0) 推荐(1)

零基础自学用Python 3开发网络爬虫(二): 用到的数据结构简介以及爬虫Ver1.0 alpha

摘要：这一回, 开始用Python将伪代码中的所有部分实现. 由于文章的标题就是"零基础", 因此会先把用到的两种数据结构队列和集合介绍一下. 而对于"正则表达式"部分, 限于篇幅不能介绍, 但给出我比较喜欢的几个参考资料. Python的队列在爬虫程序中, 用到了广度优先搜索(BFS)算法. 这个算法阅读全文

posted @ 2017-02-08 09:34 叮了咣当阅读(349) 评论(0) 推荐(0)

零基础自学用Python 3开发网络爬虫(一)

摘要：选择Python版本有2和3两个版本, 3比较新, 听说改动大. 根据我在知乎上搜集的观点来看, 我还是倾向于使用"在趋势中将会越来越火"的版本, 而非"目前已经很稳定而且很成熟"的版本. 这是个人喜好, 而且预测不一定准确. 但是如果Python3无法像Python2那么火, 那么整个Pytho 阅读全文

posted @ 2017-02-08 08:53 叮了咣当阅读(433) 评论(0) 推荐(0)

叮了咣当

公告