摘要:
在前面的四篇文章中, 我们一直采用 python 3 自带的 urllib 模块来抓取网页, 然后用 re 模块来处理抓取到的数据. 这次我们使用 Requests 库来代替 urllib, 用 BeautifulSoup 来代替 re 模块. 对于这两个模块来说, 学习使用它们的最好方法是看官方文 阅读全文
posted @ 2017-02-08 10:41
叮了咣当
阅读(534)
评论(0)
推荐(0)
摘要:
今天的工作很有意思, 我们用 Python 来登录网站, 用Cookies记录登录信息, 然后就可以抓取登录之后才能看到的信息. 今天我们拿知乎网来做示范. 为什么是知乎? 这个很难解释, 但是肯定的是知乎这么大这么成功的网站完全不用我来帮他打广告. 知乎网的登录比较简单, 传输的时候没有对用户名和 阅读全文
posted @ 2017-02-08 10:37
叮了咣当
阅读(279)
评论(0)
推荐(0)
摘要:
上一次我自学爬虫的时候, 写了一个简陋的勉强能运行的爬虫alpha. alpha版有很多问题. 比如一个网站上不了, 爬虫却一直在等待连接返回response, 不知道超时跳过; 或者有的网站专门拦截爬虫程序, 我们的爬虫也不会伪装自己成为浏览器正规部队; 并且抓取的内容没有保存到本地, 没有什么作 阅读全文
posted @ 2017-02-08 10:13
叮了咣当
阅读(283)
评论(0)
推荐(1)
摘要:
这一回, 开始用Python将伪代码中的所有部分实现. 由于文章的标题就是"零基础", 因此会先把用到的两种数据结构队列和集合介绍一下. 而对于"正则表达式"部分, 限于篇幅不能介绍, 但给出我比较喜欢的几个参考资料. Python的队列 在爬虫程序中, 用到了广度优先搜索(BFS)算法. 这个算法 阅读全文
posted @ 2017-02-08 09:34
叮了咣当
阅读(345)
评论(0)
推荐(0)
摘要:
选择Python版本 有2和3两个版本, 3比较新, 听说改动大. 根据我在知乎上搜集的观点来看, 我还是倾向于使用"在趋势中将会越来越火"的版本, 而非"目前已经很稳定而且很成熟"的版本. 这是个人喜好, 而且预测不一定准确. 但是如果Python3无法像Python2那么火, 那么整个Pytho 阅读全文
posted @ 2017-02-08 08:53
叮了咣当
阅读(433)
评论(0)
推荐(0)

浙公网安备 33010602011771号