摘要: 在进行真正的爬虫工程创建之前,我们先要明确我们所要操作的对象是什么?完成所有操作之后要获取到的数据或信息是什么? 首先是第一个问题:操作对象,爬虫全称是网络爬虫,顾名思义,它所操作的对象当然就是网页,由于网维网存在的网页数不胜数,所以我们需要指定爬虫对象需要借助URL来定位所要操作的网页。 一、预备 阅读全文
posted @ 2016-08-03 16:10 何乐不为~ 阅读(4668) 评论(0) 推荐(0) 编辑
摘要: 关于环境配置的操作,其实非常简单,假如不使用第三方的框架的话,只需要安装Python即可完成后续的操作。 一、Python的安装和配置: windows系统的安装配置过程如下,假如是Mac系统,可参考我之前的文章: Python Web 1 —— python和MongoDB安装 1.下载安装包: 阅读全文
posted @ 2016-08-03 16:02 何乐不为~ 阅读(599) 评论(0) 推荐(0) 编辑
摘要: Python除了可以用来开发Python Web之后,其实还可以用来编写一些爬虫小工具,可能还有人不知道什么是爬虫的。 一、爬虫的定义: 爬虫——网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。 二、学习 阅读全文
posted @ 2016-08-03 15:59 何乐不为~ 阅读(520) 评论(0) 推荐(0) 编辑