摘要:CSDN有APP端,感觉更方便一些,所以把内容搬到CSDN了。 阅读全文
posted @ 2019-07-24 20:27 xingzhui 阅读(145) 评论(0) 推荐(0) 编辑
摘要:开始之前 首先我们要安装好pyspider,可以参考上一篇文章。 从一个web页面抓取信息的过程包括: 1、找到页面上包含的URL信息,这个url包含我们想要的信息 2、通过HTTP来获取页面内容 3、从HTML中提取出信息来 4、然后找到更多的URL,回到第2步继续执行~ 选择一个开始的URL 我 阅读全文
posted @ 2017-12-12 21:02 xingzhui 阅读(797) 评论(0) 推荐(0) 编辑
摘要:Pyspider是python中的一个很流行的爬虫框架系统,它具有的特点如下: 1、可以在Python环境下写脚本 2、具有WebUI,脚本编辑器,并且有项目管理和任务监视器以及结果查看。 3、支持多种数据库 4、支持定义任务优先级,自动重试链接。。。 5、分布式架构 等等优点。 pyspider的 阅读全文
posted @ 2017-12-11 21:38 xingzhui 阅读(1306) 评论(0) 推荐(0) 编辑
摘要:装饰器的用法比较简单,但是理解装饰器的原理还是比较复杂的,考虑到接下来的爬虫框架中很多用到装饰器的地方,我们先来讲解一下。 函数 我们定义了一个函数,没有什么具体操作,只是返回一个固定值 请注意一下缩进 作用域 函数内部的变量和函数外的变量是不同的 我们看一下下面的例子,locals()和globa 阅读全文
posted @ 2017-12-10 15:18 xingzhui 阅读(422) 评论(0) 推荐(0) 编辑
摘要:Openpyx是一个用于读写Excel2010各种xlsx/xlsm/xltx/xltm文件的python库。 现在大多数用的都是office2010了,如果之前之前版本的可以使用xlrd读,xlwt写,这里就不介绍了。 入门范例 简单操作 创建一个workbook 一般创建workbook后至少会 阅读全文
posted @ 2017-12-09 12:36 xingzhui 阅读(3097) 评论(0) 推荐(0) 编辑
摘要:在爬取一些比较友好的网站时,仍然有可能因为单位时间内访问次数过多,使服务器认定为机器访问,导致访问失败或者被封。如果我们使用不同的ip来访问网站的话,就可以绕过服务器的重复验证,使服务器以为使不同的人在访问,就不会被封了。 如何获取动态ip 网络上有很多提供代理ip的网站,我们经常使用的一个是西刺免 阅读全文
posted @ 2017-12-08 21:02 xingzhui 阅读(670) 评论(0) 推荐(0) 编辑
摘要:昨天我们已经实现了如何抓取豆瓣上的热门电影信息,虽然不多,只有几百,但是足够我们进行分析了。 今天我们来讲一下如何获取某一部电影的所有短评论信息,并保存到mongodb中。 反爬虫 豆瓣设置的反爬虫机制是比较简单的,我们可以通过selenium模拟浏览器登陆这种终极办法来绕过,但是更加有效率的方法是 阅读全文
posted @ 2017-12-07 20:20 xingzhui 阅读(1000) 评论(0) 推荐(0) 编辑
摘要:之前我们从猫眼获取过电影信息,而且利用分析ajax技术,获取过今日头条的街拍图片。 今天我们在豆瓣上获取一些热门电影的信息。 页面分析 首先,我们先来看一下豆瓣里面选电影的页面,我们默认选择热门电影,啥都不点了。 【插入图片,豆瓣热门电影页面】 在选电影这个框中其实有很多标签的,这个其实可以在url 阅读全文
posted @ 2017-12-05 22:33 xingzhui 阅读(1920) 评论(0) 推荐(0) 编辑
摘要:今天我们来讲一下如何通过python来实现自动登陆京东,以及签到领取金币。 如何自动登陆京东? 我们先来看一下京东的登陆页面,如下图所示: 【插入图片,登陆页面】 登陆框就是右面这一个框框了,但是目前我们遇到一个困呐,默认的登陆方式是扫码登陆,如果我们想要以用户民个、密码的形式登陆,就要切换一下。 阅读全文
posted @ 2017-12-04 22:23 xingzhui 阅读(1201) 评论(0) 推荐(0) 编辑
摘要:字典Dictionary 字典定义了键值对的1对1管理。 1、定义字典 请看下面的栗子,我们先创建了一个具有两个元素的字典,每对都是key:value的形式。 我们能通过key得到value,但是不能通过value得到key。 还可以通过get方法得到对应key的value。 {'database' 阅读全文
posted @ 2017-12-04 20:38 xingzhui 阅读(228) 评论(0) 推荐(0) 编辑