摘要: 通过昨天的分析,我们已经能到依次打开多个页面了,接下来就是获取每个页面上宝贝的信息了。 分析页面宝贝信息 【插入图片,宝贝信息各项内容】 从图片上看,每个宝贝有如下信息;price,title,url,deal amount,shop,location等6个信息,其中url表示宝贝的地址。 我们通过 阅读全文
posted @ 2017-12-02 17:10 xingzhui 阅读(4178) 评论(0) 推荐(0) 编辑
摘要: 作为全民购物网站的淘宝是在学习爬虫过程中不可避免要打交道的一个网站,而是淘宝上的数据真的很多,只要我们指定关键字,将会出现成千上万条数据。 今天我们来讲一下如何从淘宝上获取某一类宝贝的信息,比如今天我们以“手机”作为关键词,举个例子。 分析页面的源代码 【插入图片,淘宝手机页面示意】 上面是搜索框, 阅读全文
posted @ 2017-12-02 15:42 xingzhui 阅读(1006) 评论(0) 推荐(0) 编辑
摘要: 昨天我们分析了今日头条搜索得到的信息,一直对图集感兴趣的我还是选择将所有的图片下载下来。 我们继续讲一下如何通过各个图集的url得到每个图集下面的照片。 分析图集的组成 【插入图片,某个图集的页面】 我们看上面的这个图片,右面的1/5可以看出,这个图集有5张图片,在图片上右侧点击的话,会打开下一张图 阅读全文
posted @ 2017-12-01 20:22 xingzhui 阅读(370) 评论(0) 推荐(0) 编辑
摘要: Ajax技术 AJAX = Asynchronous JavaScript and XML(异步的 JavaScript 和 XML)。 Ajax并不是新的编程语言,而是一种使用现有标准的新方法,当然也不是很新了,在97年左右,微软就发明了ajax的关键技术,但是并没有推广;随着Google eat 阅读全文
posted @ 2017-11-30 21:05 xingzhui 阅读(1322) 评论(0) 推荐(0) 编辑
摘要: 在上一期妹子图的爬虫教程中,我们将图片都保存在了代码当前目录下,这样并不便于浏览,我们应该将同一个模特的图片都放在一个文件夹中。 今天我们就简单讲一下Python下如何创建文件、文件夹,今后就可以用上了。 1、搞清楚相对路径和绝对路径 绝对路径比较好理解,就是最完整的路径,包含盘符的,比如D:\us 阅读全文
posted @ 2017-11-27 21:05 xingzhui 阅读(12157) 评论(0) 推荐(1) 编辑
摘要: 前面几天介绍的都是博客园的内容,今天我们切换一下,了解一下大家都感兴趣的信息,比如最近有啥电影是万众期待的? 猫眼电影是了解这些信息的好地方,在猫眼电影中有5个榜单,其中最受期待榜就是我们今天要爬取的对象。这个榜单的数据来源于猫眼电影库,按照之前30天的想看总数量从高到低排列,取前50名。 我们先看 阅读全文
posted @ 2017-11-25 20:37 xingzhui 阅读(1607) 评论(1) 推荐(0) 编辑
摘要: 前言 前面我们对博客园的文章进行了爬取,结果比较令人满意,可以一下子下载某个博主的所有文章了。但是,我们获取的只有文章中的文本内容,并且是没有排版的,看起来也比较费劲。。。 咋么办的?一个比较好的方法是将文章的正文内容转化成pdf,就不要考虑排版的事情了,看起来比较美观,也不会丢失一些关键信息。 p 阅读全文
posted @ 2017-11-23 22:01 xingzhui 阅读(10841) 评论(1) 推荐(0) 编辑
摘要: Python博客园 获取某个博主所有文章的URL列表 首先,我们来分析一下,在博主的首页里,每个文章的标题在网页源码中是什么样子的。 【插入图片,文章标题1】 【插入图片,文章标题2】 通过这两个图片我们可以看出,博文标题所在的标签为,并且具有class属性为"postTitle2",其href属性 阅读全文
posted @ 2017-11-22 23:31 xingzhui 阅读(3647) 评论(0) 推荐(0) 编辑
摘要: 博客园比较适合爬虫初学者。 我们第一个目标是爬取某个博主的所有博文。 第一步,获取某一篇文章。 第二步,获取该博主所有文章的url列表。 第三步,下载所有文章。 阅读全文
posted @ 2017-11-22 21:02 xingzhui 阅读(6777) 评论(1) 推荐(0) 编辑
摘要: MongoDB的连接和数据存取 MongoDB是一种跨平台,面向文档的NoSQL数据库,提供高性能,高可用性并且易于扩展。 包含数据库,集合,文档等几个重要概念。 我们在这里不介绍MongoDB的特点和用法了,感兴趣的可以查一下官方文档。 在此重点介绍如何使用python连接MongoDB,并通过P 阅读全文
posted @ 2017-11-21 21:24 xingzhui 阅读(667) 评论(0) 推荐(0) 编辑