爬虫 - 随笔分类 - 刀刀流

网页爬虫--scrapy进阶

摘要：本篇将谈一些scrapy的进阶内容，帮助大家能更熟悉这个框架。 1. 站点选取现在的大网站基本除了pc端都会有移动端，所以需要先确定爬哪个。比如爬新浪微博，有以下几个选择： 1. www.weibo.com，主站 2. www.weibo.cn，简化版 3. m.weibo.cn，移动版上面三阅读全文

posted @ 2016-10-15 11:51 刀刀流阅读(11440) 评论(0) 推荐(2)

爬虫入门（实用向）

摘要：从接触爬虫到现在也有一年半了，在这里总结一下一个新人入门爬虫需要了解的种种。作为实用向入门教程，我不会讲太多细枝末节的东西。最重要的就是能爬到东西不是吗？那好，作为一个爬虫新人，要爬一个网站时，应该怎么开始呢？首先，确定要爬的内容。是要整个网站的所有内容还是只是部分？需要的爬取的数据在网页源代码阅读全文

posted @ 2016-10-14 16:29 刀刀流阅读(10871) 评论(2) 推荐(4)

网页爬虫--scrapy入门

摘要：本篇从实际出发，展示如何用网页爬虫。并介绍一个流行的爬虫框架~ 1. 网页爬虫的过程所谓网页爬虫，就是模拟浏览器的行为访问网站，从而获得网页信息的程序。正因为是程序，所以获得网页的速度可以轻易超过单身多年的手速：)。通常适用于需要大量网页信息的场合。爬取网页的流程为：访问初始url 获得返回的网阅读全文

posted @ 2016-10-13 20:48 刀刀流阅读(5385) 评论(0) 推荐(2)

API爬虫--Twitter实战

摘要：本篇将从实际例子出发，展示如何使用api爬取twitter的数据。 1. 创建APP 进入[https://apps.twitter.com/][1]，创建自己的app。只有有了app才可以访问twitter的api并抓取数据。只需创建最简单的app即可，各种信息随意填写，并不需要进一步的认证，我们阅读全文

posted @ 2016-09-09 18:46 刀刀流阅读(20663) 评论(4) 推荐(1)

刀刀流

随笔分类 - 爬虫

公告