爬虫 - 随笔分类 - wei_hu

12.Scrapy与mongodb交互和设置中间键

摘要：反反爬虫相关机制 (有些些网站使用特定的不同程度的复杂性规则防止爬虫访问，绕过这些规则是困难和复杂的，有时可能需要特殊的基础设施，如果有疑问，请联系商业支持。) 来自于Scrapy官方文档描述：http://doc.scrapy.org/en/master/topics/practices.html 阅读全文

posted @ 2018-05-22 20:43 wei_hu 阅读(236) 评论(0) 推荐(0)

11.Scrapy登录

摘要：Request Request 部分源码：其中，比较常用的参数： Response 大部分参数和上面的差不多：发送POST请求可以使用 yield scrapy.FormRequest(url, formdata, callback)方法发送POST请求。如果希望程序执行一开始就发送POST 阅读全文

posted @ 2018-05-21 21:39 wei_hu 阅读(322) 评论(0) 推荐(0)

11.CrawlSpiders

摘要：CrawlSpiders 通过下面的命令可以快速创建 CrawlSpider模板的代码：上一个案例中，我们通过正则表达式，制作了新的url作为Request请求参数，现在我们可以换个花样... class scrapy.spiders.CrawlSpider 它是Spider的派生类，Spide 阅读全文

posted @ 2018-05-20 23:50 wei_hu 阅读(132) 评论(0) 推荐(0)

10.scrapy入门

摘要：Scrapy 框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。 Scrapy 使用了 Twisted['twɪstɪd](其主要对手阅读全文

posted @ 2018-05-16 00:08 wei_hu 阅读(170) 评论(0) 推荐(0)

9.json和jsonpath

摘要：JSON和XML的比较可谓不相上下。 Python 2.7中自带了JSON模块，直接import json就可以使用了。官方文档：http://docs.python.org/library/json.html Json在线解析网站：http://www.json.cn/# JSON json简单阅读全文

posted @ 2018-05-06 23:42 wei_hu 阅读(513) 评论(0) 推荐(0)

8.正则表达式和XPath

摘要：1.使用正则表达式爬取内涵段子 2.使用XPath下载图片什么是XPath？ XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言，可用来在 XML 文档中对元素和属性进行遍历。 W3School官方文档：http://www.w3school.com.cn/ 阅读全文

posted @ 2018-05-06 13:57 wei_hu 阅读(6275) 评论(0) 推荐(1)

7.代理handler

摘要：简单的自定义opener() ProxyHandler处理器（代理设置）使用代理IP，这是爬虫/反爬虫的第二大招，通常也是最好用的。很多网站会检测某一段时间某个IP的访问次数(通过流量统计，系统日志等)，如果访问次数多的不像正常人，它会禁止这个IP的访问。所以我们可以设置一些代理服务器，每隔一阅读全文

posted @ 2018-05-04 00:02 wei_hu 阅读(201) 评论(0) 推荐(0)

6.python3爬虫之urllib库

摘要：Request 在我们第一个例子里，urlopen()的参数就是一个url地址；但是如果需要执行更复杂的操作，比如增加HTTP报头，必须创建一个 Request 实例来作为urlopen()的参数；而需要访问的url地址则作为 Request 实例的参数。浏览器就是互联网世界上公认被允许的身份阅读全文

posted @ 2018-05-02 23:37 wei_hu 阅读(265) 评论(0) 推荐(0)

5.BeautifulSoup

只有注册用户登录后才能阅读该文。

posted @ 2018-04-24 00:21 wei_hu 阅读(59) 评论(0) 推荐(0)

4.动态HTML处理和机器图像识别

摘要：Selenium Selenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，类型像我们玩游戏用的按键精灵，可以按指定的命令自动操作，不同是Selenium 可以直接运行在浏览器上，它支持所有主流的浏览器（包括PhantomJS这些无界面的浏览器）。 Selenium 可以根据我们阅读全文

posted @ 2018-02-09 19:14 wei_hu 阅读(1740) 评论(0) 推荐(0)

3.非结构化数据与结构化数据提取

摘要：页面解析和数据提取一般来讲对我们而言，需要抓取的是某个网站或者某个应用的内容，提取有用的价值。内容一般分为两部分，非结构化的数据和结构化的数据。非结构化数据：先有数据，再有结构，结构化数据：先有结构、再有数据不同类型的数据，我们需要采用不同的方式来处理。非结构化的数据处理正则表达式阅读全文

posted @ 2018-02-08 15:28 wei_hu 阅读(15281) 评论(0) 推荐(0)

2.Handler处理器和自定义Opener

摘要：Handler处理器和自定义Opener opener是 urllib2.OpenerDirector 的实例，我们之前一直都在使用的urlopen，它是一个特殊的opener（也就是模块帮我们构建好的）。但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级阅读全文

posted @ 2018-02-06 16:01 wei_hu 阅读(518) 评论(0) 推荐(0)

1.爬虫基本概述

摘要：为什么要做爬虫？首先请问：都说现在是"大数据时代"，那数据从何而来？企业产生的用户数据：百度指数、阿里指数、TBI腾讯浏览指数、新浪微博指数数据平台购买数据：数据堂、国云数据市场、贵阳大数据交易所政府/机构公开的数据：中华人民共和国国家统计局数据、世界银行公开数据、联合国数据、纳斯达克。数阅读全文

posted @ 2018-02-05 09:14 wei_hu 阅读(2450) 评论(0) 推荐(1)

导航

随笔分类 - 爬虫