2017 年 9月随笔档案 - 淡定的人参果

12.Python爬虫利器三之Xpath语法与lxml库的用法

摘要：LXML解析库使用的是Xpath语法： XPath 是一门语言 XPath可以在XML文档中查找信息 XPath支持HTML XPath通过元素和属性进行导航 XPath可以用来提取信息 XPath比正则表达式厉害 XPath比正则表达式简单 lxml使用方法：首先我们使用 lxml 的 etre 阅读全文

posted @ 2017-09-25 18:04 淡定的人参果阅读(409) 评论(0) 推荐(0)

11.Python-第三方库requests详解(三）

摘要：Response对象使用requests方法后，会返回一个response对象，其存储了服务器响应的内容，如上实例中已经提到的 r.text、r.status_code……获取文本方式的响应体实例：当你访问 r.text 之时，会使用其响应的文本编码进行解码，并且你可以修改其编码让 r.text 阅读全文

posted @ 2017-09-25 13:42 淡定的人参果阅读(330) 评论(0) 推荐(0)

10.Python-第三方库requests详解（二）

摘要：Requests 是用Python语言编写，基于 urllib，采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便，可以节约我们大量的工作，完全满足 HTTP 测试需求。Requests 的哲学是以 PEP 20 的习语为中心开发的，所以它比 urllib 阅读全文

posted @ 2017-09-21 17:00 淡定的人参果阅读(255) 评论(0) 推荐(0)

9.Python爬虫利器一之Requests库的用法（一）

摘要：requests 官方文档： http://cn.python-requests.org/zh_CN/latest/user/quickstart.html request 是一个第三方的HTTP库 1.发起请求发起GET请求非常简单，直接使用requests的get方法即可。比方说下面的代码获取阅读全文

posted @ 2017-09-18 17:13 淡定的人参果阅读(514) 评论(0) 推荐(0)

8.Python爬虫实战一之爬取糗事百科段子

摘要：大家好，前面入门已经说了那么多基础知识了，下面我们做几个实战项目来挑战一下吧。那么这次为大家带来，Python爬取糗事百科的小段子的例子。首先，糗事百科大家都听说过吧？糗友们发的搞笑的段子一抓一大把，这次我们尝试一下用爬虫把他们抓取下来。 1.抓取糗事百科热门段子 2.过滤带有图片的段子在这里不阅读全文

posted @ 2017-09-06 21:50 淡定的人参果阅读(313) 评论(0) 推荐(0)

6.Python爬虫入门六之Cookie的使用

摘要：大家好哈，上一节我们研究了一下爬虫的异常处理问题，那么接下来我们一起来看一下Cookie的使用。为什么要使用Cookie呢？ Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）比如说有些网站需要登录后才能访问某个页面，在登录之前，你想抓取阅读全文

posted @ 2017-09-06 21:31 淡定的人参果阅读(216) 评论(0) 推荐(0)

5.Python爬虫入门五之URLError异常处理

摘要：大家好，本节在这里主要说的是URLError还有HTTPError，以及对它们的一些处理。 1.URLError 首先解释下URLError可能产生的原因：网络无连接，即本机无法上网连接不到特定的服务器服务器不存在在代码中，我们需要用try-except语句来包围并捕获相应的异常。下面是一个阅读全文

posted @ 2017-09-05 15:48 淡定的人参果阅读(268) 评论(0) 推荐(0)

4.Python爬虫入门四之Urllib库的高级用法

摘要：1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问，如果识别有问题，那么站点根本不会响应，所以为了完全模拟浏览器的工作，我们需要设置一些Headers 的属性。首先，打开我们的浏览器，调试浏览器F12，我用的是Chrome，打开网络监听，示意如下，比如知乎，点登录之后，我们会发现阅读全文

posted @ 2017-09-05 15:12 淡定的人参果阅读(187) 评论(0) 推荐(0)

3.Python爬虫入门三之Urllib和Urllib2库的基本使用

摘要：1.分分钟扒一个网页下来怎样扒网页呢？其实就是根据URL来获取它的网页信息，虽然我们在浏览器中看到的是一幅幅优美的画面，但是其实是由浏览器解释才呈现出来的，实质它是一段HTML代码，加 JS、CSS，如果把网页比作一个人，那么HTML便是他的骨架，JS便是他的肌肉，CSS便是它的衣服。所以最重要的阅读全文

posted @ 2017-09-05 15:02 淡定的人参果阅读(331) 评论(0) 推荐(0)

2.Python爬虫入门二之爬虫基础了解

摘要：1.什么是爬虫爬虫，即网络爬虫，大家可以理解为在网络上爬行的一直蜘蛛，互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛咯，如果它遇到资源，那么它就会抓取下来。想抓取什么？这个由你来控制它咯。比如它在抓取一个网页，在这个网中他发现了一条道路，其实就是指向网页的超链接，那么它就可以爬到另一张阅读全文

posted @ 2017-09-04 10:31 淡定的人参果阅读(187) 评论(0) 推荐(0)

1.Python爬虫入门一之综述

摘要：要学习Python爬虫，我们要学习的共有以下几点： Python基础知识 Python中urllib和urllib2库的用法 Python正则表达式 Python爬虫框架Scrapy Python爬虫更高级的功能 1.Python基础学习首先，我们要用Python写爬虫，肯定要了解Python的基阅读全文

posted @ 2017-09-04 10:19 淡定的人参果阅读(164) 评论(0) 推荐(0)

09 2017 档案

公告