2017 年 11月 5 日随笔档案 - renzz

2017年11月5日

Linux RedHat 7常用命令总结、、、征服Linux从终端开始在Linux中清除终端：键入 clear [Ctrl] + [l] = 清除终端。[Ctrl] + [u] = 清除当前行快速进入某些目录键入cd查找文件find 命令一测试可用的快捷键RedHat7常用的一些好用的快捷键 Read More

posted @ 2017-11-05 16:24 renzz Views(6445) Comments(0) Diggs(0)

Python爬虫入门（8）：Beautiful Soup的用法

上一节我们介绍了正则表达式，它的内容其实还是蛮多的，如果一个正则匹配稍有差池，那可能程序就处在永久的循环之中，而且有的小伙伴们也对写正则表达式的写法用得不熟练，没关系，我们还有一个更强大的工具，叫Beautiful Soup，有了它我们可以很方便地提取出HTML或XML标签中的内容，实在是方便，这 Read More

posted @ 2017-11-05 08:58 renzz Views(304) Comments(0) Diggs(0)

Python爬虫入门（7）：正则表达式

在前面我们已经搞定了怎样获取页面的内容，不过还差一步，这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢？下面就开始介绍一个十分强大的工具，正则表达式！ 1.了解正则表达式正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规 Read More

posted @ 2017-11-05 08:57 renzz Views(157) Comments(0) Diggs(0)

Python爬虫入门（6）：Cookie的使用

大家好哈，上一节我们研究了一下爬虫的异常处理问题，那么接下来我们一起来看一下Cookie的使用。为什么要使用Cookie呢？ Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）比如说有些网站需要登录后才能访问某个页面，在登录之前，你想抓取 Read More

posted @ 2017-11-05 08:51 renzz Views(198) Comments(0) Diggs(0)

Python爬虫入门（5）：URLError异常处理

大家好，本节在这里主要说的是URLError还有HTTPError，以及对它们的一些处理。 1.URLError 首先解释下URLError可能产生的原因：网络无连接，即本机无法上网连接不到特定的服务器服务器不存在在代码中，我们需要用try-except语句来包围并捕获相应的异常。下面是一个 Read More

posted @ 2017-11-05 08:45 renzz Views(355) Comments(0) Diggs(0)

Python爬虫入门（4）：Urllib库的高级用法

1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问，如果识别有问题，那么站点根本不会响应，所以为了完全模拟浏览器的工作，我们需要设置一些Headers 的属性。首先，打开我们的浏览器，调试浏览器F12，我用的是Chrome，打开网络监听，示意如下，比如知乎，点登录之后，我们会发现 Read More

posted @ 2017-11-05 08:43 renzz Views(144) Comments(0) Diggs(0)

Python爬虫入门（3）：Urllib库的基本使用

那么接下来，小伙伴们就一起和我真正迈向我们的爬虫之路吧。 1.分分钟扒一个网页下来怎样扒网页呢？其实就是根据URL来获取它的网页信息，虽然我们在浏览器中看到的是一幅幅优美的画面，但是其实是由浏览器解释才呈现出来的，实质它是一段HTML代码，加 JS、CSS，如果把网页比作一个人，那么HTML便是 Read More

posted @ 2017-11-05 08:39 renzz Views(186) Comments(0) Diggs(0)

Python爬虫入门（2）：爬虫基础了解

1.什么是爬虫爬虫，即网络爬虫，大家可以理解为在网络上爬行的一直蜘蛛，互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛咯，如果它遇到资源，那么它就会抓取下来。想抓取什么？这个由你来控制它咯。比如它在抓取一个网页，在这个网中他发现了一条道路，其实就是指向网页的超链接，那么它就可以爬到另一张 Read More

posted @ 2017-11-05 08:37 renzz Views(143) Comments(0) Diggs(0)

Python爬虫入门（1）：综述

大家好哈，最近博主在学习Python，学习期间也遇到一些问题，获得了一些经验，在此将自己的学习系统地整理下来，如果大家有兴趣学习爬虫的话，可以将这些文章作为参考，也欢迎大家一共分享学习经验。 Python版本:2.7，Python 3请另寻其他博文。首先爬虫是什么？网络爬虫（又被称为网页蜘蛛，网 Read More

posted @ 2017-11-05 08:33 renzz Views(191) Comments(0) Diggs(0)

renzz

公告