小学研究生

2020年3月27日

摘要：直接先上常用的匹配规则表： |模式|描述| |: |: | |\w|匹配字母、数字、下划线| |\W|匹配不是字母、数字、下划线| |\s|匹配任意空白字符，即[\t\n\r\f]| |\S|匹配任意非空字符| |\d|匹配任意数字，即[0 9]| |\D|匹配任意非数字字符| |\A|匹配字符串开阅读全文

posted @ 2020-03-27 03:45 小学研究生阅读(154) 评论(0) 推荐(0)

2020年3月26日

Python网络爬虫基本之 requests库

摘要：之前学习了urllib库来获取网页内容，但是跟requests库相比，urllib实在是弱爆了，requests提供了许多使用起来十分方便的模块，而不用向urllib那样调用好几个模块才能实现。 requests库不是Python自带的库，也就是说使用之前徐要先安装Python库，反正pip一下就安阅读全文

posted @ 2020-03-26 02:01 小学研究生阅读(461) 评论(0) 推荐(0)

2020年3月25日

Python网络爬虫基本库之 urllib

摘要：在Python3中，urllib和urllib2两个库合并为一个库，统一为urllib库。 urllib库是Python内置的HTTP请求库，主要包含如下4个模块: request：最基本的、也是最主要的HTTP请求模块，用来模拟发送请求。 error：异常处理模块。 parse：一个工具模块阅读全文

posted @ 2020-03-25 01:50 小学研究生阅读(461) 评论(0) 推荐(0)

2020年3月23日

保持HTTP连接状态——会话和Cookies

摘要： HTTP有一个基本的特点就是：无状态。什么是无状态呢，HTTP的无状态是指HTTP协议对事务处理是没有记忆能力的，也就是说服务器不只我们浏览器客户端什么状态。更通俗一点，我们向服务器发送请求后，服务解析处理完这一过程后，并不会记住这一过程，意味着我们如果要继续向服务请求的话需要重新上传前面已经上传的阅读全文

posted @ 2020-03-23 22:57 小学研究生阅读(915) 评论(0) 推荐(0)

2020年3月22日

一个简单的爬虫实例---爬取百度贴吧小说

摘要：最近在学习爬虫来爬取网站内容，本篇就是使用Python的requests库来爬取百度贴吧中小说吧里的一篇小说《黑道编年史》，并将其保存到本地文件中。百度贴吧的内容都是以“楼层发言”的形式呈现的，其中，只有楼主的发言的内容才是有用的小说内容，其余的都是无用的废话，好在百度提供了“只看楼主”的选项，可以阅读全文

posted @ 2020-03-22 00:52 小学研究生阅读(829) 评论(0) 推荐(0)

2020年3月19日

我的第一篇博客

摘要： 1.申请博客园博客前天申请了博客园的账号，然后接着开通了博客园的博客。我还头一次知道开通博客还需眼你提申请，真是酒香不怕院子深，别人家都是求着你开通他们家的账号，这个还要跟入党一样写申请书。。。第一次简单写了几句，竟然没有过。:smile:第二次认真的写了一下，才通过了，大意如下：管理员大人晚上阅读全文

posted @ 2020-03-19 23:55 小学研究生阅读(95) 评论(0) 推荐(0)

公告