Python爬虫 - 随笔分类 - 秋夜花开

从“顶点小说”下载完整小说——python爬虫

摘要：此程序只是单纯的为了练习而做，首先这个顶点小说非收费型的那种小说网站（咳咳，我们应该支持正版，正版万岁，✌）。经常在这个网站看小说，所以就光荣的选择了这个网站。此外，其实里面是自带下载功能的，而且支持各种格式:（TXT,CHM,UMD,JAR,APK,HTML),所以可能也并没有设置什么反爬措施，我阅读全文

posted @ 2019-01-26 19:43 秋夜花开阅读(3376) 评论(0) 推荐(0)

爬取知乎热榜标题和连接（python，requests，xpath）

摘要：用python爬取知乎的热榜，获取标题和链接。环境和方法：ubantu16.04、python3、requests、xpath 1.用浏览器打开知乎，并登录 2.获取cookie和User—Agent 3.上代码 4.爬取结果阅读全文

posted @ 2019-01-21 11:19 秋夜花开阅读(2380) 评论(0) 推荐(0)

python获取网页编码问题（encoding和apparent_encoding）

摘要：在requests获取网页的编码格式时，有两种方式，而结果也不同，通常用apparent_encoding更合适注：推荐一个大佬写的关于获取网页编码格式以及requests中text()和content()的区别，以及转码的一些问题 http://xiaorui.cc/2016/02/19/代码分阅读全文

posted @ 2018-10-15 19:02 秋夜花开阅读(11752) 评论(0) 推荐(0)

python爬虫同时输出两个列表（zip函数）

摘要：简介：在做爬虫时，xpath返回的是列表格式，我们又需要将列表中的元素一一对应并存放至字典中，这是就可以用zip函数。 zip() 函数用于将可迭代的对象作为参数，将对象中对应的元素打包成一个个元组，然后返回由这些元组组成的列表。如果各个迭代器的元素个数不一致，则返回列表长度与最短的对象相同，利用阅读全文

posted @ 2018-10-13 16:08 秋夜花开阅读(2440) 评论(0) 推荐(0)

常见HTTP状态码

摘要：HTTP状态码（HTTP Status Code）是用以表示网页服务器HTTP响应状态的3位数字代码。它由 RFC 2616 规范定义的，并得到RFC 2518、RFC 2817、RFC 2295、RFC 2774、RFC 4918等规范扩展。这里记录一下常见的状态码： 200 OK 代表请求成功阅读全文

posted @ 2018-08-18 13:08 秋夜花开阅读(173) 评论(0) 推荐(0)

Twaine

随笔分类 - Python爬虫

公告