随笔分类 -  Python爬虫

摘要:此程序只是单纯的为了练习而做,首先这个顶点小说非收费型的那种小说网站(咳咳,我们应该支持正版,正版万岁,✌)。经常在这个网站看小说,所以就光荣的选择了这个网站。此外,其实里面是自带下载功能的,而且支持各种格式:(TXT,CHM,UMD,JAR,APK,HTML),所以可能也并没有设置什么反爬措施,我 阅读全文
posted @ 2019-01-26 19:43 秋夜花开 阅读(3364) 评论(0) 推荐(0)
摘要:用python爬取知乎的热榜,获取标题和链接。 环境和方法:ubantu16.04、python3、requests、xpath 1.用浏览器打开知乎,并登录 2.获取cookie和User—Agent 3.上代码 4.爬取结果 阅读全文
posted @ 2019-01-21 11:19 秋夜花开 阅读(2357) 评论(0) 推荐(0)
摘要:在requests获取网页的编码格式时,有两种方式,而结果也不同,通常用apparent_encoding更合适 注:推荐一个大佬写的关于获取网页编码格式以及requests中text()和content()的区别,以及转码的一些问题 http://xiaorui.cc/2016/02/19/代码分 阅读全文
posted @ 2018-10-15 19:02 秋夜花开 阅读(11747) 评论(0) 推荐(0)
摘要:简介:在做爬虫时,xpath返回的是列表格式,我们又需要将列表中的元素一一对应并存放至字典中,这是就可以用zip函数。 zip() 函数用于将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的列表。如果各个迭代器的元素个数不一致,则返回列表长度与最短的对象相同,利用 阅读全文
posted @ 2018-10-13 16:08 秋夜花开 阅读(2436) 评论(0) 推荐(0)
摘要:HTTP状态码(HTTP Status Code)是用以表示网页服务器HTTP响应状态的3位数字代码。它由 RFC 2616 规范定义的,并得到RFC 2518、RFC 2817、RFC 2295、RFC 2774、RFC 4918等规范扩展。 这里记录一下常见的状态码: 200 OK 代表请求成功 阅读全文
posted @ 2018-08-18 13:08 秋夜花开 阅读(172) 评论(0) 推荐(0)