摘要: Date: 2019 06 09 Author: Sun 我们分析格言网 https://www.geyanw.com/, 通过requests网络库和bs4解析库进行爬取此网站内容。 ​ 项目操作步骤 1. 创建项目文件夹 2. 创建虚拟环境 3. 安装依赖库 4. 编写代码 spiders/ge 阅读全文
posted @ 2019-06-19 23:17 ^sun^ 阅读(239) 评论(0) 推荐(0)
摘要: Date: 2019 06 19 Author: Sun 本节要学习的库有: 网络库:requests 页面解析库:Beautiful Soup 1 Requests库 ​ 虽然Python的标准库中 urllib 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 阅读全文
posted @ 2019-06-19 23:16 ^sun^ 阅读(150) 评论(0) 推荐(0)
摘要: Date: 2019 06 19 Author: Sun urllib ​ 在Python 3以后的版本中,urllib2这个模块已经不单独存在(也就是说当你import urllib2时,系统提示你没这个模块),urllib2被合并到了urllib中,叫做urllib.request 和 urll 阅读全文
posted @ 2019-06-19 23:14 ^sun^ 阅读(411) 评论(0) 推荐(0)
摘要: Date: 2019 06 19 Author: Sun 1. curl的使用 注意:安装的时候可能会遇到报错,有可能是openssl没装, 一些常用参数的用法 | 参数 | 说明 | 示例 | | | | | | A | 设置user agent | curl A "Chrome" http:// 阅读全文
posted @ 2019-06-19 23:12 ^sun^ 阅读(1249) 评论(1) 推荐(0)
摘要: 100:继续 客户端应当继续发送请求。客户端应当继续发送请求的剩余部分,或者如果请求已经完成,忽略这个响应。 101: 转换协议 在发送完这个响应最后的空行后,服务器将会切换到在Upgrade 消息头中定义的那些协议。只有在切换新的协议更有好处的时候才应该采取类似措施。 102:继续处理 由WebD 阅读全文
posted @ 2019-06-19 23:12 ^sun^ 阅读(222) 评论(0) 推荐(0)
摘要: Date: 2019 06 02 Author: Sun 网络爬虫 ​ 网络爬虫是捜索引擎抓取系统的重要组成部分。爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。 爬虫是 模拟用户在浏览器或者某个应用上的操作,把操作的过程、实现自动化的程序 当我们在浏览器中输入一个url后回 阅读全文
posted @ 2019-06-19 23:11 ^sun^ 阅读(3987) 评论(1) 推荐(2)
摘要: Date: 2019 06 19 Author: Sun HTTP协议 ​ HTTP是Hyper Text Transfer Protocol(超文本传输协议)的缩写。它的发展是万维网协会(World Wide Web Consortium)和Internet工作小组IETF(Internet En 阅读全文
posted @ 2019-06-19 23:07 ^sun^ 阅读(366) 评论(0) 推荐(0)
摘要: Date: 2019 06 19 Author: Sun 1. Select ​ select最早于1983年出现在4.2BSD中,它通过一个select()系统调用来监视多个文件描述符的数组,当select()返回后,该数组中就绪的文件描述符便会被内核修改标志位,使得进程可以获得这些文件描述符从而 阅读全文
posted @ 2019-06-19 23:04 ^sun^ 阅读(214) 评论(0) 推荐(0)
摘要: Date: 2019 06 19 Author: Sun 一. Python3输出带颜色字体 实现过程: ​ 终端的字符颜色是用转义序列控制的,是文本模式下的系统显示功能,和具体的语言无关。 ​ 转义序列是以ESC开头,即用\033来完成(ESC的ASCII码用十进制表示是27,用八进制表示就是03 阅读全文
posted @ 2019-06-19 23:03 ^sun^ 阅读(862) 评论(0) 推荐(0)