摘要: 1、获取当前时间并格式化输出 2、程序计时应用: 2.1:测量时间:perf_counter() 2.2:休眠函数 调用main()函数后,程序休眠3.3秒后再接着运行 3、文本进度条 3.1文件进度条单行进度刷新 阅读全文
posted @ 2019-05-03 20:49 假如年少有为 阅读(393) 评论(0) 推荐(0) 编辑
摘要: import requests import re from bs4 import BeautifulSoup import bs4 ''' 数据线起始页https://s.taobao.com/search?q=%E4%B9%A6%E5%8C%85&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a2... 阅读全文
posted @ 2019-05-01 14:13 假如年少有为 阅读(5916) 评论(0) 推荐(0) 编辑
摘要: 常用正则表达式操作符 . :表示任何单位个字符 [ ]:字符集,表示对单个字符给出取值范围,[abc]表示a,b,c,[a-z]表示a到z单个字符 [^ ]:非字符集,对单个给出排除范围,[^abc]表示非a或非b或非c的单个字符 *:前一个字符0次或者无限次扩展,*abc表示ab abc abcc 阅读全文
posted @ 2019-05-01 14:12 假如年少有为 阅读(186) 评论(0) 推荐(0) 编辑
摘要: 爬虫定向爬取中国大学排名信息 阅读全文
posted @ 2019-04-28 14:37 假如年少有为 阅读(417) 评论(0) 推荐(0) 编辑
摘要: 信息标记的三种形式: XML(扩展标记语言) JSON(js中面向对象的信息表达形式,由类型的(string)键值对组成) "name":"北京理工大学" YAML(无类型的键值对组成) name:北京理工大学 三种信息标记方式的应用区别 XML:internet上的信息传递与交互 JSON:移动应 阅读全文
posted @ 2019-04-27 16:43 假如年少有为 阅读(246) 评论(0) 推荐(0) 编辑
摘要: 使用BeautifulSoup库提取HTML页面信息 BeautifulSoup类的基本属性 标签树的下行遍历 标签树的上行遍历 遍历title标签的上一级标签 遍历a标签的所有前序节点以及后续节点 soup标签的上一级标签为空,所以要进行判断 阅读全文
posted @ 2019-04-27 12:23 假如年少有为 阅读(228) 评论(0) 推荐(0) 编辑
摘要: 1、京东页面商品的爬取 2、亚马逊页面商品的爬取 更改user-agent访问头部属性,让代码模拟浏览器来向亚马逊服务器提供http请求 3、百度/360搜索关键字提交 两大搜索引擎关键词URL 4、网络图片的爬取与存储 4.1、网络图片的爬取与存储(优化版) 引入os模块,将图片保存在指定目录下; 阅读全文
posted @ 2019-04-27 10:29 假如年少有为 阅读(973) 评论(0) 推荐(0) 编辑
摘要: python爬去百度主页代码 Response对象属性 response库异常函数 爬虫通用代码框架: Requests 七个主要方法 URL是http协议存取资源的internet路径,一个URL对应一个数据资源 http协议对资源的操作 网络爬虫尺寸 在爬去网页或者网站时用遵守robots协议 阅读全文
posted @ 2019-04-25 11:08 假如年少有为 阅读(152) 评论(0) 推荐(0) 编辑
摘要: IO在计算机中是指input和output(数据输入与输出),涉及到数据交换(磁盘、网络)的地方就需要IO接口。 输入流input stream是指数据从外面(磁盘、网络服务器)流入内存;输出流output stream是指数据从内存流到外面去。 由于cpu与内存的运算速度远高于外设速度,存在严重的 阅读全文
posted @ 2019-04-24 22:27 假如年少有为 阅读(163) 评论(0) 推荐(0) 编辑
摘要: Python 面向对象编程 阅读全文
posted @ 2019-04-20 15:09 假如年少有为 阅读(153) 评论(0) 推荐(0) 编辑