03 2020 档案

摘要:数据的时代,网络爬虫有一定的法律风险,但是只要遵守协议知道抓爬哪些数据是不合法的,我们就能避免。 每个网站一般都有Rebots协议,没有的就都可以爬了。 Robots Exclusion Standard,网络爬虫排除标准协议 作用: 告知网络爬虫哪些页面可以抓爬,哪些不可以 形式: 在网站跟目录下 阅读全文
posted @ 2020-03-31 22:51 vhao11 阅读(434) 评论(0) 推荐(0)
摘要:Requests库得7个主要方法: requests.request() 构造一个请求,支撑以下各方法得基础方法 requests.get() 获取html网页得主要方法,对应于HTTP得GET requests.head() 获取http网页信息头的方法,对应于HTTP的HEAD requests 阅读全文
posted @ 2020-03-31 22:38 vhao11 阅读(184) 评论(0) 推荐(0)
摘要:安装: cmd模式下输入 pip install jieba anaconda对应环境 conda install jieba 分词原理: Jieba分词依靠中文词库 -利用一个中文词库,确定汉字之间的关联概率 -汉字间概率大的组成词组,形成分词结果 -除了分词,用户还可以添加自定义的词组 jieb 阅读全文
posted @ 2020-03-28 16:57 vhao11 阅读(1343) 评论(0) 推荐(0)
摘要:集合类型及操作 集合元素之间无序,集合元素不可更改。 创建 set("pypy123") {'1', '3', 'p', 'y', '2'} 空集合不能用{}生成,留个字典了, 用set() 关系操作 交 & 并 | 差 - 补^ 支持(&=, |=, -=, ^=) 关系操作符 <,<=,>,>= 阅读全文
posted @ 2020-03-26 22:14 vhao11 阅读(368) 评论(0) 推荐(0)
摘要:用严格的缩进代替C++中的{},简洁美观。 变量不需要传统的定义,系统推断,类似auto 命名规则:大小写字母、数字、下划线和汉字等字符组合 注意事项:大小写敏感、首字符不能是数字、不与保留字相同 注释#注释一句,三引号注释多行,有意思的是三引号也是字符串 33个保留字:(大小写敏感) and el 阅读全文
posted @ 2020-03-24 20:44 vhao11 阅读(311) 评论(0) 推荐(0)