Python - 随笔分类 - kuba8

清理vda1

摘要：使用 df -h 命令查看发现/dev/vdal 已经百分百使用 du -sh * 命令查看占用比较大的文件或目录，看了三遍发现最大的就是30多M，百分之就是都是几十K，根本不可能满阿后来百度到有个deleted的文件（僵死文件。这些文件实际上已经被删除，但是有服务程序在使用这些文件，导致这些阅读全文

posted @ 2022-12-31 18:05 kuba8 阅读(162) 评论(0) 推荐(0)

scrapy采集—爬取中文乱码，gb2312转为utf-8

摘要：有段时间没怎么使用scrapy了，最近采集一个网页，发现网页编码是gb2312, 一开始就取搜索了下，发现各种操作都有，有在settings中设置 # FEED_EXPORT_ENCODING = 'utf-8'FEED_EXPORT_ENCODING = 'GB2312' 有在spider中设置r 阅读全文

posted @ 2022-11-24 12:30 kuba8 阅读(380) 评论(0) 推荐(0)

scrapy爬取后中文乱码,解决word转为html 时cp1252编码问题

摘要：解决思路1、循环暴力寻找编码，但是不如思路3 def parse(self, response): print(response.text[:100]) body = response.body#直接是bytes,response.text是str encodings = ['utf-8', 'g 阅读全文

posted @ 2022-11-23 14:45 kuba8 阅读(328) 评论(0) 推荐(0)

scrapy xpath遇见乱码解决

摘要：首先查看页面的编码模式 response.encoding 显示为'cp1252' response.xpath("//title/text()").getall()[0].encode('cp1252').decode('gbk') 解决。阅读全文

posted @ 2022-11-23 11:15 kuba8 阅读(306) 评论(0) 推荐(0)

python向上取整以50为界

摘要：import math def getNum(limit_num,num): if num%limit_num==0: print(num) else: num=math.ceil(num/limit_num)*limit_num print(num) if __name__ == '__main_ 阅读全文

posted @ 2020-06-08 10:11 kuba8 阅读(431) 评论(0) 推荐(0)

xpath 获取meta里的keywords及description的方法

摘要：html中的head的meta元素中的keywords与description标签如下： <meta name="keywords" content="xxxx" > <meta name="description" content="xxxx"> xpath获取属性使用@属性名就行了，如 //me 阅读全文

posted @ 2020-05-06 23:39 kuba8 阅读(1092) 评论(0) 推荐(0)

python3拉勾网爬虫之（您操作太频繁，请稍后访问）

摘要：你是否经历过这个：那就对了~因为需要post和相关的cookie来请求~所以，一个简单的代码爬拉钩~~~ 阅读全文

posted @ 2019-05-04 11:43 kuba8 阅读(2505) 评论(0) 推荐(0)

Python中的logger和handler到底是个什么鬼

摘要：最近的任务经常涉及到日志的记录，特意去又学了一遍logging的记录方法。跟java一样，python的日志记录也是比较繁琐的一件事，在写一条记录之前，要写好多东西。典型的日志记录的步骤是这样的：写成代码差不多就是酱婶的（这个是照别的网页抄的，参考附注）：之后才可以正式的开始记录日志。Java里阅读全文

posted @ 2017-11-22 19:38 kuba8 阅读(3684) 评论(0) 推荐(2)

kuba8

随笔分类 - Python

公告