随笔分类 - Python
摘要:使用 df -h 命令查看 发现/dev/vdal 已经百分百 使用 du -sh * 命令查看占用比较大的文件或目录,看了三遍发现最大的就是30多M,百分之就是都是几十K,根本不可能满阿 后来百度到有个deleted的文件(僵死文件。这些文件实际上已经被删除,但是有服务程序在使用这些文件,导致这些
阅读全文
摘要:有段时间没怎么使用scrapy了,最近采集一个网页,发现网页编码是gb2312, 一开始就取搜索了下,发现各种操作都有,有在settings中设置 # FEED_EXPORT_ENCODING = 'utf-8'FEED_EXPORT_ENCODING = 'GB2312' 有在spider中设置r
阅读全文
摘要:解决思路1、 循环暴力寻找编码,但是不如思路3 def parse(self, response): print(response.text[:100]) body = response.body#直接是bytes,response.text是str encodings = ['utf-8', 'g
阅读全文
摘要:首先查看页面的编码模式 response.encoding 显示为'cp1252' response.xpath("//title/text()").getall()[0].encode('cp1252').decode('gbk') 解决。
阅读全文
摘要:import math def getNum(limit_num,num): if num%limit_num==0: print(num) else: num=math.ceil(num/limit_num)*limit_num print(num) if __name__ == '__main_
阅读全文
摘要:html中的head的meta元素中的keywords与description标签如下: <meta name="keywords" content="xxxx" > <meta name="description" content="xxxx"> xpath获取属性使用@属性名就行了,如 //me
阅读全文
摘要:你是否经历过这个:那就对了~因为需要post和相关的cookie来请求~所以,一个简单的代码爬拉钩~~~
阅读全文
摘要:最近的任务经常涉及到日志的记录,特意去又学了一遍logging的记录方法。跟java一样,python的日志记录也是比较繁琐的一件事,在写一条记录之前,要写好多东西。典型的日志记录的步骤是这样的: 写成代码差不多就是酱婶的(这个是照别的网页抄的,参考附注): 之后才可以正式的开始记录日志。Java里
阅读全文
浙公网安备 33010602011771号