Fork me on GitHub
摘要:1、标签中只包含文字 取包含 '卷期号' 三个字的节点 //ul[@id='side-menu']/li/a[contains(text(),"卷期号")] 取其内容 //ul[@id='side-menu']/li/a[contains(text(), '卷期号')]/text() 运行结果: 2 阅读全文
posted @ 2019-09-22 16:36 暮良文王 阅读 (10) 评论 (0) 编辑
摘要:由于公司业务要求,西瓜代理已经不满足需求,准备更换新的代理IP池,所以调研测试了一下市面上的各家付费代理(免费代理可用率低故不考虑),功能限制和价格情况等如何,以便从中挑选满足要求的代理。 1、目标站 2、情报收集 整理套餐的价格和类型,API频率,每秒提取上限,每天提取上限,使用时长等信息: (p 阅读全文
posted @ 2019-09-20 20:29 暮良文王 阅读 (34) 评论 (0) 编辑
摘要:准备打开文件时,报了如下错误: 在路径中出现了这个Unicode 202a字符,导致了这个错误。 这玩意是哪里来的? 复制windows文件属性的时候复制下图中的路径而来的。 解释: 这个字符的含义是left to right,也就是从左到右的阅读顺序,在写代码的时候显示不出来,但是在命令行中可以显 阅读全文
posted @ 2019-08-20 20:53 暮良文王 阅读 (47) 评论 (0) 编辑
摘要:引言: 在阅读源码时,有很多简写的形式,其中一个比较常用的就是getattr()用来调用一个类中的变量或者方法,相关联的hasattr()、getattr()、setattr()函数的使用也一并学习了一下。 正文: 1. hasattr(object, name) 判断object对象中是否存在na 阅读全文
posted @ 2019-08-16 09:49 暮良文王 阅读 (41) 评论 (0) 编辑
摘要:工作中,遇到mysql数据库存储于我的电脑上,而其他电脑需要共同进行读写数据(类似redis并发),所以我的电脑就必须开启mysql远程连接。 一. 授权 1. 连接数据库 mysql -uroot -p 2.选择系统库,mysql use mysql; 当然你也可以看看你mysql里,都创建了哪些 阅读全文
posted @ 2019-08-12 16:38 暮良文王 阅读 (73) 评论 (0) 编辑
摘要:词云图是根据词出现的频率生成词云,词的字体大小表现了其频率大小。 写在前面: 用wc.generate(text)直接生成词频的方法使用很多,所以不再赘述。 但是对于根据generate_from_frequencies()给定词频如何画词云图的资料找了很久,下面只讲这种方法。 generate_f 阅读全文
posted @ 2019-08-06 23:35 暮良文王 阅读 (315) 评论 (0) 编辑
摘要:问题/需求: 需要将字符串切分,但是分隔符在整个字符串中并不一致 (即:需要用多个分隔符切分字符串) str.split()方法不可行: 只支持单一分隔符,不支持正则及多个切割符号,不感知空格的数量 解决办法: re.split() 适用:多个 分隔符,切割功能非常强大 语法: re.split(p 阅读全文
posted @ 2019-08-05 14:21 暮良文王 阅读 (146) 评论 (0) 编辑
摘要:matplotlib是Python著名的绘图库,默认并不支持中文显示,因此在不经过修改的情况下,无法正确显示中文。 本文将介绍解决这一问题的方法。 不修改文件,加两行代码即可: 改前: 改后: 阅读全文
posted @ 2019-08-04 11:37 暮良文王 阅读 (15) 评论 (0) 编辑
摘要:一、列表内建方法--sort() 作用:就地对列表排序(直接在原列表上做排序) 语法: list.sort(func=None, key=None, reverse=False) 当reverse=False时:正向排序;当reverse=True时:逆向排序。默认为False。 执行完后会改变原来 阅读全文
posted @ 2019-07-04 21:08 暮良文王 阅读 (100) 评论 (0) 编辑
摘要:一、不写入Mysql 以爬取哪儿网为例。 以下为脚本: 这个脚本里只是单纯的将结果打印在pyspider 的web ui中,并没有存到其它地方。 二、存入Mysql中 插入数据库的话,需要我们在调用它之前定义一个save_in_mysql函数。 并且需要将连接数据库等初始化放在__init__函数中 阅读全文
posted @ 2019-07-03 11:09 暮良文王 阅读 (137) 评论 (2) 编辑