2020 年 9月随笔档案 - kingron

Python __new__ 方法解释与使用

摘要：解释我们通常把 __init__ 称为构造方法，这是从其他语言借鉴过来的术语。其实，用于构建实例的是特殊方法 __new__：这是个类方法（使用特殊方式处理，因此不必使用 @classmethod 装饰器），必须返回一个实例。返回的实例会作为第一个参数（即 self）传给 __init__ 方法阅读全文

posted @ 2020-09-24 23:57 kingron 阅读(477) 评论(0) 推荐(0)

Xpath 使用技巧

摘要：简介 XPath：XML Path Language，一门在XML和HTML文档中查找信息的语言。插件安装： Chrome浏览器插件安装：XPath Helper 火狐浏览器插件安装：try XPath 常见语法选取节点 XPath使用路径表达式来选取XML文档中的节点（集）。表达式描述示阅读全文

posted @ 2020-09-21 18:00 kingron 阅读(1272) 评论(0) 推荐(0)

Pandas 中的遍历与并行处理

摘要：使用 pandas 处理数据时，遍历和并行处理是比较常见的操作了本文总结了几种不同样式的操作和并行处理方法。 1. 准备示例数据 import pandas as pd import numpy as np df = pd.DataFrame(np.random.randint(40, 100, ( 阅读全文

posted @ 2020-09-21 17:43 kingron 阅读(6152) 评论(0) 推荐(1)

增量采集中的几种去重方案

摘要：引言数据采集工作中，难免会遇到增量采集。而在增量采集中，如何去重是一个大问题，因为实际的需要采集的数据也许并不多，但往往要在判断是否已经采集过这件事上花点时间。比如对于资讯采集，如果发布网站每天只更新几条或者根本就不更新，那么如何让采集程序每次只采集这更新的几条（或不采集）是一件很简单的事，数据库阅读全文

posted @ 2020-09-20 21:43 kingron 阅读(1410) 评论(0) 推荐(2)

如何实现 range 函数的参数？

摘要：关于 range 函数 Python内置的range函数可以接收三个参数： class range(stop): ... class range(start, stop[, step]): ... 标准库中解释为：range 构造器的参数必须为整数（可以是内置的 int 或任何实现了 __index 阅读全文

posted @ 2020-09-20 21:40 kingron 阅读(932) 评论(0) 推荐(0)

去除爬虫采集到的\xa0、\u3000等字符

摘要：\xa0表示不间断空白符，爬虫中遇到它的概率不可谓不小，而经常和它一同出现的还有\u3000、\u2800、\t等Unicode字符串。单从对\xa0、\t、\u3000等含空白字符的处理来说，有以下几种方法可行：使用re.sub 使用正则表达式可以轻松匹配所有空白字符，它对于Unicode字符也阅读全文

posted @ 2020-09-20 21:20 kingron 阅读(756) 评论(0) 推荐(1)

selenium 控制窗口无限向下滚动

摘要：使用脚本 window.scrollBy(0, 1000)，放入 while True 循环，示例代码： while True: js = 'window.scrollBy(0, 1000)' driver.execute_script(js) 阅读全文

posted @ 2020-09-20 21:19 kingron 阅读(579) 评论(0) 推荐(0)

如何优雅的在scrapy中使用selenium —— 在scrapy中实现浏览器池

摘要：1 使用 scrapy 做采集实在是爽，但是遇到网站反爬措施做的比较好的就让人头大了。除了硬着头皮上以外，还可以使用爬虫利器 selenium，selenium 因其良好的模拟能力成为爬虫爱(cai)好(ji)者爱不释手的武器。但是其速度又往往令人感到美中不足，特别是在与 scrapy 集成使用时，阅读全文

posted @ 2020-09-20 21:08 kingron 阅读(1625) 评论(0) 推荐(0)

Loading

WONDERING

everything in the world~

09 2020 档案

公告