摘要:关于随机浏览头伪装fake-UserAgent: 使用: from fake_useragent import UserAgent 最实用的 但我认为写爬虫最实用的是可以随意变换headers,一定要有随机性。在这里我写了三个随机生成user agent,三次打印都不一样,随机性很强,十分方便。 爬
阅读全文
摘要:一:识别方法 方法一:(简单,但是识别效果不如方法二) 方法二: 二:验证码处理: 这次执行结果稍有偏差,这是因为验证码中的线条阻止了识别。对于这种情况我们需要一些其他的特殊处理如转灰度、二值化等操作。 我们可以利用Image的convert()传入参数L,即可将图片转化为灰度图像,代码如下: 传入
阅读全文
摘要:声明浏览器对象: 访问页面: 我们可以用get()方法来请求网页,参数传入链接URL即可 三个等待方式: 1、显式等待 一个显式等待是你定义的一段代码,用于等待某个条件发生然后再继续执行后续代码。 from selenium import webdriver from selenium.webdri
阅读全文
摘要:写入: 调用csv库的writer()方法初始化写入对象 调用writerow()方法传入每行的数据即可完成写入 如果想修改列与列之间的分隔符,可以传入delimite 我们也可以调用writerows()方法同时写入多行,此时参数就需要为二维列表 这里先定义3个字段,用fieldnames表示,然
阅读全文
摘要:Python为我们提供了简单易用的库来实现JSON文件的读写操作 loads()方法将JSON文本字符串转为JSON对象 <class 'str'>[{'name': 'Bob', 'gender': 'male', 'birthday': '1992-10-18'}, {'name': 'Seli
阅读全文