随笔分类 -  python爬虫

https://www.cnblogs.com/superSmall/p/11520893.html
摘要:转自:http://www.site-digger.com/html/articles/20180821/653.html 阅读全文
posted @ 2020-08-09 17:51 King~~~ 阅读(311) 评论(0) 推荐(0)
摘要:Xposed框架下载地址: https://repo.xposed.info/module/de.robv.android.xposed.installerjusTruestme组件下载地址: https://github.com/Fuzion24/JustTrustMe/releases/tag/ 阅读全文
posted @ 2020-01-06 00:13 King~~~ 阅读(1376) 评论(0) 推荐(0)
摘要:先将Appium的config配置好,再启用 依次将这些数据填写 命令行输入adb shell 然后进入linux底层命令行 输入 logcat | grep cmp= 然后打开模拟器里的app,然后命令行就会出现运行的app状态。 这两个为appPackage和appActivity 多台设备同时 阅读全文
posted @ 2020-01-03 14:41 King~~~ 阅读(787) 评论(0) 推荐(0)
摘要:Appium 介绍 Appium 是一个自动化测试开源工具,支持 iOS 平台和 Android 平台上的原生应用,web 应用和混合应用。 所谓的“移动原生应用”是指那些用 iOS 或者 Android SDK 写的应用。所谓的“移动 web 应用”是指使用移动浏览器访问的应用(Appium 支持 阅读全文
posted @ 2020-01-03 12:58 King~~~ 阅读(901) 评论(0) 推荐(0)
摘要:打开sdk的文件夹目录下\tools\找到uiautomatorviewer的批处理文件双击打开 双击出现 开启模拟后测试设备连接 点击 出现这个成功 此外想使用xpath语法,需要外下载升级包3 下载地址为:https://github.com/yangzaiCN/uiautomatorviewe 阅读全文
posted @ 2020-01-03 00:38 King~~~ 阅读(384) 评论(0) 推荐(0)
摘要:下载JDK和JRE 新建系统变量:JAVA_HOME,变量值为:C:\Program Files\Java\jdk1.8.0_161 新建系统变量:CLASSPATH ,变量值为:.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar; 在path下配置 阅读全文
posted @ 2020-01-02 23:31 King~~~ 阅读(721) 评论(0) 推荐(1)
摘要:下载Fiddler 1.点击Tools中的option 并如此配置,记住端口号。 下载夜神模拟器 1.一致next就行。点击夜神多开器。选择一个模拟器。 单击系统设置 设置为手机的模式 模拟器开启后,单击下面的系统设置 做如下配置 2.打开系统命令行查看当前ip 鼠标左键长按无线,出现菜单,点击修改 阅读全文
posted @ 2020-01-02 14:20 King~~~ 阅读(557) 评论(0) 推荐(0)
摘要:https://www.runoob.com/redis/redis-keys.html 阅读全文
posted @ 2019-12-27 14:57 King~~~ 阅读(81) 评论(0) 推荐(0)
摘要:Scrapy-Redis分布式爬虫组件 Scrapy是一个框架,他本身是不支持分布式的。如果我们想要做分布式的爬虫。就需要借助一个组件叫做Scrapy-Redis。这个组件正式利用了Redis可以分布式的功能,继承到Scrapy框架中,使得爬虫可以进行分布式,可以充分的利用资源(多个ip,更多带宽, 阅读全文
posted @ 2019-12-25 17:51 King~~~ 阅读(430) 评论(0) 推荐(0)
摘要:Request对象在我们写爬虫,爬取一页的数据需要重新发送一个请求的时候调用。这个类需要传递一些参数。其中比较常用的参数有: 1.url 请求的url对象 2.callback 在下载器下载完相应的数据后执行的回调函数 3.method 请求的方式,默认为GET方法,可以设置为其他方法 4.meta 阅读全文
posted @ 2019-12-18 22:00 King~~~ 阅读(871) 评论(0) 推荐(1)
摘要:进入 该目录下执行scrapy shell 文件, 在命令行可执行该文件中链接的xpath语法,和BeautifulSoup语法。 阅读全文
posted @ 2019-12-18 20:29 King~~~ 阅读(351) 评论(0) 推荐(0)
摘要:背景: 在爬取网站信息是需要获取特定标签下的某些内容,就需要获取这些标签下的链接,如果获取每一个,在通过这个获取它下面的信息,这样效率会很低,时间复杂度O(n^2),但如果先获取链接,再获取内容,则时间复杂度为O(n)+O(n),每次执行完深度为2,则时间复杂度为O(n).效率会明显提高,非常适合整 阅读全文
posted @ 2019-12-17 23:39 King~~~ 阅读(466) 评论(0) 推荐(0)
摘要:# 简单的对item操作方式 # import json class QsbkPipeline(object): def __init__(self): self.fp=open('qsbk1.json','w',encoding="utf-8") def open_spider(self,spid 阅读全文
posted @ 2019-12-17 22:31 King~~~ 阅读(240) 评论(0) 推荐(0)
摘要:第一步:首先Spiders(爬虫)将需要发送请求的url(request)经过ScrapyEngine(引擎)交给Scheduler(调度器). 第二步:Scheduler(排序,入队)处理后,经过ScrapyEngine,DownloaderMiddlewares(可选,主要有User_Agent 阅读全文
posted @ 2019-12-15 21:53 King~~~ 阅读(1614) 评论(0) 推荐(0)
摘要:import json,requestsfrom urllib.request import urlopenfrom pyquery import PyQuery as pqfrom lxml import etree as et def getIp(): #获取本地网络ip html_text = 阅读全文
posted @ 2019-11-26 19:06 King~~~ 阅读(1140) 评论(0) 推荐(0)
摘要:锁对象 原始锁是一个在锁定时不属于特定线程的同步基元组件。在Python中,它是能用的最低级的同步基元组件,由 _thread 扩展模块直接实现。 原始锁处于 "锁定" 或者 "非锁定" 两种状态之一。它被创建时为非锁定状态。它有两个基本方法, acquire() 和 release() 。当状态为 阅读全文
posted @ 2019-09-28 15:17 King~~~ 阅读(798) 评论(0) 推荐(0)
摘要:threading.active_count() 返回当前存活的线程类 Thread 对象。返回的计数等于 enumerate() 返回的列表长度。 threading.current_thread() 返回当前对应调用者的控制线程的 Thread 对象。如果调用者的控制线程不是利用 threadi 阅读全文
posted @ 2019-09-28 15:03 King~~~ 阅读(354) 评论(0) 推荐(0)
摘要:目录结构 BossFace.py文件中代码: 将这些开启,建立延迟,防止服务器封掉ip 在命令行创建的命令依次是: 1.scrapy startproject bossFace 2.scrapy genspider BossFace www.zhipin.com #进入spider中执行 3.scr 阅读全文
posted @ 2019-09-22 21:19 King~~~ 阅读(640) 评论(0) 推荐(0)
摘要:爬虫14天小练手这是数据截图: 只需要找到网站中传输的json数据流就可以获取该网站的数据,所以打开谷歌浏览器,耐心查看网络传输的包即可。例如: 如果没有刷新一下网页,即可出现传输的数据流。 接下来我们就可以完成上头所要的数据了。 阅读全文
posted @ 2019-09-22 21:02 King~~~ 阅读(397) 评论(0) 推荐(0)
摘要:Scrapy1.7.3文档 webdriver文档 webdriver下载地址 Chrom各版本下载地址 Firefox浏览器各个版本下载地址 geckodriver驱动下载: http://npm.taobao.org/mirrors/geckodriver/ 火狐浏览器机器驱动对应关系 词云1. 阅读全文
posted @ 2019-09-18 16:31 King~~~ 阅读(232) 评论(0) 推荐(0)