python爬虫 - 随笔分类 - King~~~

摘要：转自：http://www.site-digger.com/html/articles/20180821/653.html 阅读全文

posted @ 2020-08-09 17:51 King~~~ 阅读(311) 评论(0) 推荐(0)

摘要：Xposed框架下载地址： https://repo.xposed.info/module/de.robv.android.xposed.installerjusTruestme组件下载地址： https://github.com/Fuzion24/JustTrustMe/releases/tag/ 阅读全文

posted @ 2020-01-06 00:13 King~~~ 阅读(1376) 评论(0) 推荐(0)

App的爬虫----Appium的使用

摘要：先将Appium的config配置好，再启用依次将这些数据填写命令行输入adb shell 然后进入linux底层命令行输入 logcat | grep cmp= 然后打开模拟器里的app,然后命令行就会出现运行的app状态。这两个为appPackage和appActivity 多台设备同时阅读全文

posted @ 2020-01-03 14:41 King~~~ 阅读(787) 评论(0) 推荐(0)

App的爬虫----Appium的介绍

摘要：Appium 介绍 Appium 是一个自动化测试开源工具，支持 iOS 平台和 Android 平台上的原生应用，web 应用和混合应用。所谓的“移动原生应用”是指那些用 iOS 或者 Android SDK 写的应用。所谓的“移动 web 应用”是指使用移动浏览器访问的应用（Appium 支持阅读全文

posted @ 2020-01-03 12:58 King~~~ 阅读(901) 评论(0) 推荐(0)

App的爬虫----uiautomatorviewer自动化

摘要：打开sdk的文件夹目录下\tools\找到uiautomatorviewer的批处理文件双击打开双击出现开启模拟后测试设备连接点击出现这个成功此外想使用xpath语法，需要外下载升级包3 下载地址为：https://github.com/yangzaiCN/uiautomatorviewe 阅读全文

posted @ 2020-01-03 00:38 King~~~ 阅读(384) 评论(0) 推荐(0)

App爬虫----adb的使用

摘要：下载JDK和JRE 新建系统变量：JAVA_HOME，变量值为：C:\Program Files\Java\jdk1.8.0_161 新建系统变量：CLASSPATH ，变量值为：.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar; 在path下配置阅读全文

posted @ 2020-01-02 23:31 King~~~ 阅读(721) 评论(0) 推荐(1)

App爬虫----准备

摘要：下载Fiddler 1.点击Tools中的option 并如此配置，记住端口号。下载夜神模拟器 1.一致next就行。点击夜神多开器。选择一个模拟器。单击系统设置设置为手机的模式模拟器开启后，单击下面的系统设置做如下配置 2.打开系统命令行查看当前ip 鼠标左键长按无线，出现菜单，点击修改阅读全文

posted @ 2020-01-02 14:20 King~~~ 阅读(557) 评论(0) 推荐(0)

redis数据库的使用

摘要：https://www.runoob.com/redis/redis-keys.html 阅读全文

posted @ 2019-12-27 14:57 King~~~ 阅读(81) 评论(0) 推荐(0)

scrapy的使用--Scrapy-Redis

摘要：Scrapy-Redis分布式爬虫组件 Scrapy是一个框架，他本身是不支持分布式的。如果我们想要做分布式的爬虫。就需要借助一个组件叫做Scrapy-Redis。这个组件正式利用了Redis可以分布式的功能，继承到Scrapy框架中，使得爬虫可以进行分布式，可以充分的利用资源（多个ip，更多带宽，阅读全文

posted @ 2019-12-25 17:51 King~~~ 阅读(430) 评论(0) 推荐(0)

scrapy的使用-Request

摘要：Request对象在我们写爬虫，爬取一页的数据需要重新发送一个请求的时候调用。这个类需要传递一些参数。其中比较常用的参数有： 1.url 请求的url对象 2.callback 在下载器下载完相应的数据后执行的回调函数 3.method 请求的方式，默认为GET方法，可以设置为其他方法 4.meta 阅读全文

posted @ 2019-12-18 22:00 King~~~ 阅读(871) 评论(0) 推荐(1)

scrapy的使用-scrapy shell

摘要：进入该目录下执行scrapy shell 文件，在命令行可执行该文件中链接的xpath语法，和BeautifulSoup语法。阅读全文

posted @ 2019-12-18 20:29 King~~~ 阅读(351) 评论(0) 推荐(0)

scrapy的使用-LinkExtractor

摘要：背景：在爬取网站信息是需要获取特定标签下的某些内容，就需要获取这些标签下的链接，如果获取每一个，在通过这个获取它下面的信息，这样效率会很低，时间复杂度O(n^2),但如果先获取链接，再获取内容，则时间复杂度为O(n)+O(n),每次执行完深度为2，则时间复杂度为O(n).效率会明显提高，非常适合整阅读全文

posted @ 2019-12-17 23:39 King~~~ 阅读(466) 评论(0) 推荐(0)

scrapy的使用-Pipelines

摘要：# 简单的对item操作方式 # import json class QsbkPipeline(object): def __init__(self): self.fp=open('qsbk1.json','w',encoding="utf-8") def open_spider(self,spid 阅读全文

posted @ 2019-12-17 22:31 King~~~ 阅读(240) 评论(0) 推荐(0)

scrapy工作流程

摘要：第一步：首先Spiders(爬虫)将需要发送请求的url(request)经过ScrapyEngine(引擎)交给Scheduler(调度器). 第二步：Scheduler(排序，入队)处理后，经过ScrapyEngine,DownloaderMiddlewares(可选，主要有User_Agent 阅读全文

posted @ 2019-12-15 21:53 King~~~ 阅读(1614) 评论(0) 推荐(0)

根据本地ip获取地理位置，再根据地理位置，获取天气

摘要：import json,requestsfrom urllib.request import urlopenfrom pyquery import PyQuery as pqfrom lxml import etree as et def getIp(): #获取本地网络ip html_text = 阅读全文

posted @ 2019-11-26 19:06 King~~~ 阅读(1140) 评论(0) 推荐(0)

python中的线程锁

摘要：锁对象原始锁是一个在锁定时不属于特定线程的同步基元组件。在Python中，它是能用的最低级的同步基元组件，由 _thread 扩展模块直接实现。原始锁处于 "锁定" 或者 "非锁定" 两种状态之一。它被创建时为非锁定状态。它有两个基本方法， acquire() 和 release() 。当状态为阅读全文

posted @ 2019-09-28 15:17 King~~~ 阅读(798) 评论(0) 推荐(0)

python多线程，多进程

摘要：threading.active_count() 返回当前存活的线程类 Thread 对象。返回的计数等于 enumerate() 返回的列表长度。 threading.current_thread() 返回当前对应调用者的控制线程的 Thread 对象。如果调用者的控制线程不是利用 threadi 阅读全文

posted @ 2019-09-28 15:03 King~~~ 阅读(354) 评论(0) 推荐(0)

scrapy爬虫框架爬取招聘网站

摘要：目录结构 BossFace.py文件中代码：将这些开启，建立延迟，防止服务器封掉ip 在命令行创建的命令依次是： 1.scrapy startproject bossFace 2.scrapy genspider BossFace www.zhipin.com #进入spider中执行 3.scr 阅读全文

posted @ 2019-09-22 21:19 King~~~ 阅读(640) 评论(0) 推荐(0)

多线程爬取招聘网站

摘要：爬虫14天小练手这是数据截图：只需要找到网站中传输的json数据流就可以获取该网站的数据，所以打开谷歌浏览器，耐心查看网络传输的包即可。例如：如果没有刷新一下网页，即可出现传输的数据流。接下来我们就可以完成上头所要的数据了。阅读全文

posted @ 2019-09-22 21:02 King~~~ 阅读(397) 评论(0) 推荐(0)

爬虫所需要的文档和自动化文本driver下载地址,以及制作词云的文档，api等

摘要：Scrapy1.7.3文档 webdriver文档 webdriver下载地址 Chrom各版本下载地址 Firefox浏览器各个版本下载地址 geckodriver驱动下载: http://npm.taobao.org/mirrors/geckodriver/ 火狐浏览器机器驱动对应关系词云1. 阅读全文

posted @ 2019-09-18 16:31 King~~~ 阅读(232) 评论(0) 推荐(0)

美好,即将开始

fighting~~

随笔分类 - python爬虫

公告