King~~~ - 博客园

2019年12月23日

python爬虫--------处理极验验证（滑块拼图验证）bilibili模式

摘要： from selenium import webdriver from PIL import Image import time import random from selenium.webdriver import ActionChains import cv2 from matplotlib 阅读全文

posted @ 2019-12-23 12:59 King~~~ 阅读(2102) 评论(0) 推荐(0)

2019年12月18日

scrapy的使用-Request

摘要： Request对象在我们写爬虫，爬取一页的数据需要重新发送一个请求的时候调用。这个类需要传递一些参数。其中比较常用的参数有： 1.url 请求的url对象 2.callback 在下载器下载完相应的数据后执行的回调函数 3.method 请求的方式，默认为GET方法，可以设置为其他方法 4.meta 阅读全文

posted @ 2019-12-18 22:00 King~~~ 阅读(873) 评论(0) 推荐(1)

scrapy的使用-scrapy shell

摘要：进入该目录下执行scrapy shell 文件，在命令行可执行该文件中链接的xpath语法，和BeautifulSoup语法。阅读全文

posted @ 2019-12-18 20:29 King~~~ 阅读(353) 评论(0) 推荐(0)

2019年12月17日

scrapy的使用-LinkExtractor

摘要：背景：在爬取网站信息是需要获取特定标签下的某些内容，就需要获取这些标签下的链接，如果获取每一个，在通过这个获取它下面的信息，这样效率会很低，时间复杂度O(n^2),但如果先获取链接，再获取内容，则时间复杂度为O(n)+O(n),每次执行完深度为2，则时间复杂度为O(n).效率会明显提高，非常适合整阅读全文

posted @ 2019-12-17 23:39 King~~~ 阅读(473) 评论(0) 推荐(0)

scrapy的使用-Pipelines

摘要： # 简单的对item操作方式 # import json class QsbkPipeline(object): def __init__(self): self.fp=open('qsbk1.json','w',encoding="utf-8") def open_spider(self,spid 阅读全文

posted @ 2019-12-17 22:31 King~~~ 阅读(241) 评论(0) 推荐(0)

2019年12月15日

scrapy工作流程

摘要：第一步：首先Spiders(爬虫)将需要发送请求的url(request)经过ScrapyEngine(引擎)交给Scheduler(调度器). 第二步：Scheduler(排序，入队)处理后，经过ScrapyEngine,DownloaderMiddlewares(可选，主要有User_Agent 阅读全文

posted @ 2019-12-15 21:53 King~~~ 阅读(1617) 评论(0) 推荐(0)

2019年11月26日

根据本地ip获取地理位置，再根据地理位置，获取天气

摘要： import json,requestsfrom urllib.request import urlopenfrom pyquery import PyQuery as pqfrom lxml import etree as et def getIp(): #获取本地网络ip html_text = 阅读全文

posted @ 2019-11-26 19:06 King~~~ 阅读(1145) 评论(0) 推荐(0)

2019年9月28日

python中的线程锁

摘要：锁对象原始锁是一个在锁定时不属于特定线程的同步基元组件。在Python中，它是能用的最低级的同步基元组件，由 _thread 扩展模块直接实现。原始锁处于 "锁定" 或者 "非锁定" 两种状态之一。它被创建时为非锁定状态。它有两个基本方法， acquire() 和 release() 。当状态为阅读全文

posted @ 2019-09-28 15:17 King~~~ 阅读(802) 评论(0) 推荐(0)

python多线程，多进程

摘要： threading.active_count() 返回当前存活的线程类 Thread 对象。返回的计数等于 enumerate() 返回的列表长度。 threading.current_thread() 返回当前对应调用者的控制线程的 Thread 对象。如果调用者的控制线程不是利用 threadi 阅读全文

posted @ 2019-09-28 15:03 King~~~ 阅读(358) 评论(0) 推荐(0)

2019年9月22日

scrapy爬虫框架爬取招聘网站

摘要：目录结构 BossFace.py文件中代码：将这些开启，建立延迟，防止服务器封掉ip 在命令行创建的命令依次是： 1.scrapy startproject bossFace 2.scrapy genspider BossFace www.zhipin.com #进入spider中执行 3.scr 阅读全文

posted @ 2019-09-22 21:19 King~~~ 阅读(645) 评论(0) 推荐(0)

美好,即将开始

fighting~~

公告