会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
美好,即将开始
fighting~~
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
5
6
7
8
9
10
11
下一页
2019年12月23日
python爬虫--------处理极验验证(滑块拼图验证)bilibili模式
摘要: from selenium import webdriver from PIL import Image import time import random from selenium.webdriver import ActionChains import cv2 from matplotlib
阅读全文
posted @ 2019-12-23 12:59 King~~~
阅读(2082)
评论(0)
推荐(0)
2019年12月18日
scrapy的使用-Request
摘要: Request对象在我们写爬虫,爬取一页的数据需要重新发送一个请求的时候调用。这个类需要传递一些参数。其中比较常用的参数有: 1.url 请求的url对象 2.callback 在下载器下载完相应的数据后执行的回调函数 3.method 请求的方式,默认为GET方法,可以设置为其他方法 4.meta
阅读全文
posted @ 2019-12-18 22:00 King~~~
阅读(871)
评论(0)
推荐(1)
scrapy的使用-scrapy shell
摘要: 进入 该目录下执行scrapy shell 文件, 在命令行可执行该文件中链接的xpath语法,和BeautifulSoup语法。
阅读全文
posted @ 2019-12-18 20:29 King~~~
阅读(350)
评论(0)
推荐(0)
2019年12月17日
scrapy的使用-LinkExtractor
摘要: 背景: 在爬取网站信息是需要获取特定标签下的某些内容,就需要获取这些标签下的链接,如果获取每一个,在通过这个获取它下面的信息,这样效率会很低,时间复杂度O(n^2),但如果先获取链接,再获取内容,则时间复杂度为O(n)+O(n),每次执行完深度为2,则时间复杂度为O(n).效率会明显提高,非常适合整
阅读全文
posted @ 2019-12-17 23:39 King~~~
阅读(460)
评论(0)
推荐(0)
scrapy的使用-Pipelines
摘要: # 简单的对item操作方式 # import json class QsbkPipeline(object): def __init__(self): self.fp=open('qsbk1.json','w',encoding="utf-8") def open_spider(self,spid
阅读全文
posted @ 2019-12-17 22:31 King~~~
阅读(236)
评论(0)
推荐(0)
2019年12月15日
scrapy工作流程
摘要: 第一步:首先Spiders(爬虫)将需要发送请求的url(request)经过ScrapyEngine(引擎)交给Scheduler(调度器). 第二步:Scheduler(排序,入队)处理后,经过ScrapyEngine,DownloaderMiddlewares(可选,主要有User_Agent
阅读全文
posted @ 2019-12-15 21:53 King~~~
阅读(1611)
评论(0)
推荐(0)
2019年11月26日
根据本地ip获取地理位置,再根据地理位置,获取天气
摘要: import json,requestsfrom urllib.request import urlopenfrom pyquery import PyQuery as pqfrom lxml import etree as et def getIp(): #获取本地网络ip html_text =
阅读全文
posted @ 2019-11-26 19:06 King~~~
阅读(1134)
评论(0)
推荐(0)
2019年9月28日
python中的线程锁
摘要: 锁对象 原始锁是一个在锁定时不属于特定线程的同步基元组件。在Python中,它是能用的最低级的同步基元组件,由 _thread 扩展模块直接实现。 原始锁处于 "锁定" 或者 "非锁定" 两种状态之一。它被创建时为非锁定状态。它有两个基本方法, acquire() 和 release() 。当状态为
阅读全文
posted @ 2019-09-28 15:17 King~~~
阅读(789)
评论(0)
推荐(0)
python多线程,多进程
摘要: threading.active_count() 返回当前存活的线程类 Thread 对象。返回的计数等于 enumerate() 返回的列表长度。 threading.current_thread() 返回当前对应调用者的控制线程的 Thread 对象。如果调用者的控制线程不是利用 threadi
阅读全文
posted @ 2019-09-28 15:03 King~~~
阅读(352)
评论(0)
推荐(0)
2019年9月22日
scrapy爬虫框架爬取招聘网站
摘要: 目录结构 BossFace.py文件中代码: 将这些开启,建立延迟,防止服务器封掉ip 在命令行创建的命令依次是: 1.scrapy startproject bossFace 2.scrapy genspider BossFace www.zhipin.com #进入spider中执行 3.scr
阅读全文
posted @ 2019-09-22 21:19 King~~~
阅读(637)
评论(0)
推荐(0)
上一页
1
···
5
6
7
8
9
10
11
下一页
公告