会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
南啾
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
4
5
6
7
8
9
10
11
12
···
19
下一页
2020年5月29日
scrapy持久化存储
摘要: 基于终端指令: 要求:只可以将parse方法的返回值存储到本地的文本文件中 注意:持久批存储对应的文本文件类型只可以为:('csv', 'pickle', 'json', 'xml', 'jl', 'jsonlines', 'marshal') 指令:scrapy crawl xxx -o file
阅读全文
posted @ 2020-05-29 11:18 南啾
阅读(130)
评论(0)
推荐(0)
2020年5月27日
scrapy框架
摘要: 什么是scrapy 爬虫中封装好的一个明星框架 功能:高性能的持久化存储,异步的数据下载,高性能的数据解析,分布式 scrapy框架的基本使用 环境的安装: mac or linux :pip insatall scrapy window: - pip install wheel - 下载twist
阅读全文
posted @ 2020-05-27 13:24 南啾
阅读(165)
评论(0)
推荐(0)
selenium处理iframe
摘要: 如果定位的标签存在于iframe标签中,则必须使用switch_to.frame(id) 导入动作链(拖动):from selenium.webdriver import ActionChains 实例化一个动作链对象:action = ActionChains(bro) click_and_hol
阅读全文
posted @ 2020-05-27 10:03 南啾
阅读(301)
评论(0)
推荐(0)
2020年5月26日
seleniium模块的基本使用
摘要: 一、selenium模块和爬虫之间具有怎样的关联 便捷的获取网站中动态加载的数据 便捷实现模拟登录 二、什么是selenium模块 基于浏览器自动化的一个模块 三、selenium使用流程 1、环境安装:pip install selenium -i https://mirrors.aliyun.c
阅读全文
posted @ 2020-05-26 17:28 南啾
阅读(332)
评论(0)
推荐(0)
高性能异步爬虫
摘要: 一、目的:在爬虫中使用异步实现高性能的数据爬取操作 二、异步爬虫的方式: 1、多线程、多进程(不建议) 好处:可以为相关阻塞的操作单独开启线程或者进程,阻塞操作就可以异步执行 弊端:无法无限制的开启多线程或者多进程 2、线程池、进程池(适当使用) 好处:我们可以降低系统对进程或者线程创建和销毁的一个
阅读全文
posted @ 2020-05-26 14:26 南啾
阅读(120)
评论(0)
推荐(0)
代理理论
摘要: 代理:破解封IP这种反爬机制 什么是代理: 即代理服务器 代理的作用: 突破自身IP访问的限制 可以隐藏自身真实IP 代理相关的网站: 快代理 西祠代理 www.goubanjia.com 代理的类型 http:应用于http协议对应的url中 https:应用到https协议对应的url中 代理i
阅读全文
posted @ 2020-05-26 10:53 南啾
阅读(241)
评论(0)
推荐(0)
2020年5月22日
xpath解析:最常用且最便捷高效的一种解析方式
摘要: 一、xpath解析原理: 实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中 调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获 二、环境的安装: pip install lxml 三、如何实例化一个etree对象 from lxml.html
阅读全文
posted @ 2020-05-22 14:33 南啾
阅读(585)
评论(0)
推荐(0)
bs4使用与实战
摘要: bs4数据解析的原理 实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中 通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取 环境安装: pip install bs4 pip install lxml 如何实例化BeautifulSoup对象
阅读全文
posted @ 2020-05-22 12:59 南啾
阅读(254)
评论(0)
推荐(0)
正则解析
摘要: import requests import re import os if __name__ == '__main__': # 创建一个文件夹,用来保存所有的图片 if not os.path.exists('./qiutuLibs'): os.mkdir('./qiutuLibs') url =
阅读全文
posted @ 2020-05-22 12:56 南啾
阅读(162)
评论(0)
推荐(0)
数据解析分类、原理
摘要: 数据解析分类 正则 bs4 xpath(重点) 数据解析原理概述: 解析的局部的文本内容都会在标签或者标签对应的属性中进行存储 进行指定标签的定位 对标签或者标签对应的属性中存储的数据进行提取(解析)
阅读全文
posted @ 2020-05-22 12:54 南啾
阅读(209)
评论(0)
推荐(0)
上一页
1
···
4
5
6
7
8
9
10
11
12
···
19
下一页
公告