南啾 - 博客园

2020年5月29日

摘要：基于终端指令：要求：只可以将parse方法的返回值存储到本地的文本文件中注意：持久批存储对应的文本文件类型只可以为：('csv', 'pickle', 'json', 'xml', 'jl', 'jsonlines', 'marshal') 指令：scrapy crawl xxx -o file 阅读全文

posted @ 2020-05-29 11:18 南啾阅读(133) 评论(0) 推荐(0)

2020年5月27日

scrapy框架

摘要：什么是scrapy 爬虫中封装好的一个明星框架功能：高性能的持久化存储，异步的数据下载，高性能的数据解析，分布式 scrapy框架的基本使用环境的安装： mac or linux :pip insatall scrapy window: - pip install wheel - 下载twist 阅读全文

posted @ 2020-05-27 13:24 南啾阅读(169) 评论(0) 推荐(0)

selenium处理iframe

摘要：如果定位的标签存在于iframe标签中，则必须使用switch_to.frame(id) 导入动作链（拖动）：from selenium.webdriver import ActionChains 实例化一个动作链对象：action = ActionChains(bro) click_and_hol 阅读全文

posted @ 2020-05-27 10:03 南啾阅读(305) 评论(0) 推荐(0)

2020年5月26日

seleniium模块的基本使用

摘要：一、selenium模块和爬虫之间具有怎样的关联便捷的获取网站中动态加载的数据便捷实现模拟登录二、什么是selenium模块基于浏览器自动化的一个模块三、selenium使用流程 1、环境安装：pip install selenium -i https://mirrors.aliyun.c 阅读全文

posted @ 2020-05-26 17:28 南啾阅读(334) 评论(0) 推荐(0)

高性能异步爬虫

摘要：一、目的：在爬虫中使用异步实现高性能的数据爬取操作二、异步爬虫的方式： 1、多线程、多进程（不建议）好处：可以为相关阻塞的操作单独开启线程或者进程，阻塞操作就可以异步执行弊端：无法无限制的开启多线程或者多进程 2、线程池、进程池（适当使用）好处：我们可以降低系统对进程或者线程创建和销毁的一个阅读全文

posted @ 2020-05-26 14:26 南啾阅读(122) 评论(0) 推荐(0)

代理理论

摘要：代理：破解封IP这种反爬机制什么是代理：即代理服务器代理的作用：突破自身IP访问的限制可以隐藏自身真实IP 代理相关的网站：快代理西祠代理 www.goubanjia.com 代理的类型 http:应用于http协议对应的url中 https:应用到https协议对应的url中代理i 阅读全文

posted @ 2020-05-26 10:53 南啾阅读(243) 评论(0) 推荐(0)

2020年5月22日

xpath解析：最常用且最便捷高效的一种解析方式

摘要：一、xpath解析原理：实例化一个etree的对象，且需要将被解析的页面源码数据加载到该对象中调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获二、环境的安装： pip install lxml 三、如何实例化一个etree对象 from lxml.html 阅读全文

posted @ 2020-05-22 14:33 南啾阅读(587) 评论(0) 推荐(0)

bs4使用与实战

摘要： bs4数据解析的原理实例化一个BeautifulSoup对象，并且将页面源码数据加载到该对象中通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取环境安装： pip install bs4 pip install lxml 如何实例化BeautifulSoup对象阅读全文

posted @ 2020-05-22 12:59 南啾阅读(257) 评论(0) 推荐(0)

正则解析

摘要： import requests import re import os if __name__ == '__main__': # 创建一个文件夹，用来保存所有的图片 if not os.path.exists('./qiutuLibs'): os.mkdir('./qiutuLibs') url = 阅读全文

posted @ 2020-05-22 12:56 南啾阅读(164) 评论(0) 推荐(0)

数据解析分类、原理

摘要：数据解析分类正则 bs4 xpath（重点）数据解析原理概述：解析的局部的文本内容都会在标签或者标签对应的属性中进行存储进行指定标签的定位对标签或者标签对应的属性中存储的数据进行提取（解析）阅读全文

posted @ 2020-05-22 12:54 南啾阅读(210) 评论(0) 推荐(0)

南啾

公告