随笔分类 -  爬虫

摘要:应用场景 1、多进程 :CPU密集程序2、多线程 :爬虫(网络I/O)、本地磁盘I/O 知识点回顾 队列 # 导入模块 from queue import Queue # 使用 q = Queue() q.put(url) q.get() # 当队列为空时,阻塞 q.empty() # 判断队列是否 阅读全文
posted @ 2020-12-24 20:07 高登汗 阅读(97) 评论(0) 推荐(0)
摘要:这里有两种类型的同样的图片,一种是大图片的,一种是类似头像的小图片。我们这里抓取大图片 拿到几种图片链接分析https://game.gtimg.cn/images/lol/act/img/skin/big5000.jpg可以发现所有英雄皮肤链接url除了数字之前的都一样,而且后面的数字都是以英雄i 阅读全文
posted @ 2020-12-24 20:02 高登汗 阅读(281) 评论(0) 推荐(0)
摘要:什么是scrapy框架: scrapy是一个基于Twisted异步框架的爬虫框架,scrapy具有异步性,效率高。 scrapy是用于爬取结构化数据 适合构建大型爬虫应用。 scrapy安装配置 lxml, wheel, Twisted, pywin32, scrapy 项目的常见与运行 创建: 1 阅读全文
posted @ 2020-09-16 15:58 高登汗 阅读(199) 评论(0) 推荐(0)
摘要:1.mongodb安装步骤 2.mongodb数据 MySQL: 关系型数据库 Redis: 非关系型数据库 MongoDB: 非关系型数据库, NoSQL(Not only SQL) 3.主线来啦: 增删改查 // 1.查看数据库 show dbs // 2.创建并使用数据库 use tst // 阅读全文
posted @ 2020-09-14 14:45 高登汗 阅读(125) 评论(0) 推荐(0)
摘要:1.requests高阶用法 1.requests上传文件操作 2.会话维持: Session对象(重点) 3.设置超时时间: timeout, 请求5秒内没有返回响应, 则抛出异常 4.Prepare Request: 构建request对象, 可以放入队列中实现爬取队列调度 1.requests 阅读全文
posted @ 2020-09-09 14:45 高登汗 阅读(186) 评论(0) 推荐(0)
摘要:1.requests模块介绍 # requests模块介绍 对比:urllib使用麻烦 安装: pip install requests ​ # 初体验: 爬取搜狗首页 2.requests发送请求 1.requests的get请求: # requests的简单get请求 # requests.ge 阅读全文
posted @ 2020-09-09 11:43 高登汗 阅读(912) 评论(0) 推荐(0)
摘要:1.数据解析 1.数据解析就是应用一定的技术手段在响应数据中获取目标数据 2.常用数据解析方式: 正则: 匹配高效, 但正则表达式书写有难度 BS4: 解析数据速度慢, 但使用简单 xpath: 解析速度快, 使用简单 3.环境配置: (1).正则: pip install re (2).BS4: 阅读全文
posted @ 2020-09-09 11:35 高登汗 阅读(542) 评论(0) 推荐(0)
摘要:1. requests高级用法 1.1 文件上传功能 import requests ​ # 定义上传文件数据, 键为file, 值为文件句柄 f=open('filepath','rb') files = { 'file':f } r = requests.post(url=url,headers 阅读全文
posted @ 2020-09-09 11:30 高登汗 阅读(252) 评论(0) 推荐(0)
摘要:1.get请求: 不携带参数的get请求 不携带参数的get请求 + headers 携带参数的get请求 + headers 2.post请求: 构建参数的post请求 3.响应数据的获取与属性 (1).响应数据的获取: res.text: 文本数据 res.json(): json数据 res. 阅读全文
posted @ 2020-09-09 11:23 高登汗 阅读(330) 评论(0) 推荐(0)
摘要:导包 import requests from lxml import etree headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) 阅读全文
posted @ 2020-09-07 14:25 高登汗 阅读(292) 评论(0) 推荐(0)
摘要:百度翻译案例: # 导包 import requests def transfer(kw): # 确定url, 发起请求, 获取响应 url = 'https://fanyi.baidu.com/sug' headers = { 'User-Agent': 'Mozilla/5.0 (Windows 阅读全文
posted @ 2020-08-04 16:36 高登汗 阅读(136) 评论(0) 推荐(0)
摘要:聚焦爬虫的设计思路: 1.确定url, 发起请求, 获取到响应 2.数据解析 3.数据持久化 requests模块发送get请求 # 导包 import requests url = 'https://www.baidu.com' # res就是我们拿到的响应数据 res = requests.ge 阅读全文
posted @ 2020-08-04 15:21 高登汗 阅读(426) 评论(0) 推荐(0)
摘要:1. http 基于 tcp/ip 协议 2. 百度是通用性爬虫 3. http 返回的状态码代表成功的是 200 4. 网页编码使用的函数式 encode() 5. 解码使用的函数式是 decode() 6. 爬虫又叫 网页蜘蛛、网络机器人 7. 什么是爬虫并解释其概念? (1) 爬虫又叫网页蜘蛛 阅读全文
posted @ 2020-07-22 22:56 高登汗 阅读(1675) 评论(0) 推荐(1)
摘要:1.res.text > 将响应对象转化为str类型 >如果你的响应数据是HTML,可以使用text转化为str import re import requests import pymysql # 确定url,向服务器发起请求 url = 'https://www.guidaye.com/' #抓 阅读全文
posted @ 2020-07-10 19:01 高登汗 阅读(1433) 评论(0) 推荐(1)
摘要:1. 请求过程与网页基础(⭐⭐⭐) 1.1 URL介绍 - URL请求的网址,即统一资源定位符,它可以唯一确定我们想要请求的资源,其结构如下: https://www.baidu.com/s?wd=%E6%96%87%E6%A3%AEXE7%89%B9&rsv-spt=1协议 域名 查询的参数 ht 阅读全文
posted @ 2020-07-04 18:20 高登汗 阅读(273) 评论(0) 推荐(1)
摘要:1.爬虫概念: 1.爬虫概念(⭐⭐⭐⭐⭐) 爬虫,又称网页蜘蛛或网路机器人。 爬虫是模拟人操作客户端(浏览器,APP)向服务器发起网路请求 抓取数据自动化的程序脚本。(⭐⭐⭐⭐⭐⭐) 说明: 1.模拟:用爬虫程序伪装出人的行为,避免被服务器识别为爬虫程序。 2.客户端:浏览器,App都可以实现人与服 阅读全文
posted @ 2020-07-01 21:10 高登汗 阅读(384) 评论(0) 推荐(0)