爬虫 - 随笔分类 - 高登汗

小米商品和腾讯招聘多线程爬取

摘要：应用场景 1、多进程：CPU密集程序2、多线程：爬虫(网络I/O)、本地磁盘I/O 知识点回顾队列 # 导入模块 from queue import Queue # 使用 q = Queue() q.put(url) q.get() # 当队列为空时，阻塞 q.empty() # 判断队列是否阅读全文

posted @ 2020-12-24 20:07 高登汗阅读(97) 评论(0) 推荐(0)

爬取英雄联盟所有英雄皮肤

摘要：这里有两种类型的同样的图片，一种是大图片的，一种是类似头像的小图片。我们这里抓取大图片拿到几种图片链接分析https://game.gtimg.cn/images/lol/act/img/skin/big5000.jpg可以发现所有英雄皮肤链接url除了数字之前的都一样，而且后面的数字都是以英雄i 阅读全文

posted @ 2020-12-24 20:02 高登汗阅读(282) 评论(0) 推荐(0)

scrapy框架

摘要：什么是scrapy框架： scrapy是一个基于Twisted异步框架的爬虫框架,scrapy具有异步性，效率高。 scrapy是用于爬取结构化数据适合构建大型爬虫应用。 scrapy安装配置 lxml, wheel, Twisted, pywin32, scrapy 项目的常见与运行创建： 1 阅读全文

posted @ 2020-09-16 15:58 高登汗阅读(199) 评论(0) 推荐(0)

mongo.db 安装及相关操作

摘要：1.mongodb安装步骤 2.mongodb数据 MySQL: 关系型数据库 Redis: 非关系型数据库 MongoDB: 非关系型数据库, NoSQL(Not only SQL) 3.主线来啦: 增删改查 // 1.查看数据库 show dbs // 2.创建并使用数据库 use tst // 阅读全文

posted @ 2020-09-14 14:45 高登汗阅读(125) 评论(0) 推荐(0)

requests高阶 & BS4

摘要：1.requests高阶用法 1.requests上传文件操作 2.会话维持: Session对象(重点) 3.设置超时时间: timeout, 请求5秒内没有返回响应, 则抛出异常 4.Prepare Request: 构建request对象, 可以放入队列中实现爬取队列调度 1.requests 阅读全文

posted @ 2020-09-09 14:45 高登汗阅读(186) 评论(0) 推荐(0)

requests模块 & xpath解析库

摘要：1.requests模块介绍 # requests模块介绍对比:urllib使用麻烦安装: pip install requests # 初体验: 爬取搜狗首页 2.requests发送请求 1.requests的get请求: # requests的简单get请求 # requests.ge 阅读全文

posted @ 2020-09-09 11:43 高登汗阅读(912) 评论(0) 推荐(0)

数据解析之正则与BS4

摘要：1.数据解析 1.数据解析就是应用一定的技术手段在响应数据中获取目标数据 2.常用数据解析方式: 正则: 匹配高效, 但正则表达式书写有难度 BS4: 解析数据速度慢, 但使用简单 xpath: 解析速度快, 使用简单 3.环境配置: (1).正则: pip install re (2).BS4: 阅读全文

posted @ 2020-09-09 11:35 高登汗阅读(543) 评论(0) 推荐(0)

requests高级部分 urllib简单介绍

摘要：1. requests高级用法 1.1 文件上传功能 import requests # 定义上传文件数据, 键为file, 值为文件句柄 f=open('filepath','rb') files = { 'file':f } r = requests.post(url=url,headers 阅读全文

posted @ 2020-09-09 11:30 高登汗阅读(252) 评论(0) 推荐(0)

get请求 / post请求

摘要：1.get请求: 不携带参数的get请求不携带参数的get请求 + headers 携带参数的get请求 + headers 2.post请求: 构建参数的post请求 3.响应数据的获取与属性 (1).响应数据的获取: res.text: 文本数据 res.json(): json数据 res. 阅读全文

posted @ 2020-09-09 11:23 高登汗阅读(330) 评论(0) 推荐(0)

xpath 操作

摘要：导包 import requests from lxml import etree headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) 阅读全文

posted @ 2020-09-07 14:25 高登汗阅读(292) 评论(0) 推荐(0)

requests模块发送post请求

摘要：百度翻译案例： # 导包 import requests def transfer(kw): # 确定url, 发起请求, 获取响应 url = 'https://fanyi.baidu.com/sug' headers = { 'User-Agent': 'Mozilla/5.0 (Windows 阅读全文

posted @ 2020-08-04 16:36 高登汗阅读(136) 评论(0) 推荐(0)

聚焦爬虫的设计思路

摘要：聚焦爬虫的设计思路: 1.确定url, 发起请求, 获取到响应 2.数据解析 3.数据持久化 requests模块发送get请求 # 导包 import requests url = 'https://www.baidu.com' # res就是我们拿到的响应数据 res = requests.ge 阅读全文

posted @ 2020-08-04 15:21 高登汗阅读(426) 评论(0) 推荐(0)

爬虫面试题

摘要：1. http 基于 tcp/ip 协议 2. 百度是通用性爬虫 3. http 返回的状态码代表成功的是 200 4. 网页编码使用的函数式 encode() 5. 解码使用的函数式是 decode() 6. 爬虫又叫网页蜘蛛、网络机器人 7. 什么是爬虫并解释其概念？ (1) 爬虫又叫网页蜘蛛阅读全文

posted @ 2020-07-22 22:56 高登汗阅读(1675) 评论(0) 推荐(1)

响应数据的几种形式

摘要：1.res.text > 将响应对象转化为str类型 >如果你的响应数据是HTML，可以使用text转化为str import re import requests import pymysql # 确定url，向服务器发起请求 url = 'https://www.guidaye.com/' #抓阅读全文

posted @ 2020-07-10 19:01 高登汗阅读(1433) 评论(0) 推荐(1)

请求过程与网页基础

摘要：1. 请求过程与网页基础(⭐⭐⭐) 1.1 URL介绍 - URL请求的网址，即统一资源定位符，它可以唯一确定我们想要请求的资源，其结构如下： https://www.baidu.com/s?wd=%E6%96%87%E6%A3%AEXE7%89%B9&rsv-spt=1协议域名查询的参数 ht 阅读全文

posted @ 2020-07-04 18:20 高登汗阅读(274) 评论(0) 推荐(1)

了解爬虫

摘要：1.爬虫概念： 1.爬虫概念（⭐⭐⭐⭐⭐）爬虫，又称网页蜘蛛或网路机器人。爬虫是模拟人操作客户端（浏览器，APP）向服务器发起网路请求抓取数据自动化的程序脚本。（⭐⭐⭐⭐⭐⭐）说明： 1.模拟：用爬虫程序伪装出人的行为，避免被服务器识别为爬虫程序。 2.客户端：浏览器，App都可以实现人与服阅读全文

posted @ 2020-07-01 21:10 高登汗阅读(384) 评论(0) 推荐(0)

高登汗

随笔分类 - 爬虫

公告