随笔分类 -  快乐爬虫

常用爬虫知识和实例介绍
摘要:requests 模块简介 简介: 爬虫中的一个基于网络请求的模块 安装: 作用: 模拟浏览器发起请求 编码流程: 1.指定url 2.发起请求 3.获取响应数据(爬取到的页面源码数据) 4.持久化存储 requests模块的使用 第一个反爬机制 robots 协议: 是一个纯文本协议, 协议中规定 阅读全文
posted @ 2020-05-25 20:16 sinlearn 阅读(745) 评论(0) 推荐(0)
摘要:什么是爬虫? 就是通过编写程序,让其模拟浏览器上网,然后在互联网中抓取数据的过程 关键字: 模拟: 浏览器本身就是一个纯天然的原始爬虫工具 抓取: 抓取一整张的页面源码数据 抓取一整张页面中的局部数据 爬虫的分类: 通用爬虫: 要求我们爬取一整张页面的源码数据 聚焦爬虫: 要求我们抓取一整张页面中的 阅读全文
posted @ 2020-05-25 20:14 sinlearn 阅读(190) 评论(0) 推荐(0)
摘要:正则表达式及其应用 正则表达式 是对字符串(包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。 正则表达式 是一种文本模式,该模 阅读全文
posted @ 2020-05-14 23:48 sinlearn 阅读(348) 评论(0) 推荐(0)