随笔分类 - 快乐爬虫
常用爬虫知识和实例介绍
摘要:requests 模块简介 简介: 爬虫中的一个基于网络请求的模块 安装: 作用: 模拟浏览器发起请求 编码流程: 1.指定url 2.发起请求 3.获取响应数据(爬取到的页面源码数据) 4.持久化存储 requests模块的使用 第一个反爬机制 robots 协议: 是一个纯文本协议, 协议中规定
阅读全文
摘要:什么是爬虫? 就是通过编写程序,让其模拟浏览器上网,然后在互联网中抓取数据的过程 关键字: 模拟: 浏览器本身就是一个纯天然的原始爬虫工具 抓取: 抓取一整张的页面源码数据 抓取一整张页面中的局部数据 爬虫的分类: 通用爬虫: 要求我们爬取一整张页面的源码数据 聚焦爬虫: 要求我们抓取一整张页面中的
阅读全文
摘要:正则表达式及其应用 正则表达式 是对字符串(包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。 正则表达式 是一种文本模式,该模
阅读全文

浙公网安备 33010602011771号