随笔分类 -  网络爬虫

摘要:11.xpath实战、selenium模块 xpath爬取城市数据 地址:https://www.aqistudy.cn/historydata/ 需求:爬取热门城市及其他城市 思路: 1.研究数据加载规律发送请求 经过研究后发现是直接加载数据的,可以直接向网页发出get请求。 2.针对所需数据研究 阅读全文
posted @ 2021-09-29 03:42 veryjoe 阅读(137) 评论(0) 推荐(0)
摘要:10.解析库之Xpath解析器 今天将要学习的是另一款相当常用的解析器——Xpath。 前言 Xpath是一门在XML文档中查找信息的语言,可用来在XML文档中对元素和属性进行遍历。 Xpath的效率很高,使用广泛(也是数据分析师们必备的功能模块)。该选择器可以做到一句话完成多步操作。 欲使用Xpa 阅读全文
posted @ 2021-09-28 04:31 veryjoe
摘要:06.beautiful Soup4模块 解析库beautiful Soup beautiful Soup是一款可以从HTML或XML文件中提取数据的python库,简称BS。它能够通过你喜欢的转换器实现管用的文档导航、查找、寻该文档的方式,BS会帮你节省数小时甚至数天的工作时间。 简单来说:BS可 阅读全文
posted @ 2021-09-22 03:53 veryjoe 阅读(101) 评论(0) 推荐(0)
摘要:爬取数据实战 浏览器功能介绍 Elements 查看页面被浏览器渲染之后的html代码 Console 相当于一个JavaScript编写环境 Sources 以文件目录的形式存放各种资源 Network 监控网络请求 φ 清空记录 Hide data URLs旁边一串 筛选服务器请求。 Fetch 阅读全文
posted @ 2021-09-18 03:04 veryjoe
摘要:04.模拟用户登录、request其他方法补充 今天开始就要进入激动人心的部分了。 cookie与session 时间轴先移到互联网发展的早期,蛮荒时代的网站就是一张打印在屏幕上的报纸。登录这些网站的使用者不需要注册账户,所有人访问到的网页都呈现的是相同的数据。浏览完网页里的文章,最多再加点图片,就 阅读全文
posted @ 2021-09-17 02:51 veryjoe 阅读(176) 评论(0) 推荐(0)
摘要:day03.re模块补充、网络爬虫入门 re模块补充 之前只是管中窥豹,大致写了re模块的基础语法,今天来详细地讲解re模块如何使用。 1.精确查找 首先讲解精确查找的表达式,这其实昨天就已经出现过了,今天更详细地了解一下。 语法结构: findall(正则,文本数据) 精确查找在匹配时是全局匹配, 阅读全文
posted @ 2021-09-16 03:30 veryjoe 阅读(111) 评论(0) 推荐(0)
摘要:02.body标签补充、正则表达式 首先再来补充一些HTML标签相关的知识。 body标签补充 特殊符号 在HTML中,特殊不好并不能直接按下对应的按键就能书写出来,而是需要通过各自的代码才能实现。 > 大于号 < 小于号   空格 & &符号 ¥ ¥符号 re 阅读全文
posted @ 2021-09-15 01:22 veryjoe 阅读(115) 评论(0) 推荐(0)
摘要:01.网络爬虫概览 今天开始学习新知识——网络爬虫。 获取数据的途径 首先分享一些常用的数据收集网站。 1.免费类 百度指数 https://index.baidu.com/v2/index.html#/ 新浪指数 https://data.weibo.com/ 中国政府网 http://www.g 阅读全文
posted @ 2021-09-14 19:25 veryjoe 阅读(208) 评论(0) 推荐(0)
摘要:python基础 02>>>变量和基本数据类型 03>>>基本运算符 04>>>流程控制 05>>>数据类型内置方法 06>>>字符编码与文件操作 07>>>函数 08>>>列表生成式、三元表达式、模块的使用 09>>>内置模块 10>>>面向对象和异常捕获 MySQL基础 01>>>MySQL初探 阅读全文
posted @ 2021-08-30 09:51 veryjoe 阅读(99) 评论(0) 推荐(0)