随笔分类 - 网络爬虫
摘要:11.xpath实战、selenium模块 xpath爬取城市数据 地址:https://www.aqistudy.cn/historydata/ 需求:爬取热门城市及其他城市 思路: 1.研究数据加载规律发送请求 经过研究后发现是直接加载数据的,可以直接向网页发出get请求。 2.针对所需数据研究
阅读全文
摘要:10.解析库之Xpath解析器 今天将要学习的是另一款相当常用的解析器——Xpath。 前言 Xpath是一门在XML文档中查找信息的语言,可用来在XML文档中对元素和属性进行遍历。 Xpath的效率很高,使用广泛(也是数据分析师们必备的功能模块)。该选择器可以做到一句话完成多步操作。 欲使用Xpa
阅读全文
posted @ 2021-09-28 04:31
veryjoe
摘要:06.beautiful Soup4模块 解析库beautiful Soup beautiful Soup是一款可以从HTML或XML文件中提取数据的python库,简称BS。它能够通过你喜欢的转换器实现管用的文档导航、查找、寻该文档的方式,BS会帮你节省数小时甚至数天的工作时间。 简单来说:BS可
阅读全文
摘要:爬取数据实战 浏览器功能介绍 Elements 查看页面被浏览器渲染之后的html代码 Console 相当于一个JavaScript编写环境 Sources 以文件目录的形式存放各种资源 Network 监控网络请求 φ 清空记录 Hide data URLs旁边一串 筛选服务器请求。 Fetch
阅读全文
posted @ 2021-09-18 03:04
veryjoe
摘要:04.模拟用户登录、request其他方法补充 今天开始就要进入激动人心的部分了。 cookie与session 时间轴先移到互联网发展的早期,蛮荒时代的网站就是一张打印在屏幕上的报纸。登录这些网站的使用者不需要注册账户,所有人访问到的网页都呈现的是相同的数据。浏览完网页里的文章,最多再加点图片,就
阅读全文
摘要:day03.re模块补充、网络爬虫入门 re模块补充 之前只是管中窥豹,大致写了re模块的基础语法,今天来详细地讲解re模块如何使用。 1.精确查找 首先讲解精确查找的表达式,这其实昨天就已经出现过了,今天更详细地了解一下。 语法结构: findall(正则,文本数据) 精确查找在匹配时是全局匹配,
阅读全文
摘要:02.body标签补充、正则表达式 首先再来补充一些HTML标签相关的知识。 body标签补充 特殊符号 在HTML中,特殊不好并不能直接按下对应的按键就能书写出来,而是需要通过各自的代码才能实现。 > 大于号 < 小于号 空格 & &符号 ¥ ¥符号 re
阅读全文
摘要:01.网络爬虫概览 今天开始学习新知识——网络爬虫。 获取数据的途径 首先分享一些常用的数据收集网站。 1.免费类 百度指数 https://index.baidu.com/v2/index.html#/ 新浪指数 https://data.weibo.com/ 中国政府网 http://www.g
阅读全文
摘要:python基础 02>>>变量和基本数据类型 03>>>基本运算符 04>>>流程控制 05>>>数据类型内置方法 06>>>字符编码与文件操作 07>>>函数 08>>>列表生成式、三元表达式、模块的使用 09>>>内置模块 10>>>面向对象和异常捕获 MySQL基础 01>>>MySQL初探
阅读全文

浙公网安备 33010602011771号