随笔档案「2022年3月19日」：数据解析之xpath ... - Tony_xiao

2022年3月19日

摘要：环境安装、导入模块 pip install lxml from lxml import etree etree.HTML(page_text) #HTML()专门用来解析网络请求到的页面源码数据数据解析 a：调用etree对象的xpath方法结合不同形式的xpath表达式进行标签定位和数据提取 b 阅读全文

posted @ 2022-03-19 23:09 Tony_xiao 阅读(125) 评论(0) 推荐(0)

数据解析之bs4

摘要：环境安装，导入模块 pip install bs4 pip install lxml #需要用到lxml解析 from bs4 import Beautifulsoup 实例化一个BeautifulSoup的对象，然后把即将被解析的页面源码数据加载到该对象中本地文件：BeautifulSoup(f 阅读全文

posted @ 2022-03-19 22:59 Tony_xiao 阅读(100) 评论(0) 推荐(0)

requests基础综合实战

摘要：需求：爬取药监总局网址前5页的企业名称、许可证编号、法人分析： 1、我们需要的数据，在企业详情页面，都是可以获取到。先进入到任意一家企业的详情页中，查看企业的详情数据是否为动态加载数据？基于抓包工具进行局部搜索(network中路径有浏览器地址栏中的一致的数据包中进行局部搜索) 搜索的到：不是阅读全文

posted @ 2022-03-19 22:25 Tony_xiao 阅读(49) 评论(0) 推荐(0)

requests基础操作

摘要： 1、基本介绍 requests就是爬虫中一个基于网络请求的模块。作用：模拟浏览器上网的。 2、环境安装：pip install requests 3、编码流程指定URL(相当于打开浏览器输入网址) 发起请求(相当于按下回车) 获取响应数据(从指定url中爬取到数据) 持久化存储 4、例如我们做一阅读全文

posted @ 2022-03-19 21:11 Tony_xiao 阅读(226) 评论(0) 推荐(0)

爬虫简介

摘要： 1、什么是爬虫？ -就是编写程序，模拟浏览器上网，让其去互联网中抓取数据的过程模拟：浏览器本身就是一个纯天然的爬虫工具，爬虫相关的模块都是基于浏览器为基础开发出来的。注意：日后只要是你的爬虫程序没有爬取到你想要的数据，只有一个原因：就是你的爬虫程序模拟的力度不够！抓取：抓取网页数据分两种阅读全文

posted @ 2022-03-19 20:20 Tony_xiao 阅读(208) 评论(0) 推荐(0)

Tony_xiao

公告