摘要: 数据存储 一、MySQL 1.1 pymysql 建立数据库连接db = pymysql.connect(...) 参数host:连接的mysql主机,如果本机是'127.0.0.1' 参数port:连接的mysql主机的端口,默认是3306 参数database:数据库的名称 参数user:连接的 阅读全文
posted @ 2023-04-05 00:46 LePenseur 阅读(37) 评论(0) 推荐(0) 编辑
摘要: 二、BeautifulSoup4 和lxml一样,BeautifulSoup4也是一个HTML/XML的解析器,主要的功能是解析和提取HTML/XML数据。 安装:pip install bs4 由于BS4解析页面时需要依赖文档解析器,所以还需要安装lxml作为解析库 解析原理 - 数据解析的原理: 阅读全文
posted @ 2023-04-05 00:45 LePenseur 阅读(13) 评论(0) 推荐(0) 编辑
摘要: 数据提取 lxml和xpath lxml是Python的第三方解析库,完全使用Python语言编写,它对Xpath表达式提供了良好的支持,能够了高效地解析HTML/XML文档。 XPath即为XML路径语言,它是一种用来确定XML文档中某部分位置的语言,同样适用于HTML文档的检索。 安装:pip 阅读全文
posted @ 2023-04-05 00:44 LePenseur 阅读(13) 评论(0) 推荐(0) 编辑
摘要: get请求 # 请求参数用params params={ 'type': '24', 'interval_id': '100:90', 'action':'', 'start': '1', 'limit': '20' } response = requests.get(url=url,params= 阅读全文
posted @ 2023-04-05 00:43 LePenseur 阅读(25) 评论(0) 推荐(0) 编辑
摘要: requests的使用 一、requests模块 1.1 request模块的安装 在CMD命令行中执行如下命令进行在线安装 pip install requests 由于网络的不稳定性有时会导致下载失败,在下载的时候我们可以加上第三方源进行下载 清华:https://pypi.tuna.tsing 阅读全文
posted @ 2023-04-05 00:43 LePenseur 阅读(18) 评论(0) 推荐(0) 编辑
摘要: 初识爬虫 一、爬虫介绍 爬虫主要的功能就是抓取网络数据的程序。本质就是用程序模拟人使用浏览器访问网站,并将所需要的数据抓取下来。 爬虫可分为两大类:通用网络爬虫、聚焦网络爬虫 通用网络爬虫:是搜索引擎的重要组成部分,百度搜索引擎,其实可以更形象地称之为百度蜘蛛(Baiduspider),它每天会在海 阅读全文
posted @ 2023-04-05 00:41 LePenseur 阅读(50) 评论(0) 推荐(0) 编辑
摘要: 数据库 含义:存储和管理数据的仓库,用户可以进行增删改查等操作 本质:一款基于网络通信的应用程序 分类: 关系型数据库:数据之间彼此有关系或约束,通常以表格形式存储,存储类型的限制 eg:mysql,Oracle,db2,sql server 非关系型数据库:数据通常以key—value方式存储 e 阅读全文
posted @ 2022-12-09 20:13 LePenseur 阅读(95) 评论(0) 推荐(0) 编辑
摘要: 数据库常识 1.登录数据库:mysql -h 127.0.0.1 -P 3306 -uroot -p 简写为 mysql -uroot -p 说明: -h 后面是主机名(ip) -P 后面是端口号 -u 后面是登录的用户名 -p 后面是登录密码,如果不填写,回车之后,会提示输入密码 2.输入错误内容 阅读全文
posted @ 2022-12-09 20:10 LePenseur 阅读(1) 评论(0) 推荐(0) 编辑