摘要:
数据存储 一、MySQL 1.1 pymysql 建立数据库连接db = pymysql.connect(...) 参数host:连接的mysql主机,如果本机是'127.0.0.1' 参数port:连接的mysql主机的端口,默认是3306 参数database:数据库的名称 参数user:连接的 阅读全文
摘要:
二、BeautifulSoup4 和lxml一样,BeautifulSoup4也是一个HTML/XML的解析器,主要的功能是解析和提取HTML/XML数据。 安装:pip install bs4 由于BS4解析页面时需要依赖文档解析器,所以还需要安装lxml作为解析库 解析原理 - 数据解析的原理: 阅读全文
摘要:
数据提取 lxml和xpath lxml是Python的第三方解析库,完全使用Python语言编写,它对Xpath表达式提供了良好的支持,能够了高效地解析HTML/XML文档。 XPath即为XML路径语言,它是一种用来确定XML文档中某部分位置的语言,同样适用于HTML文档的检索。 安装:pip 阅读全文
摘要:
get请求 # 请求参数用params params={ 'type': '24', 'interval_id': '100:90', 'action':'', 'start': '1', 'limit': '20' } response = requests.get(url=url,params= 阅读全文
摘要:
requests的使用 一、requests模块 1.1 request模块的安装 在CMD命令行中执行如下命令进行在线安装 pip install requests 由于网络的不稳定性有时会导致下载失败,在下载的时候我们可以加上第三方源进行下载 清华:https://pypi.tuna.tsing 阅读全文
摘要:
初识爬虫 一、爬虫介绍 爬虫主要的功能就是抓取网络数据的程序。本质就是用程序模拟人使用浏览器访问网站,并将所需要的数据抓取下来。 爬虫可分为两大类:通用网络爬虫、聚焦网络爬虫 通用网络爬虫:是搜索引擎的重要组成部分,百度搜索引擎,其实可以更形象地称之为百度蜘蛛(Baiduspider),它每天会在海 阅读全文