python爬虫beautifulsoup4系列2

前言

本篇详细介绍beautifulsoup4的功能，从最基础的开始讲起，让小伙伴们都能入门

一、读取HTML页面

1.先写一个简单的html页面，把以下内容copy出来，保存为html格式文件

3.用python的open函数读取这个html,如下图能正确打印出来，说明读取成功了

二、解析器：html.parser

1.用BeautifulSoup的构造方法,就能得到一个文档的对象, 可以传入一段字符串或一个文件句柄

2.如果我们调用BeautifulSoup这个类的时候，不带"html.parser"参数，这时候会有个waring的，下图红色框框区域给出了建议。

3.html.parser这个是python库里面自带的解析器，无需安装。

4.prettify()这个方法是把文件解析成html格式，用html的标准格式输出（有缩进的）

三、对象的种类

1.Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:

Tag : 标签对象，如：yoyoketang，这就是一个标签

NavigableString ：字符对象，如：这里是我的微信公众号：yoyoketa

BeautifulSoup ：就是整个html对象

Comment ：注释对象，如：!-- for HTML5 --，它其实就是一个特殊NavigableString

2.弄清楚了这四个对象，后面所有的操作但是基于这四个（其实最后面一个comment可以忽略，几乎用不到）

四、Tag对象

1.html里面识别一个tag，其实一般像这种：

yoyoketang

yoyoketang

<head><title>yoyo ketang</title></head>

以上这些都是tag,很明显都是以<xx 开头</xx> 结尾这种，就是一个完整的tag

2.通过标签的名称，来获取tag对象

3.如果有多个相同的标签名称，返回的是第一个

posted @ 2018-12-06 20:41 韦大仙阅读(203) 评论(0) 收藏举报

刷新页面返回顶部

python爬虫beautifulsoup4系列2

公告