python爬虫与数据可视化——python爬虫：补充BeautifulSoup

网页解析，获取数据--爬完网页把里面的数据进行拆分
BeautifulSoup4将复杂html文档转换成一个复杂的树形结构，每个节点都是Python对象，所有对象可以归纳为4种：
- Tag
- NavigableString
- BeautifulSoup
- Comment

1.Tag 标签及其内容；拿到它所找到的第一个内容

2.NavigableString 标签里的内容（字符串）

3.BeautifulSoup 表示整个文档

4.Comment 是一个特殊的NavigableString,输出的内容不包含注释符号

5.文档的遍历

6.文档的搜索

（1）.find all()查找所有括号中的内容：字符串过滤，正则表达式搜索，根据函数要求搜索

（2）.kwargs：指定参数搜索

（3）.text参数

（4）.limit参数,得到限定数量的信息

（5）.css选择器：通过标签、类名、Id、属性、子标签、兄弟标签、以下标形式访问

posted @ 2020-11-15 09:51 猫耳朵白阅读(219) 评论(0) 收藏举报

刷新页面返回顶部