随笔分类 - BeautifulSoup
BeautifulSoup入门笔记
摘要:css选择器: 我们在写 CSS 时,标签名不加任何修饰,类名前加点,id名前加 #,在这里我们也可以利用类似的方法来筛选元素,用到的方法是 soup.select(),返回类型是 list 1)通过标签名查找 print soup.select('title') #[<title>The Dorm
阅读全文
摘要:探索文档树: find_all(name,attrs,recursive,text,**kwargs) 方法搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件 1、name参数,可以查找所有名字为name的tag,字符串对象会被自动忽略掉。 1) 传字符串 最简单的过滤器是字符串.在搜索方
阅读全文
摘要:遍历文档树: 1、查找子节点 .contents tag的.content属性可以将tag的子节点以列表的方式输出。 print soup.body.contents print type(soup.body.contents) 运行结果: [u'\n', <p class="title" name
阅读全文
摘要:BeautifulSoup官方介绍文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html 四大对象种类: BeautifulSoup 将复杂的html文件转换成一个复杂的树形结松,每个节点都是python对象。 所
阅读全文
摘要:Beautiful Soup的简介 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。 官方解释如下: Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据
阅读全文
浙公网安备 33010602011771号