随笔分类 - python爬虫笔记
摘要:re库的使用 精确匹配 如果直接给出字符,就是精确匹配。用\d可以匹配一个数字,\w可以匹配一个字母或数字 匹配任意字符 匹配变长字符 | 符号 | 功能 | | | | | | 任意个字符,包括0个 | | + | 至少一个字符 | | ? | 0个或者1个字符 | | {n} | n个字符 |
阅读全文
摘要:基于bs4库的HTML查找方法 find_all方法 .find_all(name,attrs,recursive,string, kwargs) 返回一个列表类型,内部存储查找的结果 name 对标签名称的检索字符串 attrs 对标签属性值检索的字符串,可标注属性检索 recursive 是否针
阅读全文
摘要:信息标记的三种形式 HTML hyper text markup language超文本标记语言,其可以把声音、图像、视频等超文本信息嵌入到文本中 html通过标签形式来组织各种各样不同的信息 信息标记种类 XML eXtensible Markup Language 通过标签来构建信息 JSON
阅读全文
摘要:基于bs4库的HTML标签遍历方法 HTML基本格式 HTML可以看做一棵标签树 遍历方法 ! 下行遍历 | 属性 | 说明 | | | | | .contents | 将该标签所有的儿子节点存入列表 | | .children | 子节点的迭代类型,和contents类似,用于遍历儿子节点 | |
阅读全文
摘要:BeautifulSoup库 BeautifulSoup库是解析、遍历、维护、"标签树"的功能库 对标签的理解 导入beautifulsoup库 构造解析html的BeautifulSoup对象 BeautifulSoup库对应一个HTML/XML文档的全部内容 四种解析器 | 解析器 | 使用方法
阅读全文
摘要:Requests库 格式:requests.get(url,params=None, kwargs) url 抓取页面的url连接 params:url中的额外参数,字典或者字节流的格式 kwargs 12个访问控制参数 Response对象 | 属性 | 说明 | | : | : | | r.st
阅读全文

浙公网安备 33010602011771号