随笔分类 -  Python 爬虫学习

边看边实践大江狗的爬虫教程
摘要:原文 BeautifulSoup是一个解析HTML或XML文件的第三方库。HTML或XML文件可以用DOM模型解释。一般包含三种节点: 元素节点 - 通常指HTML 或 XML的标签 文本节点 - 标签内部的文本内容 属性节点 - 每个标签的属性 BeautifulSoup库可以对HTML或XML文 阅读全文
posted @ 2019-12-11 19:51 AhMay 阅读(1249) 评论(0) 推荐(0)
摘要:原文 第三方库 requests是基于urllib编写的。比urllib库强大,非常适合爬虫的编写。 安装: pip install requests 简单的爬百度首页的例子: response.text 和 response.content的区别: response.text是解过码的字符串。比较 阅读全文
posted @ 2019-12-06 14:49 AhMay 阅读(2679) 评论(0) 推荐(0)
摘要:urllib.request chardet urllib.parse 阅读全文
posted @ 2019-12-04 17:07 AhMay 阅读(218) 评论(0) 推荐(0)