Python爬虫 - 随笔分类 - 扶-9

Python爬虫七 Re库

摘要：Re库正则表达式是用来简洁表达一组字符串的表达式通用的字符串表达框架语法由字符和操作符组成正则表达式的表示类型 + 原生字符串（raw string类型） + string类型原生字符串（不包含转义符'\'的字符串,原生转义字符串里的'\'不被解释为转义符）原生字符串和字符串的区别是只阅读全文

posted @ 2020-03-14 17:46 扶-9 阅读(99) 评论(0) 推荐(0)

Python爬虫六基于bs4库的html内容查找方法

摘要：find_all()函数 name: 对标签名称的检索 attrs: 对标签属性值的检索 recursive: (boolean型)是否对子孙全部检索，默认为True，改为false时表示只对儿子节点进行检索 string: 对...中字符串区域的检索简写：（因为其非常常用）查找标签查找特定开阅读全文

posted @ 2020-03-09 23:00 扶-9 阅读(204) 评论(0) 推荐(0)

Python爬虫五 BeautifulSoup库

摘要：安装 pip install beautifulsoup4 小测 1. 即使安装的是beautifulsoup4，但是使用时简写为bs4 2. 从bs4库导入一个BeautifulSoup类，注意B和S大写 3. html.parser为解析器，还有xml，lxml， html5lib等解析器 bs 阅读全文

posted @ 2020-03-09 22:04 扶-9 阅读(225) 评论(1) 推荐(0)

Python爬虫四 360关键字搜索

摘要：我们自己去360搜索Python发现url为：https://www.so.com/s?ie=utf 8&fr=none&src=360sou_newhome&q=Python requests.get(url, params=kv) params 用于追加参数到url中代码结果如果我们返回r 阅读全文

posted @ 2020-03-08 21:26 扶-9 阅读(681) 评论(0) 推荐(0)

Python爬虫三 Requests库爬取亚马逊报503错误

摘要：代码 import requests def getHTMLText(url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text[:1 阅读全文

posted @ 2020-03-08 20:48 扶-9 阅读(2655) 评论(0) 推荐(0)

Python爬虫二 Robots协议

摘要：网站限制爬虫的两个办法： + 审查来源 + robots告知 robots协议存放在网站根目录，并不是所有的网站都有robots协议的基本语法： User agent：爬虫来源，代表所有 Disallow：/ 不允许爬取的资源目录，/代表根目录爬虫怎么遵守robots协议？自动或人工识别r 阅读全文

posted @ 2020-03-08 20:27 扶-9 阅读(154) 评论(0) 推荐(0)

Python爬虫一 Requests库

摘要：安装 pip install requests requests库的get（）方法 Response对象包含爬虫返回的全部信息 Response对象包含了服务器返回的所有信息，也包含了request请求的信息如果r.status_code不是200，说明发生了某些错误！原则上，apparent_ 阅读全文

posted @ 2020-03-08 16:30 扶-9 阅读(161) 评论(0) 推荐(0)

fu-9

仰望星空，脚踏实地。

随笔分类 - Python爬虫

公告