随笔分类 -  Python爬虫

摘要:Re库 正则表达式是用来简洁表达一组字符串的表达式 通用的字符串表达框架 语法 由字符和操作符组成 正则表达式的表示类型 + 原生字符串(raw string类型) + string类型 原生字符串(不包含转义符'\'的字符串,原生转义字符串里的'\'不被解释为转义符) 原生字符串和字符串的区别是只 阅读全文
posted @ 2020-03-14 17:46 扶-9 阅读(95) 评论(0) 推荐(0)
摘要:find_all()函数 name: 对标签名称的检索 attrs: 对标签属性值的检索 recursive: (boolean型)是否对子孙全部检索,默认为True,改为false时表示只对儿子节点进行检索 string: 对...中字符串区域的检索 简写:(因为其非常常用) 查找标签 查找特定开 阅读全文
posted @ 2020-03-09 23:00 扶-9 阅读(198) 评论(0) 推荐(0)
摘要:安装 pip install beautifulsoup4 小测 1. 即使安装的是beautifulsoup4,但是使用时简写为bs4 2. 从bs4库导入一个BeautifulSoup类,注意B和S大写 3. html.parser为解析器,还有xml,lxml, html5lib等解析器 bs 阅读全文
posted @ 2020-03-09 22:04 扶-9 阅读(223) 评论(1) 推荐(0)
摘要:我们自己去360搜索Python发现url为:https://www.so.com/s?ie=utf 8&fr=none&src=360sou_newhome&q=Python requests.get(url, params=kv) params 用于追加参数到url中 代码 结果 如果我们返回r 阅读全文
posted @ 2020-03-08 21:26 扶-9 阅读(662) 评论(0) 推荐(0)
摘要:代码 import requests def getHTMLText(url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text[:1 阅读全文
posted @ 2020-03-08 20:48 扶-9 阅读(2633) 评论(0) 推荐(0)
摘要:网站限制爬虫的两个办法: + 审查来源 + robots告知 robots协议存放在网站根目录,并不是所有的网站都有robots协议的 基本语法: User agent: 爬虫来源, 代表所有 Disallow:/ 不允许爬取的资源目录,/代表根目录 爬虫怎么遵守robots协议? 自动或人工识别r 阅读全文
posted @ 2020-03-08 20:27 扶-9 阅读(147) 评论(0) 推荐(0)
摘要:安装 pip install requests requests库的get()方法 Response对象包含爬虫返回的全部信息 Response对象包含了服务器返回的所有信息,也包含了request请求的信息 如果r.status_code不是200,说明发生了某些错误! 原则上,apparent_ 阅读全文
posted @ 2020-03-08 16:30 扶-9 阅读(159) 评论(0) 推荐(0)