05 2020 档案

摘要:一、urllib库 1、了解urllib Urllib是python内置的HTTP请求库 包括:urllib.request 请求模块 urllib.error 异常处理模块 urllib.parse url解析模块 urllib.robotparser robot.txt解析模块 二、Reques 阅读全文
posted @ 2020-05-05 12:12 cola_cola 阅读(149) 评论(0) 推荐(0)
摘要:快速使用 from bs4 import BeautifulSoup soup = BeautifulSoup(html,'lxml') 一、基本使用 1、标签选择器 soup.标签名 获取这个标签内容,如果有多个该标签,就返回第一个 获取名称 soup.title.name 获取属性 soup.p 阅读全文
posted @ 2020-05-05 11:57 cola_cola 阅读(391) 评论(0) 推荐(0)
摘要:一、了解爬虫 通过程序自动的获取web页面数据 主要步骤: 发送request 获得response 解析数据 保存数据 二、Request和Response 1、Request:浏览器发送消息给网址所在的服务器 包含内容: 请求方式:post(请求的数据存放在头部)和get(请求的数据在url中) 阅读全文
posted @ 2020-05-04 17:04 cola_cola 阅读(205) 评论(0) 推荐(0)