2019.04.13 请求

一直在学习Django，我都要忘了怎么发送请求了

因为在Django中一直请求的是自己内部的url 而怎么访问百度呢？

https://www.jianshu.com/p/9e50c58dabdd

首先得先安装 pip install requests 这个模块

处理图像你还得安装 pip install pillow 模块

按照上面流程下来还是一脸懵呀

那就通过爬虫来了解这HTTP吧

1.首先得知道自己要爬哪里网址分析？后的参数知道如何分页的

2.明确我要爬取的内容数据吧，排名，名字，导演，评语，评分然后要查看元素所在的位置

现在的问题是这些方法我不知道怎么用

BeautifuSoup 这肯定是个过滤器查找特定的过滤器

os路径的问题

我们就来介绍一个强大的解析工具Beautiful Soup，它借助网页的结构和属性等特性来解析网页。有了它，我们不用再去写一些复杂的正则表达式，只需要简单的几条语句，就可以完成网页中某个元素的提取。

3、解析器
Beautiful Soup在解析时实际上依赖解析器，它除了支持Python标准库中的HTML解析器外，还支持一些第三方解析器（比如lxml）

欧克理清思路再自己动手

爬虫需要请求和解析HTML元素 python为我们提供了两种模块

from bs4 import BeautifulSoup

import requests

先是获取网页，那么就是要请求

requests.get(url=,headers = )

请求地址，请求头 UA伪装代理浏览器然后已经请求到了网页

那么接下来解析网页，获取想要的内容

先创建一个BeautifulSoup的实例对象soup 把内容传进去，用lxml解析

过滤自己需要的那部分信息就好了用BeautifulSoup 提供的方法find（）find_all("")

到此获取和分析基本的网页结构已经好了接下就应该是获取里面的内容了

如何获取内容呢通过get_text()

下一步是如何存到文件中呢

有个负责路径的模块 import os

print(response)

#输出

也算是完成了吧爬虫三步走：请求地址，获取内容，存储文件

　　　　　　　　　对应模块：requests bs4 BeautifulSoup os

posted @ 2019-04-14 21:33 AJking 阅读(104) 评论(0) 收藏举报

刷新页面返回顶部