2019.04.13 请求

一直在学习Django,我都要忘了怎么发送请求了

因为在Django中一直请求的是自己内部的url  而怎么访问百度呢?

https://www.cnblogs.com/zealousness/p/8748906.html

https://www.jianshu.com/p/9e50c58dabdd

 

首先得先安装 pip install requests   这个模块

 

http://docs.python-requests.org/zh_CN/latest/user/advanced.html#advanced

处理图像你还得安装 pip install pillow   模块

按照上面流程下来还是一脸懵呀

那就通过爬虫来了解这HTTP吧

 

https://movie.douban.com/top250

 

https://www.cnblogs.com/haichong/p/8067874.html

 

1.首先得知道自己要爬哪里网址   分析?后的参数  知道如何分页的

2.明确我要爬取的内容数据吧,排名,名字,导演,评语,评分  然后要查看元素所在的位置

现在的问题是这些方法我不知道怎么用  

BeautifuSoup  这肯定是个过滤器  查找特定的过滤器

os路径的问题

 

我们就来介绍一个强大的解析工具Beautiful Soup,它借助网页的结构和属性等特性来解析网页。有了它,我们不用再去写一些复杂的正则表达式,只需要简单的几条语句,就可以完成网页中某个元素的提取。 

 

3、 解析器 
Beautiful Soup在解析时实际上依赖解析器,它除了支持Python标准库中的HTML解析器外,还支持一些第三方解析器(比如lxml)

 

欧克  理清思路  再自己动手

爬虫需要请求和解析HTML元素  python为我们提供了两种模块

from bs4 import BeautifulSoup

import requests

 

先是获取网页,那么就是要请求 

requests.get(url=,headers = )

请求地址,请求头  UA伪装代理浏览器  然后已经请求到了网页

那么接下来解析网页,获取想要的内容

先创建一个BeautifulSoup的实例对象soup  把内容传进去,用lxml解析

过滤自己需要的那部分信息就好了  用BeautifulSoup 提供的方法find()find_all("")

到此获取和分析基本的网页结构已经好了  接下就应该是获取里面的内容了

 

如何获取内容呢  通过get_text()

 

下一步是如何存到文件中呢  

有个负责路径的模块  import os

 

print(response)

#输出

<Response [200]>

 

 

也算是完成了吧   爬虫三步走:请求地址,获取内容,存储文件

         对应模块:requests   bs4 BeautifulSoup   os

posted @ 2019-04-14 21:33  AJking  阅读(98)  评论(0编辑  收藏  举报