4.17python爬取

今天学校python爬取，先总结一下，有许许多多的包需要安装，不过问题不大，之间cmd，打开python安装位置，使用pip install 相应的包就可以了

requets

requests是python实现的简单易用的HTTP库，使用起来比urllib简洁很多

因为是第三方库，所以使用前需要cmd安装

pip install requests

安装完成后import一下，正常则说明可以开始使用了。

基本用法：

requests.get()用于请求目标网站，类型是一个HTTPresponse类型

import requests
 
response = requests.get('http://www.baidu.com')
print(response.status_code)  # 打印状态码
print(response.url)          # 打印请求url
print(response.headers)      # 打印头信息
print(response.cookies)      # 打印cookie信息
print(response.text)  #以文本形式打印网页源码
print(response.content) #以字节流形式打印

　　为你的请求添加头信息

import requests
heads = {}
heads['User-Agent'] = 'Mozilla/5.0 ' \
                          '(Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 ' \
                          '(KHTML, like Gecko) Version/5.1 Safari/534.50'
 response = requests.get('http://www.baidu.com',headers=headers)

Beautiful Soup

简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。官方解释如下：

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。
 
Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。
 
Beautiful Soup已成为和lxml、html6lib一样出色的python解释器，为用户灵活地提供不同的解析策略或强劲的速度。

Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器，如果我们不安装它，则 Python 会使用 Python默认的解析器，lxml 解析器更加强大，速度更快，推荐安装。

html.parser　　　　文档容错能力强

lxml　　　　　　　速度块，容错能力强

xml　　　　　　　唯一支持xml的解析器，速度很快

html5lib　　　　　速度较慢，容错能力最强

实现简单的爬虫小练习

import requests
 
 
 
def getHTMLText(url):
    try:
        r = requests.get(url ,timeout = 30)
        r = r.raise_for_status()
        r.encoding = "utf-8"
        return r.text
    except:
        return ""
 
url = "http://www.baidu.com"
print(getHTMLText(url))

import requests
from bs4 import BeautifulSoup
 
url = "http://www.baidu.com"
r = requests.get(url)
r.encoding = "utf-8"
soup = BeautifulSoup(r ,"xml")
print(soup.title.arrts)
print(soup.title.name)
print(soup.title.string)

　　明日内容顶会热词的爬取

posted @ 2021-04-17 20:05 居酿圆子阅读(45) 评论(0) 收藏举报

刷新页面返回顶部

4.17python爬取

requets

Beautiful Soup

实现简单的爬虫小练习

公告