1.13

  1. 安装必要的库
    • 在进行网页爬取之前,首先需要安装requestsBeautifulSoup这两个常用的库。requests用于发送 HTTP 请求获取网页内容,BeautifulSoup用于解析 HTML 或 XML 文档。
    • 可以使用pip命令来安装它们(假设已经安装了 Python 和pip):
      收起
      plaintext
       
      pip install requests
      pip install beautifulsoup4
      
  2. 简单的网页内容获取(使用 requests)
    • 以下是一个使用requests库获取网页内容的简单示例。以获取百度首页内容为例:
      收起
      python
       
      import requests
      
      url = "https://www.baidu.com/"
      response = requests.get(url)
      if response.status_code == 200:
          print(response.text)
      else:
          print("请求出错,状态码:", response.status_code)
      
    • 在这个示例中,requests.get(url)发送一个 GET 请求到指定的url(百度首页)。response.status_code用于检查请求是否成功,状态码为200表示请求成功,然后通过response.text可以获取网页的文本内容。
posted @ 2025-01-14 00:10  *太¥^白%  阅读(19)  评论(0)    收藏  举报