python 爬虫GET方法

import requests  # 导入requests包


def HTML_GET(URL):
    # 用 GET 方式获取数据需要调用 requests 库中的 get 方法,将获取到的数据存到 strhtml 变量中
    strhtml = requests.get(url)  # Get方式获取网页数据
    # 这个时候 strhtml 是一个 URL 对象，它代表整个网页，但此时只需要网页中的源码，下面的语句表示打印网页源码：
    print(strhtml.text)


# 写程序的入口，即程序的门：
if __name__ == '__main__':
    # 需要获取的网页源地址
    url = 'https://piaofang.maoyan.com/dashboard/'
    # 调用HTML_GET函数功能
    HTML_GET(url)

# 参考内容:
# http://c.biancheng.net/view/2011.html
# https://blog.csdn.net/c406495762/article/details/78123502


"""
# -*- coding:UTF-8 -*-
from bs4 import BeautifulSoup
import requests


def GET_HTML_WORD(URL):
    # 用安装的BeautifulSoup解析器来提取所需标签内的内容，需要先获取到HTML的文本内容
    #这里使用的是GET方法
    strhtml = requests.get(url=URL).text
    # 添加, 'lxml' 可以解决解析器引起的环境问题
    bs = BeautifulSoup(strhtml, 'lxml')
    # 要提取的内容在 div 标签内，且标识符 id 为 content ， class 为 showtext
    texts = bs.find_all('div', id="content", class_='showtxt')
    # 用 replace 方法来替换提取内容中的非文字部分为 空行
    print(texts[0].text.replace('\xa0' * 8, '\n\n'))


if __name__ == "__main__":
    url = 'https://www.bqkan8.com/42_42882/14586139.html'
    GET_HTML_WORD(url)
    
参考内容：
https://blog.csdn.net/c406495762/article/details/78123502

"""
posted @ 2021-07-12 15:01 Lee597 阅读(709) 评论(0) 收藏举报
刷新页面返回顶部
Lee597

python 爬虫GET方法

公告