python 爬虫GET方法

import requests  # 导入requests包


def HTML_GET(URL):
# 用 GET 方式获取数据需要调用 requests 库中的 get 方法,将获取到的数据存到 strhtml 变量中
strhtml = requests.get(url) # Get方式获取网页数据
# 这个时候 strhtml 是一个 URL 对象,它代表整个网页,但此时只需要网页中的源码,下面的语句表示打印网页源码:
print(strhtml.text)


# 写程序的入口,即程序的门:
if __name__ == '__main__':
# 需要获取的网页源地址
url = 'https://piaofang.maoyan.com/dashboard/'
# 调用HTML_GET函数功能
HTML_GET(url)

# 参考内容:
# http://c.biancheng.net/view/2011.html
# https://blog.csdn.net/c406495762/article/details/78123502


"""
# -*- coding:UTF-8 -*-
from bs4 import BeautifulSoup
import requests


def GET_HTML_WORD(URL):
# 用安装的BeautifulSoup解析器来提取所需标签内的内容,需要先获取到HTML的文本内容
#这里使用的是GET方法
strhtml = requests.get(url=URL).text
# 添加, 'lxml' 可以解决解析器引起的环境问题
bs = BeautifulSoup(strhtml, 'lxml')
# 要提取的内容在 div 标签内,且标识符 id 为 content , class 为 showtext
texts = bs.find_all('div', id="content", class_='showtxt')
# 用 replace 方法来替换提取内容中的非文字部分为 空行
print(texts[0].text.replace('\xa0' * 8, '\n\n'))


if __name__ == "__main__":
url = 'https://www.bqkan8.com/42_42882/14586139.html'
GET_HTML_WORD(url)

参考内容:
https://blog.csdn.net/c406495762/article/details/78123502

"""
posted @ 2021-07-12 15:01  Lee597  阅读(694)  评论(0)    收藏  举报