20244116《Python程序设计》实验四报告

20244116 2024-2025《Python程序设计》实验四报告

课程：《Python程序设计》
班级： 2441
姓名：黎心睿
学号：20244116
实验教师：王志强
实验日期：2025年5月13日
必修/选修：公选课
1、实验要求
Python综合应用：爬虫、数据处理、可视化、机器学习、神经网络、游戏、网络安全等。
例如：编写从社交网络爬取数据，实现可视化舆情监控或者情感分析。
例如：利用公开数据集，开展图像分类、恶意软件检测等
例如：利用Python库，基于OCR技术实现自动化提取图片中数据，并填入excel中。
例如：爬取天气数据，实现自动化微信提醒
例如：利用爬虫，实现自动化下载网站视频、文件等。
例如：编写小游戏：坦克大战、贪吃蛇、扫雷等等
注：在Windows/Linux系统上使用VIM、PDB、IDLE、Pycharm等工具编程实现。
2、实验内容
结合上课老师示范内容以及本人能力有限，本次实验我选择了利用python爬虫技术爬取豆瓣电影top250榜单。
本次实验旨在通过 Python 编程实现豆瓣电影 Top250 页面数据的爬取，具体包括电影名称、评分、评价人数三项核心信息，并将数据存储为 CSV 格式文件。通过实践，掌握网络请求、HTML 解析、反爬应对及数据存储的全流程技术，加深对课堂所学爬虫理论的理解与应用。
3、实验过程
（1）环境搭建与库引入

使用课堂推荐的requests库发送网络请求，BeautifulSoup结合lxml解析器解析HTML页面，提升解析效率。存储数据位CSV文件。
（2）请求头设置与反爬应对

模拟 Chrome 浏览器的User-Agent标识，通过请求头伪装浏览器绕过豆瓣的反爬机制。
（3）分页请求与页面解析

通过class属性find('ol', class_='grid_view')定位包含所有电影信息的

演示视频
https://v.douyin.com/RATOTbuJNZ0/ kCu:/ 09/25 e@b.NW

源代码

点击查看代码

import requests
from bs4 import BeautifulSoup
import csv

# 请求头部
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}


# 解析页面函数
def parse_html(html):
    soup = BeautifulSoup(html, 'lxml')
    movie_list = soup.find('ol', class_='grid_view').find_all('li')
    data = []
    for movie in movie_list:
        title = movie.find('div', class_='hd').find('span', class_='title').get_text(strip=True)
        rating_num_span = movie.find('span', class_='rating_num')
        rating_num = rating_num_span.get_text(strip=True) if rating_num_span else '未知评分'
        comment_num_span = movie.find('span', string=lambda text: text and '人评价' in text)
        comment_num = comment_num_span.get_text(strip=True).rstrip('人评价') if comment_num_span else '未知评价人数'
        data.append([title, rating_num, comment_num])
    return data


# 保存数据函数
def save_data(data):
    with open('douban_movie_top250.csv', 'w', newline='', encoding='utf-8-sig') as f:
        writer = csv.writer(f)
        writer.writerow(['电影名称', '评分', '评价人数'])
        writer.writerows(data)


if __name__ == '__main__':
    all_data = []
    for i in range(10):
        url = f'https://movie.douban.com/top250?start={i * 25}&filter='
        try:
            response = requests.get(url, headers=headers)
            response.raise_for_status()
            html = response.text
            all_data.extend(parse_html(html))
        except requests.RequestException as e:
            print(f"请求出错: {e}")
    save_data(all_data)

点击查看代码

import requests
from bs4 import BeautifulSoup
import csv

# 请求头部
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}


# 解析页面函数
def parse_html(html):
    soup = BeautifulSoup(html, 'lxml')
    movie_list = soup.find('ol', class_='grid_view').find_all('li')
    data = []
    for movie in movie_list:
        title_elem = movie.find('div', class_='hd').find('span', class_='title')
        title = title_elem.get_text(strip=True) if title_elem else '未知名称'
        rating_num_span = movie.find('span', class_='rating_num')
        rating_num = rating_num_span.get_text(strip=True) if rating_num_span else '未知评分'
        comment_num_span = movie.find('span', string=lambda text: text and '人评价' in text)
        comment_num = comment_num_span.get_text(strip=True).rstrip('人评价') if comment_num_span else '未知评价人数'
        data.append([title, rating_num, comment_num])
    return data


# 保存数据函数
def save_data(data):
    with open('douban_movie_top250.csv', 'w', newline='', encoding='utf-8-sig') as f:
        writer = csv.writer(f)
        writer.writerow(['电影名称', '评分', '评价人数'])
        writer.writerows(data)


if __name__ == '__main__':
    all_data = []
    for i in range(10):
        url = f'https://movie.douban.com/top250?start={i * 25}&filter='
        try:
            print(f"正在爬取第{i + 1}页...")
            response = requests.get(url, headers=headers)
            response.raise_for_status()
            html = response.text
            page_data = parse_html(html)
            all_data.extend(page_data)
            print(f"第{i + 1}页爬取完成，获取{len(page_data)}条数据")
        except requests.RequestException as e:
            print(f"第{i + 1}页爬取失败: {e}")
    save_data(all_data)
    print("所有数据爬取完成并保存！")

posted @ 2025-06-02 21:58 黎心睿阅读(57) 评论(0) 收藏举报

刷新页面返回顶部

rxl802

20244116《Python程序设计》实验四报告

公告