20201310 2020-2021-2 《Python程序设计》实验四报告

  • 课程:《Python程序设计》
  • 班级: 2013
  • 姓名: 何忠鑫
  • 学号:20201310
  • 实验教师:王志强
  • 实验日期:2021年4月12日
  • 必修/选修: 公选课

1.实验内容

(1)模仿浏览器向网页发出请求
(2)将得到的乱码进行格式化
(3)根据数据内容格式输出相应的图片以及评论
(4)将图片保存到文件中,将文档分类保存到excel表中

2.实验内容

首先导入相应的模块(可以模仿浏览器的模块)import requests
Python的标准库中 urllib模块已经包含了平常我们使用的大多数功能,但是request更加方便。

导入模块from lxml import etree

etree.HTML()可以用来解析字符串格式的HTML文档对象,将传进去的字符串转变成_Element对象。作为_Element对象,可以方便的使用getparent()、remove()、xpath()等方法。
导入模块

import pandas as pd

使用pandas读取csv文件

使用pandas读取txt文件

使用pandas读取Excel文件

导入模块import os
3代码托管到码云,链接:https://gitee.com/he-zhongxin

实验代码

3. 实验过程中遇到的问题和解决过程

  • 使用pycharm 下载 lxml 一直无法调入 etree模块
    解决办法: 卸载pycharm 安装的lxml 使用命令行 重新安装lxml

4参考资料

感悟

本学期的python公选课,学习了运算符、数据类型、输入输出、控制语句、字符串、正则表达式、函数、面向对象的程序设计、文件操作异常处理、python爬虫。作为大一的新生,我在本学期同时学习两种编程语言,从中可以体会到python比C语言更加简洁,短短几行代码就可以完成很多内容。计算机可以有很多很好玩的东西,这次爬虫第一次接触,但感觉还可以。

posted on 2021-05-29 23:52  20201310寸头  阅读(111)  评论(0编辑  收藏  举报