【Python】爬虫学习笔记

一、Python爬虫需要导入urllib来实现

from urllib.request import urlopen

二、网页的代码将被作为变量储存

page = "https://assets.baydn.com/baydn/public/codetime/1/shanbay_news.html"

三、了解html文件结构

①

在HTML文件中，一般都有 head 部分和 body 部分。前者一般存放网页的标题（title）等信息，而后者一般承载网页的主体信息。

②

多行字符串存有HTML信息，已知在

<title></title>   （注意此处第一个title前面没有"/"，而后面的有）

之内的是该HTML的标题内容。

③

变量.find("xxx")返回的是"xxx"首位内容所在索引，故索取内容时常常需要

html_file[start+len('<title>'):end]，以此来保证不让<title>被录入

④

开爬之前一定要分析好目标网页的html结构

⑤

清洗数据的方式：

A..split()，将字符串从特定位点切割分成列表元素

print("I learn Python.".split(" ")) # 输出： ['I', 'learn', 'Python.']

B..strip()，将字符串头尾特定的字符或字符串去除，默认去除空格

print(" I learn Python. ".strip()) # 输出：I learn Python.

C..count()，统计字符串中特定字符或字符串数量

print(("I learn Python.").count("n")) # 输出：2

D..find()，找到字符串中目标字符串的索引（索引从0开始）

print(("I learn Python").find("learn")) # 输出：2

⑥

多项操作，如.strip().split()，按从左到右依次进行的逻辑运行

四、正则表达式

首先，我们需要import re

posted @ 2020-10-05 23:57 jasss_7 阅读(112) 评论(0) 收藏举报

刷新页面返回顶部

jasss_7