【Python】爬虫学习笔记
一、Python爬虫需要导入urllib来实现
from urllib.request import urlopen
二、网页的代码将被作为变量储存
page = "https://assets.baydn.com/baydn/public/codetime/1/shanbay_news.html"
三、了解html文件结构
①
在HTML文件中,一般都有 head 部分和 body 部分。前者一般存放网页的标题(title)等信息,而后者一般承载网页的主体信息。
②
多行字符串存有HTML信息,已知在
<title></title> (注意此处第一个title前面没有"/",而后面的有)
之内的是该HTML的标题内容。
③
变量.find("xxx")返回的是"xxx"首位内容所在索引,故索取内容时常常需要
html_file[start+len('<title>'):end],以此来保证不让<title>被录入
④
开爬之前一定要分析好目标网页的html结构
⑤
清洗数据的方式:
A..split(),将字符串从特定位点切割分成列表元素
print("I learn Python.".split(" ")) # 输出: ['I', 'learn', 'Python.']
B..strip(),将字符串头尾特定的字符或字符串去除,默认去除空格
print(" I learn Python. ".strip()) # 输出:I learn Python.
C..count(),统计字符串中特定字符或字符串数量
print(("I learn Python.").count("n")) # 输出:2
D..find(),找到字符串中目标字符串的索引(索引从0开始)
print(("I learn Python").find("learn")) # 输出:2
⑥
多项操作,如.strip().split(),按从左到右依次进行的逻辑运行
四、正则表达式
首先,我们需要import re

浙公网安备 33010602011771号