【Python】爬虫学习笔记

一、Python爬虫需要导入urllib来实现

from urllib.request import urlopen

二、网页的代码将被作为变量储存

page = "https://assets.baydn.com/baydn/public/codetime/1/shanbay_news.html"

三、了解html文件结构

HTML文件中,一般都有 head 部分和 body 部分。前者一般存放网页的标题(title)等信息,而后者一般承载网页的主体信息。

多行字符串存有HTML信息,已知在

<title></title>   (注意此处第一个title前面没有"/",而后面的有)

之内的是该HTML的标题内容。

变量.find("xxx")返回的是"xxx"首位内容所在索引,故索取内容时常常需要

html_file[start+len('<title>'):end],以此来保证不让<title>被录入

开爬之前一定要分析好目标网页的html结构

清洗数据的方式:

A..split(),将字符串从特定位点切割分成列表元素

print("I learn Python.".split(" ")) # 输出: ['I', 'learn', 'Python.']

B..strip(),将字符串头尾特定的字符或字符串去除,默认去除空格

print(" I learn Python. ".strip()) # 输出:I learn Python.

C..count(),统计字符串中特定字符或字符串数量

print(("I learn Python.").count("n")) # 输出:2

D..find(),找到字符串中目标字符串的索引(索引从0开始)

print(("I learn Python").find("learn")) # 输出:2

多项操作,如.strip().split(),按从左到右依次进行的逻辑运行

四、正则表达式

首先,我们需要import re

posted @ 2020-10-05 23:57  jasss_7  阅读(112)  评论(0)    收藏  举报