豆瓣爬虫总结

步骤

爬取网页，获取网页源代码
分析网页代码，获取指定数据
保存数据（excel表或数据库）

具体实现

引入所需模块

from bs4 import BeautifulSoup  # 网页解析，获取数据
import re  # 正则表达式，进行文字匹配
import urllib.request, urllib.error  # 指定URL，获取网页数据
import xlwt  # 进行excel操作
import sqlite3  # 进行数据库操作

爬取网页，获取网页源代码

模块urllib介绍：Python内置的HTTP请求库，包含四个模块：request（HTTP请求模块，模拟浏览器操作），error（异常处理模块），parse（工具模块），robotparser（识别robot.txt文件，判断是否可爬取）

此处重点介绍request模块用法：

request = urllib.request.Request(url, headers = "...")

response = urllib.request.urlopen(request)

html = response.read().decode("utf-8")

以上代码可实现对指定url返回其网页源代码内容。

完整代码实现：

# 得到指定一个url的网页内容，源码
def askUrl(url):
    head = {  # 用户代理告诉网页服务器是浏览器，可接受什么类型的
        "User-Agent": "Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 80.0.3987.162Safari / 537.36 Edg / 80.0.361.109"
    }
    request = urllib.request.Request(url, headers=head)
    html = ""
    try:
        response = urllib.request.urlopen((request))
        html = response.read().decode("utf-8")
       # print(html)
    except urllib.error.URLError as e:
        if hasattr(e, "code"):
            print(e.code)
        if hasattr(e, "reason"):
            print(e.reason)
    return html

分析网页代码，获取指定数据

模块BeautifulSoup用法：

soup = BeautifulSoup(html, "html.parser")

创建一个soup对象，常用方法find_all(),查找指定内容

正则表达式re用法：

link = re.findall(findlink, item)[0]

findlink = re.compile(r'<a href="(.*?)">')

查找item中符合表达式的值

完整代码：

# 爬取网页，获取网页中指定的数据
def getData(baseurl):
    datalist = []
    for i in range(0, 10):  # 调用获取页面信息的函数10次
        url = baseurl + str(i * 25)
        html = askUrl(url)  # 保存获取到的网页源码
        # 2.逐一解析分析数据
        soup = BeautifulSoup(html, "html.parser")
        for item in soup.find_all('div', class_="item"):
            #print(item)    测试查看电影的全部信息
            data = []
            item = str(item)
            #影片详情的链接
            link = re.findall(findlink, item)[0]
            data.append(link)
            imgSrc = re.findall(findImgSrc, item)[0]
            data.append(imgSrc)
            titles = re.findall(findTitle, item)    #片名可能只有一个中文名，没由外文名
            if len(titles)==2:
                ctitle = titles[0]                  #添加中文名
                data.append(ctitle)
                otitle = titles[1].replace("/","")  #添加外文名
                data.append(otitle)
            else:
                data.append(titles[0])
                data.append(' ')            #留空

            rating = re.findall(findRating,item)[0]
            data.append(rating)
            judgeNum = re.findall(findJudge,item)[0]
            data.append(judgeNum)
            inq = re.findall(findInq,item)
            if len(inq) != 0:
                inq = inq[0].replace("。"," ")   #去掉句号
                data.append(inq)
            else:
                data.append(" ")
            bd = re.findall(findBD, item)[0]
            bd = re.sub('<br(\s+)?/>(\s+)?', " ", bd)
            bd = re.sub('/', " ", bd)
            data.append(bd.strip())     #去掉前后的空格

            datalist.append(data)       #把处理好的一部电影的信息放入datalist
    return datalist

保存数据（excel表或数据库）

保存至excel

模块xlwt用法:

book = xlwt.Workbook(encoding="utf-8", style_compression=0)  # 创建workbook对象
sheet = book.add_sheet('豆瓣电影top250.xls',cell_overwrite_ok=True)  # 创建工作表

sheet.write(行，列，内容)

完整代码：

def saveData(datalist, savepath):
    print("save...")
    book = xlwt.Workbook(encoding="utf-8", style_compression=0)  # 创建workbook对象
    sheet = book.add_sheet('豆瓣电影top250.xls',cell_overwrite_ok=True)  # 创建工作表
    col = ("电影详情链接", "图片链接", "影片中文名", "影片外文名", "评分", "评价数", "概况", "相关信息")
    for i in range(8):
        sheet.write(0, i, col[i])   #列名
    for i in range(250):
        print("第%d条" %(i+1))
        data = datalist[i]
        for j in range(8):
            sheet.write(i+1,j,data[j])      #数据

    book.save('豆瓣电影top250.xls')  # 保存数据表

保存至数据库

模块sqlite3用法：

conn = sqlite3.connect(dbpath)#连接数据库
cursor = conn.cursor()#创建游标
cursor.execute(sql)#游标执行sql语句
conn.commit()#数据库确认
conn.close()#关闭数据库

数据库初始化：

def init_db(dbpath):
    sql = '''
        create table movie250
        (
        id integer primary key autoincrement,
        info_link text,
        pic_link text,
        cname varchar,
        ename varchar,
        score numeric,
        rated numeric,
        instroduction text,
        info text
        )
        '''
    conn = sqlite3.connect(dbpath)#连接数据库
    cursor = conn.cursor()#创建游标
    cursor.execute(sql)#游标执行sql语句
    conn.commit()#数据库确认
    conn.close()#关闭数据库

存入数据库：

def saveData2db(datalist, dbpath):
    init_db(dbpath)
    conn = sqlite3.connect(dbpath)
    cur = conn.cursor()
    for data in datalist:
        for index in range(len(data)):
            if index == 4 or index == 5:
                continue
            data[index] = '"'+data[index]+'"'
        sql = '''
                insert into movie250 (
                info_link,pic_link,cname,ename,score,rated,instroduction,info)
                values (%s)'''%",".join(data)

        cur.execute(sql)
        conn.commit()
    cur.close()
    conn.close()

posted on 2020-05-08 11:09 Yolo_35 阅读(250) 评论(0) 收藏举报