返回顶部

爬虫之爬取豆瓣top250电影排行榜及爬取斗图啦表情包解读及爬虫知识点补充

今日内容概要

  • 如何将爬取的数据直接导入Excel表格

#如何通过Python代码操作Excel表格
#前戏
import requests
import time
from openpyxl import workbook
from bs4 import Beautifulsoup

wb = workbook()
sheet = wb.active
count = 1
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36'
}
for i in range(0,250,25):
    ret = requests.get('https://movie.douban.com/top250?start=%s&filter='%(i),
                       headers=headers
                       )
    bs = BeautifulSoup(ret.text,'html.parser')
    ol = bs.find(name='ol',attrs={'class':'grid_view'})
    li_list = ol.find_all(name='li')
    sheet.title = '好评电影'
    sheet['A1'].value = '序号'
    sheet['B1'].value = '电影名称'
    sheet['C1'].value = '电影评分'
    sheet['D1'].value = '电影链接'
    sheet['E1'].value = '电影图片'
    for li in li_list:
        name = li.find(name='span',attrs={'class':'title'})
        a = li.find(name='a')
        span = li.find(name='span', attrs={'class': 'rating_num'})
        img = a.find(name='img')
        count += 1
        sheet['A%s' % (count)].value = count - 1
        sheet['B%s' % (count)].value = name.text
        sheet['C%s' % (count)].value = span.text
        sheet['D%s' % (count)].value = a['href']
        sheet['E%s' % (count)].value = img['src']
    time.sleep(1)
wb.save('好评电影.xlsx')

openpyxl模块

"""
在Python中操作Excel表格的模块其实非常多
	但是最近比较火的就是openpyxl
	在此之前也有两个模块比较常用
		xlwd和xlrt
		也是读写分离的
			xlwd控制写
			xlrt控制读
				读写分离
				
数据库集群及读写分离的概念


Excel文件中的后缀名演变过程
	03版本之后的后缀名是xlsx的
	03版本及之前的后缀名是xls的
	
openpyxl模块只能操作xlsx文件

xlwd、xlrt模块兼容两种后缀名文件
    03之前03之后都可以操作
"""
posted @ 2020-09-24 15:56  Satan—yuan  阅读(206)  评论(0编辑  收藏  举报