• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
yanniandyanni
博客园    首页    新随笔    联系   管理    订阅  订阅
正则爬取'豆瓣之乘风破浪的姐姐'的并存入excel文档
import requests
import re
import pandas as pd

def parse_page(url):
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299'
    }
    response = requests.get(url,headers=headers)
    text = response.text
    
    
    authors = re.findall(r'<div class="bg-img-green">.*?<h4>.*?<a.*?>(.*?)</a>',text,re.DOTALL)
    contents = re.findall(r'<p class=" reply-content">(.*?)</p>',text,re.DOTALL)
    
    commands = []
    for command in contents:
        x = re.sub(r'<.*?>',"",command)
        commands.append(x.strip())
    data={
        '作者':authors,
        '评论':commands
    }
    
    #print(contents)
    df=pd.DataFrame(data)
    df.to_excel('23333.xlsx',encoding='utf-8')
    
    
def main():
    url = 'https://www.douban.com/group/topic/184693273/'
    parse_page(url)
    
if __name__ == '__main__':
    main()

 

posted on 2020-07-28 18:59  yanniandyanni  阅读(35)  评论(0)    收藏  举报
刷新页面返回顶部
博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3