会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
蔡为浠
公告
日历
导航
博客园
首页
新随笔
新文章
联系
订阅
管理
2020年4月21日
爬取豆瓣电影及可视化
摘要: 一、主题式网络爬虫设计方案 1.主题式网络爬虫名称:豆瓣电影数据评分 2.主题式网络爬虫爬取的内容:豆瓣电影的榜单数字、名称、评星、评分、评论数量。 3.设计方案概述: 实现思路:使用requests爬取网页,然后实现数据解析,借助pandas将数据写出到Excel;把数据进行清洗处理;然后对清洗的
阅读全文
posted @ 2020-04-21 23:00 蔡为浠
阅读(3130)
评论(0)
推荐(2)
2020年3月21日
获取百度贴吧热议前十及热度
摘要: #页面结构 #源代码 import requests from bs4 import BeautifulSoup import pandas as pd from pandas import DataFrame url="https://tophub.today/n/Om4ejxvxEN" head
阅读全文
posted @ 2020-03-21 16:48 蔡为浠
阅读(555)
评论(0)
推荐(0)
博客园
© 2004-2026
浙公网安备 33010602011771号
浙ICP备2021040463号-3