摘要: 1、项目概述 需求 对电商业务中的用户、商品、订单的数据进行分析,观察运营的情况 架构 业务数据库:Mysql:存储最原始的数据 ETL:Kettle 数据仓库:Mysql:存储需要进行分析处理的数据 分析处理:SQL/Kettle 可视化:Superset 2、准备工作 系统 linux系统 软件 阅读全文
posted @ 2020-05-16 14:31 小菜菜爱大饼饼 阅读(2162) 评论(0) 推荐(1)
摘要: 概述 本次爬虫任务是爬取图片网站图片,网址是https://www.vmgirls.com/ 分析网页 第一步,打开需要爬取的页面https://www.vmgirls.com/13344.html 打开F12,随便选择一张图片查看图片,操作如下 第二步,寻找所需下载图片的地址,并分析最优的方式 第 阅读全文
posted @ 2020-05-13 12:26 小菜菜爱大饼饼 阅读(3620) 评论(0) 推荐(0)
摘要: 概述 这是一个我很喜欢的小网站,想了解这个网站先从爬虫开始,爬取直播吧所有的栏目及内容,再存入数据库。先写个简单点的,后期再不断的优化下。 准备阶段 直播吧网址https://www.zhibo8.cc/,打开我们看到如下界面 进入足球新闻-滚动新闻 利用浏览器自带的编码工具按下F12查看,发现在X 阅读全文
posted @ 2020-05-12 17:52 小菜菜爱大饼饼 阅读(1277) 评论(0) 推荐(0)
摘要: 安装命名为 pip install -i 网址 所需要安装的库名例如:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests 解决方式: 更改pip的数据源。目前国内比较知名的有豆瓣的,清华的。都是pipy官网的镜像。 豆瓣: 阅读全文
posted @ 2020-05-12 15:13 小菜菜爱大饼饼 阅读(255) 评论(0) 推荐(0)