摘要: 1、数据仓库warehouse一般不做更改,只做查询 2、OLTP:联机事务处理,比如:转账 OLAP:联机分析处理,比如:只做查询 3、hadoop的思想来源: GFS (Google的文件系统)即分布式文件系统 4、MapReduce计算模型的来源: Page Rank 即搜索排名 5、HBas 阅读全文
posted @ 2018-09-12 20:07 BoomOoO 阅读(345) 评论(0) 推荐(0)
摘要: 电商交易项目案例--字段含义--Sdate定义了日期的分类,将每天分别赋予所属的月份、星期、季度等属性,字段分别为日期、年月、年、月、日、周几、第几周、季度、旬、半月;Stock定义了订单表头,字段分别为订单号、交易位置、交易日期;StockDetail文件定义了订单明细,该表和Stock以交易号进 阅读全文
posted @ 2018-09-12 16:18 BoomOoO 阅读(536) 评论(0) 推荐(0)
摘要: 1 数据概况 本数据为上牌汽车的销售数据,分为乘用车辆和商用车辆。数据包含销售相关数据与汽车具体参数。数据项包括:时间、销售地点、邮政编码、车辆类型、车辆型号、制造厂商名称、排量、油耗、功率、发动机型号、燃料种类、车外廓长宽高、轴距、前后车轮、轮胎规格、轮胎数、载客数、所有权、购买人相关信息等。 2 阅读全文
posted @ 2018-09-12 14:10 BoomOoO 阅读(1556) 评论(0) 推荐(0)
摘要: 1数据预处理(Linux环境) 搜狗数据的数据格式: 访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL 其中,用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值,即同一次使用浏览器输入的不同查询对应同一个用户ID。 1.1数据 阅读全文
posted @ 2018-09-12 14:07 BoomOoO 阅读(944) 评论(0) 推荐(0)