上一页 1 ··· 15 16 17 18 19 20 21 22 23 ··· 30 下一页
摘要: 简单了解概念版本:https://blog.csdn.net/houfengfei668/article/details/79619215 一、拉链表 记录每个订单状态的历史变化 dw_begin_date表示该条记录的生命周期开始时间,dw_end_date表示该条记录的生命周期结束时间; dw_ 阅读全文
posted @ 2020-11-11 12:25 PEAR2020 阅读(568) 评论(0) 推荐(0)
摘要: 一、sqoop作用? 1.sqoop是一个数据交换工具,最常用的两个工具是导入导出。 导入导出的参照物是hadoop,向hadoop导数据就是导入。 RDBMS <-> Hadoop(HDFS/HIVE/HBASE) 2.命令翻译成MapReduce并行操作,如何确认数据没有丢失? wc -l 显示 阅读全文
posted @ 2020-11-11 11:42 PEAR2020 阅读(309) 评论(0) 推荐(0)
摘要: https://blog.csdn.net/wx1528159409/article/details/87948866 阅读全文
posted @ 2020-11-11 10:30 PEAR2020 阅读(147) 评论(0) 推荐(0)
摘要: 一、为什么学数据仓库 数据不兼容,很难被整合 战略决策需要数据的分析 推荐系统 二、数仓定义 是一个面向主题的、集成的、非易失的、随时间变化的数据集合 1. 主题 >> 如“销售分析”主题 数据源可以表,可以视频、图片、日志 提取主题 >> 包含主题所有信息,抛弃无关数据 2. 集成 3. 非易失 阅读全文
posted @ 2020-11-10 09:06 PEAR2020 阅读(156) 评论(0) 推荐(0)
摘要: 文档格式转换为Unix格式 阅读全文
posted @ 2020-11-10 08:40 PEAR2020 阅读(242) 评论(0) 推荐(0)
摘要: 一、说明 sqoop查看是否安装成功:https://www.cnblogs.com/xibuhaohao/p/11775973.html#_label3_0 如何用shell操作mysql: 使用mysql -e可以增删改查,具体见:https://blog.csdn.net/feeltouch/ 阅读全文
posted @ 2020-11-09 18:26 PEAR2020 阅读(195) 评论(0) 推荐(0)
摘要: 一、导包 Settings => project interpreter => impyla 0.17a1 pure-sasl 0.6.2 thrift thrift-sasl (manage repositories:https://pypi.douban.com/simple/) (option 阅读全文
posted @ 2020-11-09 11:01 PEAR2020 阅读(953) 评论(0) 推荐(0)
摘要: 一、理论 https://www.cnblogs.com/futurehau/p/6105011.html 二、代码 1)一元一次线性方程 y=kx+b 注意x和y一定是[[1],[2],[3],[4],...] #-*-coding:gb2312-*- import numpy as np imp 阅读全文
posted @ 2020-11-06 14:19 PEAR2020 阅读(112) 评论(0) 推荐(0)
摘要: 一、随机森林是什么? 随机森林是一种多功能的机器学习算法,能够执行①回归和②分类的任务,同时也是一种③数据降维手段,用于处理缺失值、异常值等担任了集成学习中的重要方法,可以将④几个低效模型整合为一个高效模型 在随机森林中,我们将生成很多的决策树,并不像在CART模型中只生成唯一的树1)分类 => 当 阅读全文
posted @ 2020-11-05 23:33 PEAR2020 阅读(1780) 评论(0) 推荐(0)
摘要: 一、熵、条件熵、信息增益 数学概念:https://zhuanlan.zhihu.com/p/41134986 二、决策树分类 我们在构造决策树的时候,会基于纯度来构建。而经典的 “不纯度”的指标有三种,分别是信息增益(ID3 算法)、信息增益率(C4.5 算法)以及基尼指数(Cart 算法)。信息 阅读全文
posted @ 2020-11-05 16:59 PEAR2020 阅读(156) 评论(0) 推荐(0)
上一页 1 ··· 15 16 17 18 19 20 21 22 23 ··· 30 下一页