相关性检验和独立性检验
摘要:独立性检验表明的是两者是否有关系,相关性检验说明两者成什么样的关系,无论是否有关系都可以表示出回归方程 1 相关性检验 简单相关系数:度量定量变量间的线性相关关系(非相关性) 复相关系数:因变量与多个自变量之间的关系 偏相关系数:反应矫正其他变量后某一变量与另一变量的相关关系,校正:嘉定其他变量取值
阅读全文
IDEA远程连接Hadoop
摘要:IDEA远程连接Hadoop Win 1.Hadoop配置 下载并配置到本地环境 2.Maven pom.xml 3.core site.xml hadoop集群里的core site.xml文件拿下来,放到resource目录下(记在etc/hosts里的名字记得换成ip地址) 4.替换 wind
阅读全文
sklearn pipeline
摘要:sklearn.pipeline pipeline的目的将许多算法模型串联起来,比如将特征提取、归一化、分类组织在一起形成一个典型的机器学习问题工作流。 优点: 1.直接调用fit和predict方法来对pipeline中的所有算法模型进行训练和预测 2.可以结合grid search对参数进行选择
阅读全文
java static
摘要:JAVA.static static是静态修饰符,主要作用在于创建独立于具体对象的域变量或者方法。 出发点:当我们通过new关键字去创建对象的时候数据的存储空间才会被分配,类中的成员方法才能被对象所使用。程序中任何变量或代码,都是在编译时,有系统自动分配内存来存储,静态的意义时在编译后分配的内存会一
阅读全文
sklearn learn preprocessing
摘要:train\_test\_split stratify:测试集和训练集中的类标签比例同原始的样本中类标签的比例相同,都为2:3 随机算子 在学习机器学习的过程中,常常遇到random_state这个参数,下面来简单叙述一下它的作用。 为什么需要用到这样一个参数random_state(随机状态)?
阅读全文
数据预处理 简介
摘要:——《Applied predictive modeling》 数据预处理 数据的准备能够极大的影响模型的预测能力,如对数据集进行变换以减少数据偏移和离群值的影响,能够显著提高模型的表现。 对于特征工程来说,使用预测变量的组合能够比使用单独的预测变量更加有效,最有效的编码数据方法来自于建模者对于问题
阅读全文