2019 年 4月随笔档案 - 星不予

相关性检验和独立性检验

摘要：独立性检验表明的是两者是否有关系，相关性检验说明两者成什么样的关系，无论是否有关系都可以表示出回归方程 1 相关性检验简单相关系数：度量定量变量间的线性相关关系(非相关性) 复相关系数：因变量与多个自变量之间的关系偏相关系数：反应矫正其他变量后某一变量与另一变量的相关关系，校正：嘉定其他变量取值阅读全文

posted @ 2019-04-13 23:29 星不予阅读(8104) 评论(0) 推荐(0)

IDEA远程连接Hadoop

摘要：IDEA远程连接Hadoop Win 1.Hadoop配置下载并配置到本地环境 2.Maven pom.xml 3.core site.xml hadoop集群里的core site.xml文件拿下来，放到resource目录下（记在etc/hosts里的名字记得换成ip地址） 4.替换 wind 阅读全文

posted @ 2019-04-11 15:20 星不予阅读(2565) 评论(0) 推荐(1)

sklearn pipeline

摘要：sklearn.pipeline pipeline的目的将许多算法模型串联起来，比如将特征提取、归一化、分类组织在一起形成一个典型的机器学习问题工作流。优点： 1.直接调用fit和predict方法来对pipeline中的所有算法模型进行训练和预测 2.可以结合grid search对参数进行选择阅读全文

posted @ 2019-04-06 23:05 星不予阅读(989) 评论(0) 推荐(0)

java static

摘要：JAVA.static static是静态修饰符，主要作用在于创建独立于具体对象的域变量或者方法。出发点：当我们通过new关键字去创建对象的时候数据的存储空间才会被分配，类中的成员方法才能被对象所使用。程序中任何变量或代码，都是在编译时，有系统自动分配内存来存储，静态的意义时在编译后分配的内存会一阅读全文

posted @ 2019-04-06 16:48 星不予阅读(202) 评论(0) 推荐(0)

sklearn learn preprocessing

摘要：train\_test\_split stratify:测试集和训练集中的类标签比例同原始的样本中类标签的比例相同，都为2:3 随机算子在学习机器学习的过程中，常常遇到random_state这个参数，下面来简单叙述一下它的作用。为什么需要用到这样一个参数random_state（随机状态）？阅读全文

posted @ 2019-04-05 01:18 星不予阅读(232) 评论(0) 推荐(0)

数据预处理简介

摘要：——《Applied predictive modeling》数据预处理数据的准备能够极大的影响模型的预测能力，如对数据集进行变换以减少数据偏移和离群值的影响，能够显著提高模型的表现。对于特征工程来说，使用预测变量的组合能够比使用单独的预测变量更加有效，最有效的编码数据方法来自于建模者对于问题阅读全文

posted @ 2019-04-02 20:27 星不予阅读(618) 评论(0) 推荐(0)

04 2019 档案

公告