随笔分类 -  【ML/DS】

机器学习、数据科学相关
摘要:数据清洗 数据清洗的目的不只是要消除错误、冗余和数据噪音,还要能将按不同的、不兼容的规则所得的各种数据集一致起来。 缺失值处理 找到缺失值:(输出每个列丢失值也即值为NaN的数据和,并从多到少排序) #输出数量 total = train.isnull().sum().sort_values(asc 阅读全文
posted @ 2020-12-13 09:24 盐析Yuki 阅读(338) 评论(0) 推荐(0)
摘要:引言 前面我们讲过曲线拟合问题。曲线拟合问题的特点是,根据得到的若干有关变量的 一组数据,寻找因变量与(一个或几个)自变量之间的一个函数,使这个函数对那组数据拟合得最好。通常,函数的形式可以由经验、先验知识或对数据的直观观察决定,要作的工作是由数据用最小二乘法计算函数中的待定系数。从计算的角度看,问 阅读全文
posted @ 2020-12-11 18:55 盐析Yuki 阅读(1426) 评论(0) 推荐(0)
摘要:摘要 本例为演示数据分析的流程和对概率论和数理统计基础知识的应用,使用Python的pandas和statmodels生成标准的描述性统计量和模型,对数据集进行探索和摘要分析,并利用多元线性回归进行回归分析。 本例以葡萄酒类型为标签,分为白葡萄酒和红葡萄酒。比较这两种葡萄酒的差别并选取葡萄酒的化学成 阅读全文
posted @ 2020-12-08 00:00 盐析Yuki 阅读(6803) 评论(0) 推荐(1)
摘要:题目链接 http://www.mathorcup.org/detail/2260 本文仅演示数据预处理环节。 理论基础:https://www.cnblogs.com/fighterkaka22/p/14052346.html 数据预处理 本文取每个水池中,A、B两个采样点各理化因子的实测值的均值 阅读全文
posted @ 2020-12-05 20:53 盐析Yuki 阅读(2039) 评论(0) 推荐(0)

// 侧边栏目录 // https://blog-static.cnblogs.com/files/douzujun/marvin.nav.my1502.css