摘要: 目录 模型 策略:最小二乘法 算法:闭式解以及梯度下降法公式推导 正则化:Lasso和Ridge回归 Numpy代码实现 sklearn调用 模型 线性回归试图学得一个通过属性的线性组合来尽可能准确地预测实值输出标记的函数,即$f\left( \mathbf{x} \right) =\mathbf{ 阅读全文
posted @ 2022-05-24 16:42 daisy0726 阅读(102) 评论(0) 推荐(0)
摘要: 数据清洗与格式转换 探索性数据分析 特征筛选 特征工程 1.数据清洗与格式转换 通过pandas来导入csv:查看一下数据的基本情况,可以看到,整个数据集有3333条数据,21个维度,最后一列是分类 基本信息以及类型 我们可以看到 1.个人信息:州名、账号长度、区号、电话号码,这些个人信息对结果意义 阅读全文
posted @ 2020-05-22 07:23 daisy0726 阅读(507) 评论(1) 推荐(0)
摘要: 1.数据清洗 2.缺失值分析 3.数据格式转换 4.特种工程 5.模型训练 6.建立混淆矩阵 1.数据清洗 数据源:数据集是Lending Club平台发生借贷的业务数据,共有52个变量,39522条数据 输出数据标签,初判断无用特征 很明显从常识来看"id"和"member_id"与银行是否对他进 阅读全文
posted @ 2020-05-19 06:48 daisy0726 阅读(440) 评论(0) 推荐(0)
摘要: 1.分析目的:根据过往电商成交数据进行数据分析发现规律和问题从而指导业务 2.数据 导入库 导入数据 加载好数据之后,第一步先分别使用describe和info方法看下数据的大概分布 加载device_type 3.数据清洗 orderId orderId在一个系统里是唯一值 先看下有没有重复值 如 阅读全文
posted @ 2020-04-12 09:34 daisy0726 阅读(772) 评论(0) 推荐(0)
摘要: 1.分析目的:通过google play store的app数据分析进行业务方向指导 2.数据 导入框架 导入数据 这次只分析'App' ,'Category' ,'Rating' ,'Reviews' ,'Size' ,'Installs' ,'Type' 简单浏览下数据 查看行列数量 查看各个列 阅读全文
posted @ 2020-04-11 22:45 daisy0726 阅读(455) 评论(0) 推荐(0)
摘要: 1.分析目的:了解北京房价总体情况 2.数据源:beijing_host_price.csv 引入使用的库 加载数据文件 了解数据大致情况,有哪些列,都是什么类型的值 数值类列的常用统计值 查看各列非空值数量 3.数据清洗 对需要的字段进行处理 查看是否有重复数据 假如id值都是正确的,看看有没有重 阅读全文
posted @ 2020-04-11 10:15 daisy0726 阅读(309) 评论(0) 推荐(0)
摘要: 分析目的:对FIFA2018球员信息情况做个总体了解 数据源:FIFA_2018_player.csv 1.模块及数据导入 模块导入 数据导入 2.数据概览 head()方法展示表格前几行的数据,默认前5行,了解表格大致情况,有哪些字段,值的类型 describe()方法展示数值型字段的几个常用的统 阅读全文
posted @ 2020-04-07 22:46 daisy0726 阅读(284) 评论(0) 推荐(0)