04 2020 档案

摘要:一、用自己的话描述出其本身的含义: 1、特征选择 将高维空间的样本通过映射或者是变换的方式转换到低维空间,达到降维的目的,然后通过特征选取删选掉冗余和不相关的特征来进一步降维。 2、PCA 主成分分析,是一种数据处理方法,其最主要的目的是“用最小的信息损失对数据进行降维”,以便进行进一步数据分析。对 阅读全文
posted @ 2020-04-30 08:58 codekid 阅读(207) 评论(0) 推荐(0)
摘要:用过滤法对以下数据进行特征选择: [[0,2,0,3], [0,1,4,3], [0,1,1,3]] 要求: 1、Variance Threshold(threshold =1.0) 2、将结果截图放上来(没有条件的备注说明原因)注意:每个人的电脑ID是不一样的 可以看到指定阈值方差为1时,删除了原 阅读全文
posted @ 2020-04-27 15:57 codekid 阅读(172) 评论(0) 推荐(0)
摘要:1.逻辑回归是怎么防止过拟合的?为什么正则化可以防止过拟合?(大家用自己的话介绍下) 正则化是通过约束参数的范数使其不要太大,所以可以在一定程度上减少过拟合情况。 比如我们学到了一个模型: y = W1X1 + W2X2 + W3X3 +W4X4如果想变弱或消除特征X3, 其实很简单的。直接添加一项 阅读全文
posted @ 2020-04-26 16:00 codekid 阅读(251) 评论(0) 推荐(0)
摘要:1.用自己的话描述一下,什么是逻辑回归,与线性回归对比,有什么不同? 线性回归只能用于回归问题,逻辑回归用于分类问题(二分类、多分类) 线性回归使用最小二乘法作为参数估计方法,逻辑回归使用极大似然法作为参数估计方法 2.自述一下什么是过拟合和欠拟合? 欠拟合:训练样本被提取的特征比较少,导致训练出来 阅读全文
posted @ 2020-04-23 11:22 codekid 阅读(158) 评论(0) 推荐(0)
摘要:1.本节重点知识点用自己的话总结出来,可以配上图片,以及说明该知识点的重要性 首先明白回归算法的概念:就是确定变量之间的关系,建立数学模型去预测真实值。 其次要知道线性回归:指的是自变量和因变量存在线性关系,进行建模的回归方法。根据自变量的个数,又可以分为一元线性回归和多元线性回归。 通过下面的线性 阅读全文
posted @ 2020-04-20 15:40 codekid 阅读(327) 评论(0) 推荐(0)
摘要:1. 应用K-means算法进行图片压缩 读取一张图片 观察图片文件大小,占内存大小,图片数据结构,线性化 用kmeans对图片像素颜色进行聚类 获取每个像素的颜色类别,每个类别的颜色 压缩图片生成:以聚类中收替代原像素颜色,还原为二维 观察压缩图片的文件大小,占内存大小 读取图片,获得图片大小和数 阅读全文
posted @ 2020-04-16 11:21 codekid 阅读(365) 评论(0) 推荐(0)
摘要:1). 扑克牌手动演练k均值聚类过程:>30张牌,3类 步骤一:首先将随机抽取的30张牌随机抽取3张牌。分别是4、8、Q。 步骤二:将剩下的27张扑克牌根据与3张初始牌距离开始分类,分类效果如下图所示。 步骤三:通过求各类别平均值,求出新的类中心3、8、J。如图所示。 步骤四:将其余27张牌重新根据 阅读全文
posted @ 2020-04-14 10:30 codekid 阅读(381) 评论(0) 推荐(0)
摘要:1)贴上视频学习笔记,要求真实,不要抄袭,可以手写拍照。 概率作用于生活。但是其实概率和我们想象中的概率其实并不一样 举个例子:以前根据用户浏览记录进行商品推荐,但是在一些场景中通过一些随机性给用户带来惊喜感。 解题过程: 概率模型 作用:判断什么时候会堵车,自己的车什么时候可以加速减速。 基础概率 阅读全文
posted @ 2020-04-09 12:03 codekid 阅读(237) 评论(0) 推荐(0)
摘要:1)贴上Python环境及pip list截图,了解一下大家的准备情况。暂不具备开发条件的请说明原因及打算。 开发环境如下: 2)贴上视频学习笔记,要求真实,不要抄袭,可以手写拍照。 机器学习应用范围: 给定数据的预测问题 数据清洗/特征选择 确定算法模型/参数优化 进行结果预测 不能解决:大数据存 阅读全文
posted @ 2020-04-05 16:08 codekid 阅读(137) 评论(0) 推荐(0)