随笔分类 -  机器学习算法基础

学习
摘要:1.手写数字数据集 from sklearn.datasets import load_digits digits = load_digits() 2.图片数据预处理 x:归一化MinMaxScaler() y:独热编码OneHotEncoder()或to_categorical 将分类特征的每个元 阅读全文
posted @ 2020-06-11 10:39 linyanli 阅读(242) 评论(0) 推荐(0)
摘要:1.简述人工智能、机器学习和深度学习三者的联系与区别。 人工智能 机器学习 深度学习 联系 人工智能是最早出现的,也是最大、最外侧的同心圆;其次是机器学习,稍晚一点;最内侧,是深度学习,也是当今人工智能大爆炸的核心驱动。 人工智能>机器学习>深度学习 区别 为机器赋予人的智能,是目的,是结果,适用图 阅读全文
posted @ 2020-06-05 10:04 linyanli 阅读(412) 评论(2) 推荐(1)
摘要:1.读取 2.数据预处理 3.数据划分—训练集和测试集数据划分 from sklearn.model_selection import train_test_split x_train,x_test, y_train, y_test = train_test_split(data, target, 阅读全文
posted @ 2020-05-21 11:19 linyanli 阅读(292) 评论(0) 推荐(1)
摘要:1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 a.邮件分句 b.句子分词 c.大小写,标点符号,去掉过短的单词 d.词性还原:复数、时态、比较级 e.连接成字符串 2.1 传统方法来实现 利用列表,字典,集合等的操作进行词频统计 2.2 nltk库的安装与使用 阅读全文
posted @ 2020-05-14 20:28 linyanli 阅读(235) 评论(0) 推荐(0)
摘要:1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别,简述什么是监督学习与无监督学习。 分类 聚类 含义 把每一条记录归到对应的已知类别中。 将数据集划分为若干类, 使得类内之间的数据最为相似, 各类之间的数据相似度差别尽可能大。 联系 对于想要分析的目标点,都会在数据集中寻找离它 阅读全文
posted @ 2020-05-07 08:40 linyanli 阅读(433) 评论(0) 推荐(0)
摘要:一、用自己的话描述出其本身的含义: 1、特征选择 从提取到的所有特征中选择和类标签有关的特征作为训练集特征,特征在选择前和选择后不改变值。 2、PCA 将多个变量通过线性变换以选出较少个重要变量的一种多元统计分析方法。本质上是从一个维度空间映射到另一个维度空间,在映射的过程中特征值也会相应的变化。 阅读全文
posted @ 2020-04-30 08:53 linyanli 阅读(165) 评论(0) 推荐(0)
摘要:1.逻辑回归是怎么防止过拟合的?为什么正则化可以防止过拟合?(大家用自己的话介绍下) 防止过拟合: (1)进行特征选择,消除关联性大的特征 (2)加大样本量 (3)交叉验证(让所有数据都有过训练) (4)正则化 正则化可以防止过拟合的原因: L1正则,通过增大正则项导致更多参数为0,参数系数化降低模 阅读全文
posted @ 2020-04-27 16:56 linyanli 阅读(175) 评论(0) 推荐(0)
摘要:用过滤法对以下数据进行特征选择: [[0,2,0,3], [0,1,4,3], [0,1,1,3]] 要求: 1、Variance Threshold(threshold =1.0) 2、将结果截图放上来(没有条件的备注说明原因)注意:每个人的电脑ID是不一样的 阅读全文
posted @ 2020-04-27 16:35 linyanli 阅读(128) 评论(0) 推荐(0)
摘要:1.用自己的话描述一下,什么是逻辑回归,与线性回归对比,有什么不同? 逻辑回归虽然名字中有“回归”,但实际却是一种分类学习方法,它将数据拟合到一个logit函数或者是 logistic函数中,从而能够完成对事件发生的概率进行预测。 虽然逻辑回归能够用于分类,不过其本质还是线性回归。它仅在线性回归的基 阅读全文
posted @ 2020-04-23 10:02 linyanli 阅读(323) 评论(0) 推荐(0)
摘要:1.本节重点知识点用自己的话总结出来,可以配上图片,以及说明该知识点的重要性 回归问题的判定: 回归和分类的区别: 应用:房价预测、销售额预测、贷款额度的预测等。 单因素影响的一元线性模型例子:房价预测。 横坐标为房子面积,纵坐标为价格。 线性回归的定义:通过一个或多个自变量与因变量之间进行建模的回 阅读全文
posted @ 2020-04-20 15:10 linyanli 阅读(242) 评论(0) 推荐(0)
摘要:1. 应用K-means算法进行图片压缩 读取一张图片 观察图片文件大小,占内存大小,图片数据结构,线性化 用kmeans对图片像素颜色进行聚类 获取每个像素的颜色类别,每个类别的颜色 压缩图片生成:以聚类中收替代原像素颜色,还原为二维 观察压缩图片的文件大小,占内存大小 完整的代码: 1 from 阅读全文
posted @ 2020-04-16 09:01 linyanli 阅读(264) 评论(0) 推荐(0)
摘要:1. 机器学习的步骤 : 数据,模型选择,训练,测试,预测 2. 安装机器学习库sklearn pip list 查看版本 python -m pip install --upgrade pip pip install -U scikit-learn pip uninstall sklearn pi 阅读全文
posted @ 2020-04-15 21:18 linyanli 阅读(263) 评论(0) 推荐(0)
摘要:本周任务: 请确保熟悉并理解机器学习数学部分常用相关概念: 1.高等数学 1)函数 2)极限 3)导数 4)极值和最值 5)泰勒级数 6)梯度 7)梯度下降 2.线性代数 1)基本概念 2)行列式 3)矩阵 4)最小二乘法 5)向量的线性相关性 3.概率论 1)事件 2)排列组合 3)概率 4)贝叶 阅读全文
posted @ 2020-04-11 23:15 linyanli 阅读(195) 评论(0) 推荐(0)
摘要:1.python基础的准备 本课程拟采用Python做为机器算法应用的实现语言,所以请确保: 1)安装好Python开发环境, PyCharm 或 Anaconda等都可以,按个人习惯喜好。 2)基本库的安装,如numpy、pandas、scipy、matplotlib 3)具备一定的Python编 阅读全文
posted @ 2020-04-02 12:18 linyanli 阅读(237) 评论(0) 推荐(0)