摘要: 一、选题与意义 1.Hadoop平台应用 2.Kaggle分析数据项目 简要说明理由与意义。 本人电脑硬件相对落后,对运行虚拟机以及处理大量数据方面并不友好,因此我选择第二项kaggle分析数据项目:泰坦尼克号的生存预测。 二、实践方案 简要说明理由。 下载准备好数据集,使用训练数据集对模型行进行训 阅读全文
posted @ 2020-06-23 20:31 Rick00 阅读(155) 评论(0) 推荐(0) 编辑
摘要: 1.手写数字数据集 from sklearn.datasets import load_digits digits = load_digits() 2.图片数据预处理 x:归一化MinMaxScaler() y:独热编码OneHotEncoder()或to_categorical 训练集测试集划分 阅读全文
posted @ 2020-06-12 09:25 Rick00 阅读(114) 评论(0) 推荐(0) 编辑
摘要: 1.简述人工智能、机器学习和深度学习三者的联系与区别。 三者联系: 三者区别: 人工智能比喻成的孩子大脑,机器学习就是让孩子去掌握认知能力的过程,而深度学习是这过程中很有效率的一种教学体系。人工智能是目的,是结果;深度学习、机器学习是方法,是工具。 机器学习是人工智能的一种途径或子集,它强调“学习” 阅读全文
posted @ 2020-06-06 17:25 Rick00 阅读(100) 评论(0) 推荐(0) 编辑
摘要: 1.读取 2.数据预处理 3.数据划分—训练集和测试集数据划分 from sklearn.model_selection import train_test_split x_train,x_test, y_train, y_test = train_test_split(data, target, 阅读全文
posted @ 2020-05-22 11:32 Rick00 阅读(137) 评论(0) 推荐(0) 编辑
摘要: 1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 代码以及部分结果截图如下: 2.邮件预处理 邮件分句句子分词大小写,标点符号,去掉过短的单词词性还原:复数、时态、比较级连接成字符串2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk impor 阅读全文
posted @ 2020-05-15 19:47 Rick00 阅读(180) 评论(0) 推荐(0) 编辑
摘要: 1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别。 联系:分类与聚类都是通过预处理使得数据能基于一个分析目标而被整理。 区别:分类是有监督,靠的是学习; 聚类无监督,靠的是启发式搜索。 简述什么是监督学习与无监督学习。 有监督学习:事先知道训练样本的标签,通过挖掘将属于不同类别 阅读全文
posted @ 2020-05-08 23:14 Rick00 阅读(167) 评论(0) 推荐(0) 编辑
摘要: 一、用自己的话描述出其本身的含义: 1、特征选择 特征选择是选择部分特征当做机器学习的相关数据,也就是特征选择后的特征是原来特征的一个子集。 2、PCA 主成分分析本质是一种分析,是简化数据集的技术,目的是数据维数压缩,尽可能降低原数据的维数,损失少量信息。 二、并用自己的话阐述出两者的主要区别 特 阅读全文
posted @ 2020-04-30 10:01 Rick00 阅读(187) 评论(0) 推荐(0) 编辑
摘要: 用过滤法对以下数据进行特征选择: [[0,2,0,3], [0,1,4,3], [0,1,1,3]] 要求: 1、Variance Threshold(threshold =1.0) 2、将结果截图放上来(没有条件的备注说明原因)注意:每个人的电脑ID是不一样的 代码及运行结果: 阅读全文
posted @ 2020-04-29 22:57 Rick00 阅读(126) 评论(0) 推荐(0) 编辑
摘要: 1.逻辑回归是怎么防止过拟合的?为什么正则化可以防止过拟合?(大家用自己的话介绍下) 逻辑回归是通过正则化防止过拟合;当我们有很多特征变量时,其中每一个变量都能对预测产生一点影响。正如我们在房价预测的例子中看到的那样,我们可以有很多特征变量,其中每一个变量都是有用的,因此我们不希望把它们删掉,而正则 阅读全文
posted @ 2020-04-26 21:54 Rick00 阅读(182) 评论(0) 推荐(0) 编辑
摘要: 1.用自己的话描述一下,什么是逻辑回归,与线性回归对比,有什么不同? 逻辑回归是基于线性回归的一种分类模型,逻辑回归虽说是回归但它解决的是分类问题,在实际问题中,所研究的变量往往不全是区间变量而是顺序变量或属性变量的时候,比如对于二项分布问题,需采用逻辑回归模型解决。 线性回归解决的就是回归问题,所 阅读全文
posted @ 2020-04-24 10:19 Rick00 阅读(265) 评论(0) 推荐(0) 编辑