摘要: 一、选题与意义 Kaggle分析数据项目 泰坦尼克号生还预测 使用机器学习来创建一个模型,该模型可以预测哪些乘客在泰坦尼克号沉船事故中幸存下来。 二、实践方案 泰坦尼克号的沉没是历史上最臭名昭著的海难之一。 1912年4月15日,在她的处女航中,被广泛认为的“沉没” RMS泰坦尼克号与冰山相撞后沉没 阅读全文
posted @ 2020-06-23 19:05 xuyongqin 阅读(184) 评论(0) 推荐(0) 编辑
摘要: 1.手写数字数据集 from sklearn.datasets import load_digits digits = load_digits() 2.图片数据预处理 x:归一化MinMaxScaler() y:独热编码OneHotEncoder()或to_categorical 训练集测试集划分 阅读全文
posted @ 2020-06-14 20:26 xuyongqin 阅读(130) 评论(0) 推荐(0) 编辑
摘要: 1.简述人工智能、机器学习和深度学习三者的联系与区别。 人工智能指由人类制造出的机器表现出的智能。这是一个非常大的范围,长远目标是让机器实现类人智能。 不过目前我们还在非常非常初级的阶段,甚至都不能称为智能。 机器学习是指通过数据训练出能完成一定功能的模型,是实现人工智能的手段之一,也是目前最主流的 阅读全文
posted @ 2020-06-07 19:32 xuyongqin 阅读(114) 评论(0) 推荐(0) 编辑
摘要: 1.读取 2.数据预处理 数据的读取预处理参考:https://www.cnblogs.com/xyqzzz/p/12907029.html 3.数据划分—训练集和测试集数据划分 from sklearn.model_selection import train_test_split x_train 阅读全文
posted @ 2020-05-23 19:36 xuyongqin 阅读(131) 评论(0) 推荐(0) 编辑
摘要: 1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl 阅读全文
posted @ 2020-05-17 21:33 xuyongqin 阅读(165) 评论(0) 推荐(0) 编辑
摘要: 1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别。 分类简单来说,就是根据文本的特征或属性,划分到已有的类别中。也就是说,这些类别是已知的,通过对已知分类的数据进行训练和学习,找到这些不同类的特征,再对未分类的数据进行分类。 而聚类的理解更简单,就是你压根不知道数据会分为几类, 阅读全文
posted @ 2020-05-13 19:41 xuyongqin 阅读(229) 评论(0) 推荐(0) 编辑
摘要: 一、用自己的话描述出其本身的含义: 1、特征选择 我们将属性称为“特征”(feature),对当前学习任务有用的属性称为“相关特征”(relevant feature)、没什么用的属性称为“无关特征”(irrelevant feature)。 从给定的特征集合中选择出相关特征子集的过程,称为“特征选 阅读全文
posted @ 2020-05-04 15:55 xuyongqin 阅读(171) 评论(0) 推荐(0) 编辑
摘要: 用过滤法对以下数据进行特征选择: [[0,2,0,3], [0,1,4,3], [0,1,1,3]] 要求: 1、Variance Threshold(threshold =1.0) 2、将结果截图放上来(没有条件的备注说明原因)注意:每个人的电脑ID是不一样的 from sklearn.featu 阅读全文
posted @ 2020-05-01 15:02 xuyongqin 阅读(115) 评论(0) 推荐(0) 编辑
摘要: 1.逻辑回归是怎么防止过拟合的?为什么正则化可以防止过拟合?(大家用自己的话介绍下) 逻辑回归通过正则化防止过拟合。 为什么正则化可以防止过拟合? 我们这班学生在学校里,如果模型目标是提高自身能力并最终能够凭借一身过硬的技术进入大厂,理想的优化方法是提高各种牛逼算法,各种高大上的计算平台的熟悉程度, 阅读全文
posted @ 2020-04-29 14:53 xuyongqin 阅读(163) 评论(0) 推荐(0) 编辑
摘要: 1.用自己的话描述一下,什么是逻辑回归,与线性回归对比,有什么不同? 逻辑回归(Logistic Regression)是一种用于解决二分类(0 or 1)问题的机器学习方法,用于估计某种事物的可能性。比如某用户购买某商品的可能性,某病人患有某种疾病的可能性,以及某广告被用户点击的可能性等。 注意, 阅读全文
posted @ 2020-04-25 22:06 xuyongqin 阅读(126) 评论(0) 推荐(0) 编辑