2020年6月23日

摘要: 一、选题与意义 1.Hadoop平台应用 2.Kaggle分析数据项目 简要说明理由与意义。 选择Kaggle分析数据项目,因为Kaggle平台是一个机器学习竞赛、编写和分享代码的平台,里面也有很多的项目可以进行学习。在之前没有接触过这个平台。因此在本次学习中,想尝试使用这个平台,并完成上面的一个项 阅读全文
posted @ 2020-06-23 20:51 Hqiuling 阅读(122) 评论(0) 推荐(0) 编辑
 

2020年6月13日

摘要: 1.手写数字数据集 from sklearn.datasets import load_digits digits = load_digits() 运行结果: 2.图片数据预处理 x:归一化MinMaxScaler() y:独热编码OneHotEncoder()或to_categorical 训练集 阅读全文
posted @ 2020-06-13 01:09 Hqiuling 阅读(155) 评论(0) 推荐(0) 编辑
 

2020年6月6日

摘要: 1.简述人工智能、机器学习和深度学习三者的联系与区别。 人工智能:机器展现的人类智能 机器学习:实现人工智能的一种方法 机器学习最基本的做法,是使用算法来解析数据、从中学习,然后对真实世界中的事件做出决策和预测。 深度学习:实现机器学习的一种技术 深度学习使得机器学习能够实现众多的应用,并拓展了人工 阅读全文
posted @ 2020-06-06 14:23 Hqiuling 阅读(173) 评论(0) 推荐(0) 编辑
 

2020年5月23日

摘要: 1.读取 sms=open("./data/SMSSpamCollection",'r',encoding='utf-8') #数据读取 sms_data=[] sms_label=[] csv_reader=csv.reader(sms,delimiter='\t') # 数据预处理 for li 阅读全文
posted @ 2020-05-23 16:51 Hqiuling 阅读(147) 评论(0) 推荐(0) 编辑
 

2020年5月17日

摘要: 1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 # 读邮件数据集文件,提取邮件本身与标签 sms=open("./data/SMSSpamCollection",'r',encoding='utf-8') # 读取邮件 csv_reader=csv.reader(sms, del 阅读全文
posted @ 2020-05-17 15:16 Hqiuling 阅读(243) 评论(0) 推荐(0) 编辑
 

2020年5月10日

摘要: 1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别。 分类:分类是已知这个数据集有多少个种类,我们需要将每一条记录分别属于哪一类标记出来; 例如:我们在对学生性别进行分类时,会将其分为“男”,“女”两类; 聚类:聚类是不知道该数据集包含了多少种类,我们需要将数据集中相似的数据归纳 阅读全文
posted @ 2020-05-10 15:13 Hqiuling 阅读(300) 评论(0) 推荐(0) 编辑
 

2020年4月30日

摘要: 一、用自己的话描述出其本身的含义: 1、特征选择 特征选择,能人为地剔除不相关、冗余、没有差异刻画能力的特征,从而达到减少特征个数、减少训练或者运行时间、提高模型精确度的作用。 例如:删除低方差的特征。 2、PCA 当样本特征过多,部分特征对预测结果有影响,如果直接剔除特征会导致预测不准确,因此引入 阅读全文
posted @ 2020-04-30 21:43 Hqiuling 阅读(132) 评论(0) 推荐(0) 编辑
 

2020年4月27日

摘要: 用过滤法对以下数据进行特征选择: [[0,2,0,3], [0,1,4,3], [0,1,1,3]] 要求: 1、Variance Threshold(threshold =1.0) 2、将结果截图放上来(没有条件的备注说明原因)注意:每个人的电脑ID是不一样的 运行截图如下: 源代码如下: 1 # 阅读全文
posted @ 2020-04-27 21:40 Hqiuling 阅读(138) 评论(0) 推荐(0) 编辑
 
摘要: 1.逻辑回归是怎么防止过拟合的?为什么正则化可以防止过拟合?(大家用自己的话介绍下) ① 增加样本量,若样本量少,但特征过多,则容易发生过拟合 ② 通过特征选择,剔除一些不重要的特征,从而降低模型的复杂度 ③ 将样本数据进行离散化处理,所有特征都进行离散化处理 ④ 使用正则化:所有特征都对预测结果有 阅读全文
posted @ 2020-04-27 11:05 Hqiuling 阅读(181) 评论(0) 推荐(0) 编辑
 

2020年4月24日

摘要: 1.用自己的话描述一下,什么是逻辑回归,与线性回归对比,有什么不同? 逻辑回归是一种用于解决二分类问题的机器学习方法;简单来说,就是用于估计某种事物发生的可能性,例如:今天是晴天的可能性,用户购买某商品的可能性。 逻辑回归和线性回归都是一种广义的线性回归模型,逻辑回归与线性回归有很多相同之处,去除S 阅读全文
posted @ 2020-04-24 16:37 Hqiuling 阅读(171) 评论(0) 推荐(0) 编辑