2020年6月23日

大数据应用技术课程实践--选题与实践方案

摘要：一、选题与意义 1.Hadoop平台应用 2.Kaggle分析数据项目简要说明理由与意义。选择Kaggle分析数据项目，因为Kaggle平台是一个机器学习竞赛、编写和分享代码的平台，里面也有很多的项目可以进行学习。在之前没有接触过这个平台。因此在本次学习中，想尝试使用这个平台，并完成上面的一个项阅读全文

posted @ 2020-06-23 20:51 Hqiuling 阅读(168) 评论(0) 推荐(0)

2020年6月13日

作业15 手写数字识别-小数据集

摘要： 1.手写数字数据集 from sklearn.datasets import load_digits digits = load_digits() 运行结果： 2.图片数据预处理 x：归一化MinMaxScaler() y：独热编码OneHotEncoder()或to_categorical 训练集阅读全文

posted @ 2020-06-13 01:09 Hqiuling 阅读(167) 评论(0) 推荐(0)

2020年6月6日

作业14 深度学习-卷积

摘要： 1.简述人工智能、机器学习和深度学习三者的联系与区别。人工智能：机器展现的人类智能机器学习：实现人工智能的一种方法机器学习最基本的做法，是使用算法来解析数据、从中学习，然后对真实世界中的事件做出决策和预测。深度学习：实现机器学习的一种技术深度学习使得机器学习能够实现众多的应用，并拓展了人工阅读全文

posted @ 2020-06-06 14:23 Hqiuling 阅读(194) 评论(0) 推荐(0)

2020年5月23日

作业13 垃圾邮件分类2

摘要： 1.读取 sms=open("./data/SMSSpamCollection",'r',encoding='utf-8') #数据读取 sms_data=[] sms_label=[] csv_reader=csv.reader(sms,delimiter='\t') # 数据预处理 for li 阅读全文

posted @ 2020-05-23 16:51 Hqiuling 阅读(152) 评论(0) 推荐(0)

2020年5月17日

作业12 朴素贝叶斯-垃圾邮件分类

摘要： 1. 读邮件数据集文件，提取邮件本身与标签。列表 numpy数组 # 读邮件数据集文件,提取邮件本身与标签 sms=open("./data/SMSSpamCollection",'r',encoding='utf-8') # 读取邮件 csv_reader=csv.reader(sms, del 阅读全文

posted @ 2020-05-17 15:16 Hqiuling 阅读(248) 评论(0) 推荐(0)

2020年5月10日

作业11 分类与监督学习，朴素贝叶斯分类算法

摘要： 1.理解分类与监督学习、聚类与无监督学习。简述分类与聚类的联系与区别。分类：分类是已知这个数据集有多少个种类，我们需要将每一条记录分别属于哪一类标记出来；例如：我们在对学生性别进行分类时，会将其分为“男”，“女”两类；聚类：聚类是不知道该数据集包含了多少种类，我们需要将数据集中相似的数据归纳阅读全文

posted @ 2020-05-10 15:13 Hqiuling 阅读(313) 评论(0) 推荐(0)

2020年4月30日

作业9 主成分分析

摘要：一、用自己的话描述出其本身的含义： 1、特征选择特征选择，能人为地剔除不相关、冗余、没有差异刻画能力的特征，从而达到减少特征个数、减少训练或者运行时间、提高模型精确度的作用。例如：删除低方差的特征。 2、PCA 当样本特征过多，部分特征对预测结果有影响，如果直接剔除特征会导致预测不准确，因此引入阅读全文

posted @ 2020-04-30 21:43 Hqiuling 阅读(142) 评论(0) 推荐(0)

2020年4月27日

作业8 特征选择

摘要：用过滤法对以下数据进行特征选择： [[0,2,0,3], [0,1,4,3], [0,1,1,3]] 要求： 1、Variance Threshold（threshold =1.0） 2、将结果截图放上来（没有条件的备注说明原因）注意：每个人的电脑ID是不一样的运行截图如下：源代码如下： 1 # 阅读全文

posted @ 2020-04-27 21:40 Hqiuling 阅读(145) 评论(0) 推荐(0)

作业7 逻辑回归实践

摘要： 1.逻辑回归是怎么防止过拟合的？为什么正则化可以防止过拟合？（大家用自己的话介绍下） ① 增加样本量，若样本量少，但特征过多，则容易发生过拟合 ② 通过特征选择，剔除一些不重要的特征，从而降低模型的复杂度 ③ 将样本数据进行离散化处理，所有特征都进行离散化处理 ④ 使用正则化：所有特征都对预测结果有阅读全文

posted @ 2020-04-27 11:05 Hqiuling 阅读(189) 评论(0) 推荐(0)

2020年4月24日

作业6 逻辑回归

摘要： 1.用自己的话描述一下，什么是逻辑回归，与线性回归对比，有什么不同？逻辑回归是一种用于解决二分类问题的机器学习方法；简单来说，就是用于估计某种事物发生的可能性，例如：今天是晴天的可能性，用户购买某商品的可能性。逻辑回归和线性回归都是一种广义的线性回归模型，逻辑回归与线性回归有很多相同之处，去除S 阅读全文

posted @ 2020-04-24 16:37 Hqiuling 阅读(195) 评论(0) 推荐(0)