2020年6月23日

大数据应用技术课程实践--选题与实践方案

摘要: 一、选题与意义 1.Hadoop平台应用 2.Kaggle分析数据项目 简要说明理由与意义。 选题:1.Hadoop平台应用 淘宝双11数据分析与预测 官网:http://dblab.xmu.edu.cn/post/8116/ 理由:对于使用hadoop实验比较熟悉一点 二、实践方案 简要说明理由。 阅读全文

posted @ 2020-06-23 19:27 chenjd 阅读(205) 评论(0) 推荐(0) 编辑

2020年6月11日

15 手写数字识别-小数据集

摘要: 未交作业(12.朴素贝叶斯-垃圾邮件分类)链接:https://www.cnblogs.com/chenjd/p/12910004.html 由于之前写好后未发布,而且有点忙,所以忘记交了,其它的作业我也是比较早完成提交的。 1.手写数字数据集 from sklearn.datasets impor 阅读全文

posted @ 2020-06-11 20:41 chenjd 阅读(356) 评论(0) 推荐(0) 编辑

2020年6月5日

14 深度学习-卷积

摘要: 1.简述人工智能、机器学习和深度学习三者的联系与区别。 AI是设备或机器的总体描述,它以智能的方式运行,机器学习作为其子集,深度学习作为机器学习的子集。换句话说,机器学习和深度学习被归类为AI,但AI不一定是机器学习或深度学习。 2. 全连接神经网络与卷积神经网络的联系与区别。 DNN是指深度神经网 阅读全文

posted @ 2020-06-05 21:26 chenjd 阅读(185) 评论(0) 推荐(0) 编辑

2020年5月21日

13-垃圾邮件分类2

摘要: 1.读取 代码: #1、读取file_path=r'E:\作业\大三上\人工智能\works\robot\7\SMSSpamCollection'sms=open(file_path,'r',encoding='utf-8')sms_data=[]#字符串sms_label=[]csv_reader 阅读全文

posted @ 2020-05-21 20:28 chenjd 阅读(176) 评论(0) 推荐(0) 编辑

2020年5月18日

12.朴素贝叶斯-垃圾邮件分类

摘要: 1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl 阅读全文

posted @ 2020-05-18 13:21 chenjd 阅读(148) 评论(0) 推荐(0) 编辑

2020年5月11日

11.分类与监督学习,朴素贝叶斯分类算法

摘要: 1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别。 简述什么是监督学习与无监督学习。 分类:根据一些给定的已知类别标号的样本,训练某种学习机器(即得到某种目标函数),使它能够对未知类别的样本进行分类。 聚类:聚类的时候,我们并不关心某一类是什么,我们需要实现的目标只是把相似的东 阅读全文

posted @ 2020-05-11 14:44 chenjd 阅读(156) 评论(0) 推荐(0) 编辑

2020年5月3日

9、主成分分析

摘要: 一、用自己的话描述出其本身的含义: 1、特征选择 能够提升模型的性能,帮助我们理解数据的特点、底层结构 2、PCA 使用较少的数据维度,同时保留住较多的原数据点的特性。尽可能将原始特征往具有最大投影信息量的维度上进行投影。将原特征投影到这些维度上,使降维后信息量损失最小 二、并用自己的话阐述出两者的 阅读全文

posted @ 2020-05-03 16:35 chenjd 阅读(120) 评论(0) 推荐(0) 编辑

2020年4月28日

8、特征选择

摘要: 用过滤法对以下数据进行特征选择: [[0,2,0,3], [0,1,4,3], [0,1,1,3]] 要求: 1、Variance Threshold(threshold =1.0) 2、将结果截图放上来(没有条件的备注说明原因)注意:每个人的电脑ID是不一样的 代码: from sklearn.f 阅读全文

posted @ 2020-04-28 18:59 chenjd 阅读(122) 评论(0) 推荐(0) 编辑

2020年4月27日

7.逻辑回归实践

摘要: 1.逻辑回归是怎么防止过拟合的?为什么正则化可以防止过拟合?(大家用自己的话介绍下) 防止过拟合: 算法:正则化; 数据:加大样本量;通过特征选择减少特征量 业务:EDA-探索有区分性的特征;特征派生-不断派生更多强组合的特征。 正则化防止过拟合:要拟合训练数据,就要足够大的模型空间;而用了足够大的 阅读全文

posted @ 2020-04-27 14:29 chenjd 阅读(199) 评论(0) 推荐(0) 编辑

2020年4月23日

6.逻辑回归

摘要: 1.用自己的话描述一下,什么是逻辑回归,与线性回归对比,有什么不同? 逻辑回归是一种广义的线性回归分析模型,要求因变量必须是连续性数据变量。常用于数据挖掘,疾病自动诊断,经济预测等领域。 线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互zd依赖的定量关系的一种统计分析方法,要求因变量 阅读全文

posted @ 2020-04-23 14:34 chenjd 阅读(143) 评论(0) 推荐(0) 编辑

导航