chenjd

大数据应用技术课程实践--选题与实践方案

摘要：一、选题与意义 1.Hadoop平台应用 2.Kaggle分析数据项目简要说明理由与意义。选题：1.Hadoop平台应用淘宝双11数据分析与预测官网：http://dblab.xmu.edu.cn/post/8116/ 理由：对于使用hadoop实验比较熟悉一点二、实践方案简要说明理由。阅读全文

posted @ 2020-06-23 19:27 chenjd 阅读(265) 评论(0) 推荐(0)

15 手写数字识别-小数据集

摘要：未交作业（12.朴素贝叶斯-垃圾邮件分类）链接：https://www.cnblogs.com/chenjd/p/12910004.html 由于之前写好后未发布，而且有点忙，所以忘记交了，其它的作业我也是比较早完成提交的。 1.手写数字数据集 from sklearn.datasets impor 阅读全文

posted @ 2020-06-11 20:41 chenjd 阅读(384) 评论(0) 推荐(0)

14 深度学习-卷积

摘要： 1.简述人工智能、机器学习和深度学习三者的联系与区别。 AI是设备或机器的总体描述，它以智能的方式运行，机器学习作为其子集，深度学习作为机器学习的子集。换句话说，机器学习和深度学习被归类为AI，但AI不一定是机器学习或深度学习。 2. 全连接神经网络与卷积神经网络的联系与区别。 DNN是指深度神经网阅读全文

posted @ 2020-06-05 21:26 chenjd 阅读(198) 评论(0) 推荐(0)

13-垃圾邮件分类2

摘要： 1.读取代码： #1、读取file_path=r'E:\作业\大三上\人工智能\works\robot\7\SMSSpamCollection'sms=open(file_path,'r',encoding='utf-8')sms_data=[]#字符串sms_label=[]csv_reader 阅读全文

posted @ 2020-05-21 20:28 chenjd 阅读(194) 评论(0) 推荐(0)

12.朴素贝叶斯-垃圾邮件分类

摘要： 1. 读邮件数据集文件，提取邮件本身与标签。列表 numpy数组 2.邮件预处理邮件分句句子分词大小写，标点符号，去掉过短的单词词性还原：复数、时态、比较级连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl 阅读全文

posted @ 2020-05-18 13:21 chenjd 阅读(174) 评论(0) 推荐(0)

11.分类与监督学习，朴素贝叶斯分类算法

摘要： 1.理解分类与监督学习、聚类与无监督学习。简述分类与聚类的联系与区别。简述什么是监督学习与无监督学习。分类：根据一些给定的已知类别标号的样本，训练某种学习机器（即得到某种目标函数），使它能够对未知类别的样本进行分类。聚类：聚类的时候，我们并不关心某一类是什么，我们需要实现的目标只是把相似的东阅读全文

posted @ 2020-05-11 14:44 chenjd 阅读(178) 评论(0) 推荐(0)

9、主成分分析

摘要：一、用自己的话描述出其本身的含义： 1、特征选择能够提升模型的性能，帮助我们理解数据的特点、底层结构 2、PCA 使用较少的数据维度，同时保留住较多的原数据点的特性。尽可能将原始特征往具有最大投影信息量的维度上进行投影。将原特征投影到这些维度上，使降维后信息量损失最小二、并用自己的话阐述出两者的阅读全文

posted @ 2020-05-03 16:35 chenjd 阅读(139) 评论(0) 推荐(0)

8、特征选择

摘要：用过滤法对以下数据进行特征选择： [[0,2,0,3], [0,1,4,3], [0,1,1,3]] 要求： 1、Variance Threshold（threshold =1.0） 2、将结果截图放上来（没有条件的备注说明原因）注意：每个人的电脑ID是不一样的代码： from sklearn.f 阅读全文

posted @ 2020-04-28 18:59 chenjd 阅读(136) 评论(0) 推荐(0)

7.逻辑回归实践

摘要： 1.逻辑回归是怎么防止过拟合的？为什么正则化可以防止过拟合？（大家用自己的话介绍下）防止过拟合：算法：正则化；数据：加大样本量；通过特征选择减少特征量业务：EDA-探索有区分性的特征；特征派生-不断派生更多强组合的特征。正则化防止过拟合：要拟合训练数据，就要足够大的模型空间；而用了足够大的阅读全文

posted @ 2020-04-27 14:29 chenjd 阅读(214) 评论(0) 推荐(0)

6.逻辑回归

摘要： 1.用自己的话描述一下，什么是逻辑回归，与线性回归对比，有什么不同？逻辑回归是一种广义的线性回归分析模型，要求因变量必须是连续性数据变量。常用于数据挖掘，疾病自动诊断，经济预测等领域。线性回归是利用数理统计中回归分析，来确定两种或两种以上变量间相互zd依赖的定量关系的一种统计分析方法，要求因变量阅读全文

posted @ 2020-04-23 14:34 chenjd 阅读(159) 评论(0) 推荐(0)