摘要:
一、选题与意义 1.Hadoop平台应用 2.Kaggle分析数据项目 选择1.Hadoop平台应用, 淘宝双11数据分析与预测 理由:比较有兴趣 二、实践方案 步骤零:实验环境准备 查看实验指南 步骤一:本地数据集上传到数据仓库Hive 查看实验指南 步骤二:Hive数据分析 查看实验指南 步骤三 阅读全文
摘要:
1.简述人工智能、机器学习和深度学习三者的联系与区别。 机器学习:一种实现人工智能的方法,深度度学习:一种实现机器学习的技术。人工智能包括机器学习和深度学习,机器学习包括深度学习。 2. 全连接神经网络与卷积神经网络的联系与区别。 全连接神经网络与卷积神经网络的结构相似,都是通过一层一层的节点组织起 阅读全文
摘要:
1.读取 2.数据预处理 # 词性还原def get_wordnet_pos(treebank_tag): if treebank_tag.startswith('J'): return nltk.corpus.wordnet.ADJ elif treebank_tag.startswith('V' 阅读全文
摘要:
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl 阅读全文
摘要:
1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别。 答:分类属于监督学习,预测的结果比较准确,但是参与训练的数据较少。聚类属于无监督学习,训练的数据较大,但是结果比较差。 简述什么是监督学习与无监督学习。 答:监督学习是从标记的训练数据来推断一个功能,从正确的例子中学习,主要任 阅读全文
摘要:
一、用自己的话描述出其本身的含义: 1、特征选择:就是从一组特征中挑选出一些最有效的特征,以达到降低特征空间维数的目的 2、PCA:简单来说PCA就是一种用于分析、简化数据集的技术 二、并用自己的话阐述出两者的主要区别 特征选择主要用于特征较少时使用,而主成份分析的特征可达上百个。特征选择就是单纯地 阅读全文
摘要:
用过滤法对以下数据进行特征选择: [[0,2,0,3], [0,1,4,3], [0,1,1,3]] 要求: 1、Variance Threshold(threshold =1.0) 2、将结果截图放上来(没有条件的备注说明原因)注意:每个人的电脑ID是不一样的 阅读全文
摘要:
1.逻辑回归是怎么防止过拟合的?为什么正则化可以防止过拟合?(大家用自己的话介绍下) 逻辑回归利用正则化防止过拟合。正则化削减了容易过拟合的那部分假设空间,从而降低过拟合风险。过拟合的时候,拟合函数的系数往往非常大,而正则化是通过约束参数的范数使其不要太大,所以可以在一定程度上减少过拟合情况。 2. 阅读全文
摘要:
1.用自己的话描述一下,什么是逻辑回归,与线性回归对比,有什么不同? 逻辑就是一个分类的算法,常用在二分类当中,即事件发生后只有两种可能性。就是把我们的输入值在线性回归中转化为预测值,然后映射到函数中 将值作为x轴的变量,y轴作为一个概率,预测值对英的Y值越接近于1说明越符合预测结果。 与线性回归相 阅读全文