2020年6月23日
摘要: 一、选题与意义 1.Hadoop平台应用 2.Kaggle分析数据项目 选择1.Hadoop平台应用, 淘宝双11数据分析与预测 理由:比较有兴趣 二、实践方案 步骤零:实验环境准备 查看实验指南 步骤一:本地数据集上传到数据仓库Hive 查看实验指南 步骤二:Hive数据分析 查看实验指南 步骤三 阅读全文
posted @ 2020-06-23 16:55 杨啊啊啊啊鹏 阅读(172) 评论(0) 推荐(0) 编辑
2020年6月7日
摘要: 1.简述人工智能、机器学习和深度学习三者的联系与区别。 机器学习:一种实现人工智能的方法,深度度学习:一种实现机器学习的技术。人工智能包括机器学习和深度学习,机器学习包括深度学习。 2. 全连接神经网络与卷积神经网络的联系与区别。 全连接神经网络与卷积神经网络的结构相似,都是通过一层一层的节点组织起 阅读全文
posted @ 2020-06-07 21:30 杨啊啊啊啊鹏 阅读(117) 评论(0) 推荐(0) 编辑
2020年5月23日
摘要: 1.读取 2.数据预处理 # 词性还原def get_wordnet_pos(treebank_tag): if treebank_tag.startswith('J'): return nltk.corpus.wordnet.ADJ elif treebank_tag.startswith('V' 阅读全文
posted @ 2020-05-23 17:10 杨啊啊啊啊鹏 阅读(94) 评论(0) 推荐(0) 编辑
2020年5月17日
摘要: 1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl 阅读全文
posted @ 2020-05-17 16:24 杨啊啊啊啊鹏 阅读(127) 评论(0) 推荐(0) 编辑
2020年5月8日
摘要: 1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别。 答:分类属于监督学习,预测的结果比较准确,但是参与训练的数据较少。聚类属于无监督学习,训练的数据较大,但是结果比较差。 简述什么是监督学习与无监督学习。 答:监督学习是从标记的训练数据来推断一个功能,从正确的例子中学习,主要任 阅读全文
posted @ 2020-05-08 10:14 杨啊啊啊啊鹏 阅读(130) 评论(0) 推荐(0) 编辑
2020年4月30日
摘要: 一、用自己的话描述出其本身的含义: 1、特征选择:就是从一组特征中挑选出一些最有效的特征,以达到降低特征空间维数的目的 2、PCA:简单来说PCA就是一种用于分析、简化数据集的技术 二、并用自己的话阐述出两者的主要区别 特征选择主要用于特征较少时使用,而主成份分析的特征可达上百个。特征选择就是单纯地 阅读全文
posted @ 2020-04-30 10:46 杨啊啊啊啊鹏 阅读(133) 评论(0) 推荐(0) 编辑
2020年4月29日
摘要: 用过滤法对以下数据进行特征选择: [[0,2,0,3], [0,1,4,3], [0,1,1,3]] 要求: 1、Variance Threshold(threshold =1.0) 2、将结果截图放上来(没有条件的备注说明原因)注意:每个人的电脑ID是不一样的 阅读全文
posted @ 2020-04-29 21:16 杨啊啊啊啊鹏 阅读(96) 评论(0) 推荐(0) 编辑
2020年4月27日
摘要: 1.逻辑回归是怎么防止过拟合的?为什么正则化可以防止过拟合?(大家用自己的话介绍下) 逻辑回归利用正则化防止过拟合。正则化削减了容易过拟合的那部分假设空间,从而降低过拟合风险。过拟合的时候,拟合函数的系数往往非常大,而正则化是通过约束参数的范数使其不要太大,所以可以在一定程度上减少过拟合情况。 2. 阅读全文
posted @ 2020-04-27 15:59 杨啊啊啊啊鹏 阅读(127) 评论(0) 推荐(0) 编辑
2020年4月23日
摘要: 1.用自己的话描述一下,什么是逻辑回归,与线性回归对比,有什么不同? 逻辑就是一个分类的算法,常用在二分类当中,即事件发生后只有两种可能性。就是把我们的输入值在线性回归中转化为预测值,然后映射到函数中 将值作为x轴的变量,y轴作为一个概率,预测值对英的Y值越接近于1说明越符合预测结果。 与线性回归相 阅读全文
posted @ 2020-04-23 19:42 杨啊啊啊啊鹏 阅读(116) 评论(0) 推荐(0) 编辑
2020年4月20日
摘要: 1.本节重点知识点用自己的话总结出来,可以配上图片,以及说明该知识点的重要性 线性回归,就是能够用一个直线较为精确地描述数据之间的关系。这样当出现新的数据的时候,就能够预测出一个简单的值, 常用的拟合法为最小二乘法。线性回归可以对大量的观测数据进行处理,从而得到比较符合事物内部规律的数学表达式。也 阅读全文
posted @ 2020-04-20 16:05 杨啊啊啊啊鹏 阅读(111) 评论(0) 推荐(0) 编辑