摘要: 一、选题与意义 1.Hadoop平台应用 淘宝双11数据分析与预测 官网:http://dblab.xmu.edu.cn/post/8116/ 简要说明理由与意义。 由于该题目里的任务有些是以前接触过的,所以感觉做起来会相对容易一点。 二、实践方案 简要说明理由。 在自己电脑上搭建伪分布式Hadoo 阅读全文
posted @ 2020-06-23 17:45 诚诚诚诚诚诚诚 阅读(121) 评论(0) 推荐(0) 编辑
摘要: 补交作业:忘记交了 9、主成分分析 7.逻辑回归实践 1.手写数字数据集 from sklearn.datasets import load_digits digits = load_digits() from sklearn.datasets import load_digitsimport nu 阅读全文
posted @ 2020-06-14 16:24 诚诚诚诚诚诚诚 阅读(175) 评论(0) 推荐(0) 编辑
摘要: 一、用自己的话描述出其本身的含义: 1、特征选择:特征选择的本质就是对一个给定特征子集的优良性通过一个特定的评价标准进行衡量.通过特征选择,原始特征集合中的冗余特征和不相关特征被除去,而有用特征得以保留。 2、PCA:PCA,即主成分分析方法,是一种使用最广泛的数据压缩算法。在PCA中,数据从原来的 阅读全文
posted @ 2020-06-14 15:38 诚诚诚诚诚诚诚 阅读(85) 评论(0) 推荐(0) 编辑
摘要: 1.逻辑回归是怎么防止过拟合的?为什么正则化可以防止过拟合?(大家用自己的话介绍下) 逻辑回归是用正则化来防止过拟合的, 正则化是通过约束参数的范数使其不要太大,所以可以在一定程度上减少过拟合情况。 2.用logiftic回归来进行实践操作,数据不限 from sklearn.datasets im 阅读全文
posted @ 2020-06-14 15:34 诚诚诚诚诚诚诚 阅读(108) 评论(0) 推荐(0) 编辑
摘要: 1.简述人工智能、机器学习和深度学习三者的联系与区别。 联系:人工只能是最早出现的,其次就是机器学习,过来就是深度学习,当今人工智能大爆炸的核心驱动。相当与人工智能是一个集合,机器学习是人工智能的子集,而深度学习又是机器学习的子集。 区别:机器学习和深度学习的区别是,机器学习大部分算法需要人类自己寻 阅读全文
posted @ 2020-06-07 13:27 诚诚诚诚诚诚诚 阅读(138) 评论(0) 推荐(0) 编辑
摘要: 1.读取 file_path = r"E:\da3xia\jiqixuexi\SMSSpamCollection" sms = open(file_path, 'r', encoding='utf-8') sms_data = [] sms_lable = [] csv_reader = csv.r 阅读全文
posted @ 2020-05-23 20:49 诚诚诚诚诚诚诚 阅读(150) 评论(0) 推荐(0) 编辑
摘要: 1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl 阅读全文
posted @ 2020-05-17 21:28 诚诚诚诚诚诚诚 阅读(125) 评论(0) 推荐(0) 编辑
摘要: 1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别。 简述什么是监督学习与无监督学习。 分类与聚类的区别:是否有已知分类的条件。分类没有,聚类有。 监督学习:已知某些类别的情况下,即具有事先标记的数据,通过特征分析来学习的一类算法。 无监督学习:不具有事先标签的数据,缺乏先验知识 阅读全文
posted @ 2020-05-13 17:15 诚诚诚诚诚诚诚 阅读(149) 评论(0) 推荐(0) 编辑
摘要: 用过滤法对以下数据进行特征选择: [[0,2,0,3], [0,1,4,3], [0,1,1,3]] 要求: 1、Variance Threshold(threshold =1.0) 2、将结果截图放上来(没有条件的备注说明原因)注意:每个人的电脑ID是不一样的 from sklearn.featu 阅读全文
posted @ 2020-05-01 17:52 诚诚诚诚诚诚诚 阅读(122) 评论(0) 推荐(0) 编辑
摘要: 1.用自己的话描述一下,什么是逻辑回归,与线性回归对比,有什么不同? 逻辑回归:是一种广义的线性回归分析模型。常用于数据挖掘,疾病自动诊断,经济预测等领域。 线性回归:利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量百关系的一种统计分析方法。常运用于数学、金融、趋势线、经济学等领域。 阅读全文
posted @ 2020-04-26 10:15 诚诚诚诚诚诚诚 阅读(138) 评论(0) 推荐(0) 编辑