摘要: 一、选题与意义 1.Hadoop平台应用 2.Kaggle分析数据项目 简要说明理由与意义。 选题1:淘宝双11数据分析与预测 理由与意义:以前有接触过Hadoop而且我对Linux更有兴趣,现在发展的潮流主要还是对于数据的分析比较多,对客户购买数据进行分析能够更好的给客户推荐更多合乎品味的商品。 阅读全文
posted @ 2020-06-23 21:20 ·无语· 阅读(154) 评论(0) 推荐(0) 编辑
摘要: 1.手写数字数据集 from sklearn.datasets import load_digits digits = load_digits() 代码如下: from sklearn.datasets import load_digits import numpy as np # 1.手写数字数据 阅读全文
posted @ 2020-06-14 10:17 ·无语· 阅读(165) 评论(0) 推荐(0) 编辑
摘要: 1.简述人工智能、机器学习和深度学习三者的联系与区别。 答:人工智能学科研究的主要内容包括:知识表示、自动推理和搜索方法、机器学习和知识获取、知识处理系统、自然语言理解、计算机视觉、智能机器人、自动程序设计等方面,它是一个大的概念;机器学习是属于人工智能的一个研究方向,是人工智能的一个研究方法吧;深 阅读全文
posted @ 2020-06-07 12:50 ·无语· 阅读(184) 评论(0) 推荐(0) 编辑
摘要: 1.读取 file_path = r'D:\DingDing\main\current\download\SMSSpamCollection' sms = open(file_path, 'r', encoding='utf-8') sms_data = [] sms_label = [] csv_ 阅读全文
posted @ 2020-05-22 23:56 ·无语· 阅读(151) 评论(0) 推荐(1) 编辑
摘要: 1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 老人与海词频统计: 2.2 nltk库的安装与使用 pip install nltk impo 阅读全文
posted @ 2020-05-17 13:37 ·无语· 阅读(129) 评论(0) 推荐(0) 编辑
摘要: 1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别。 联系:都是对数据进行分类划分处理; 区别:分类是已经有了标签的情况下把相类似的一些样本给整合起来,而聚类则是在无标签样本的情况下通过算法运算后再进行整合从而得出新的类别,总的来说他们的区别在于标签是否已经存在,机器学习以前是否 阅读全文
posted @ 2020-05-13 16:31 ·无语· 阅读(198) 评论(0) 推荐(0) 编辑
摘要: 一、用自己的话描述出其本身的含义: 1、特征选择 通过人工选择特征筛选删除相关系数较低的特征,从而达到降维的作用让模型更加准确。 2、PCA 分析、简化数据集,用特征降维的方法减少特征数降低数据复杂的,减少过度拟合的可能性。 二、并用自己的话阐述出两者的主要区别 特征选择后是原来的特征集;PCA选择 阅读全文
posted @ 2020-05-03 13:50 ·无语· 阅读(129) 评论(0) 推荐(0) 编辑
摘要: 1.逻辑回归是怎么防止过拟合的?为什么正则化可以防止过拟合?(大家用自己的话介绍下) 答:正则化可以防止过拟合;因为正则化可以起到约束的作用,防止模型越变越复杂,越变越大,过拟合的出现就是因为模型的复杂度过高,而正则化的约束效果可以很好的预防过拟合。 2.用logiftic回归来进行实践操作,数据不 阅读全文
posted @ 2020-04-28 00:16 ·无语· 阅读(145) 评论(0) 推荐(0) 编辑
摘要: 用过滤法对以下数据进行特征选择: [[0,2,0,3], [0,1,4,3], [0,1,1,3]] 要求: 1、Variance Threshold(threshold =1.0) 2、将结果截图放上来(没有条件的备注说明原因)注意:每个人的电脑ID是不一样的 代码如下: from sklearn 阅读全文
posted @ 2020-04-27 18:00 ·无语· 阅读(120) 评论(0) 推荐(0) 编辑
摘要: 1.用自己的话描述一下,什么是逻辑回归,与线性回归对比,有什么不同? 逻辑回归与线性回归输入都是一样的,但是逻辑回归在输入完成后会利用 sigmoid 函数进行处理映射到0和1之间,而0和1使我们的分类问题,所以逻辑回归是一个专门处理二分类问题的算法;总的来说他们之间的不同点在于着重点的不同,线性回 阅读全文
posted @ 2020-04-24 17:31 ·无语· 阅读(141) 评论(0) 推荐(0) 编辑