摘要: 一、选题与意义 1.Hadoop平台应用 2.Kaggle分析数据项目 简要说明理由与意义。 二、实践方案 三、实践任务分解 根据所选的题目,明确实验步骤,分解任务到每天。 四、实践计划 按任务分解撰写计划表,每天按计划表开展工作。 第天根据实际情况更新计划表,有必要时调整。 1、选题:淘宝双11数 阅读全文
posted @ 2020-06-23 17:46 曾宇慧 阅读(134) 评论(0) 推荐(0) 编辑
摘要: 1.手写数字数据集 from sklearn.datasets import load_digits digits = load_digits() 代码 from sklearn.datasets import load_digits digits = load_digits() print(dig 阅读全文
posted @ 2020-06-14 16:30 曾宇慧 阅读(155) 评论(0) 推荐(0) 编辑
摘要: 1.读取 file_path = r"E:\da3xia\jiqixuexi\SMSSpamCollection" sms = open(file_path, 'r', encoding='utf-8') sms_data = [] sms_lable = [] csv_reader = csv.r 阅读全文
posted @ 2020-06-14 15:18 曾宇慧 阅读(124) 评论(0) 推荐(0) 编辑
摘要: 1.用过滤法对以下数据进行特征选择: [[0,2,0,3], [0,1,4,3], [0,1,1,3]] 要求: 1、Variance Threshold(threshold =1.0) 2、将结果截图放上来(没有条件的备注说明原因)注意:每个人的电脑ID是不一样的 阅读全文
posted @ 2020-06-14 15:12 曾宇慧 阅读(79) 评论(0) 推荐(0) 编辑
摘要: 1.逻辑回归是怎么防止过拟合的?为什么正则化可以防止过拟合? 增加样本量,这是万能的方法,适用任何模型。过拟合的时候,拟合函数的系数往往非常大,而正则化是通过约束参数的范数使其不要太大,所以可以在一定程度上减少过拟合情况。 from sklearn.linear_model import Logis 阅读全文
posted @ 2020-06-14 15:06 曾宇慧 阅读(157) 评论(0) 推荐(0) 编辑
摘要: 1.本节重点知识点用自己的话总结出来,可以配上图片,以及说明该知识点的重要性 这个知识点非常重要,复习了矩阵的相关知识。线性回归都基于矩阵的基础。 在代码上的实际运用 重点递归下降,是优化方程的最佳途径。 2..思考线性回归算法可以用来做什么?(大家尽量不要写重复) 线性回归算法可以将生活的具有某一 阅读全文
posted @ 2020-06-14 14:52 曾宇慧 阅读(89) 评论(0) 推荐(0) 编辑
摘要: 1). 扑克牌手动演练k均值聚类过程:>30张牌,3类 2). *自主编写K-means算法 ,以鸢尾花花瓣长度数据做聚类,并用散点图显示。(加分题) 3). 用sklearn.cluster.KMeans,鸢尾花花瓣长度数据做聚类,并用散点图显示. 4). 鸢尾花完整数据做聚类并用散点图显示. 5 阅读全文
posted @ 2020-06-14 14:36 曾宇慧 阅读(100) 评论(0) 推荐(0) 编辑
摘要: 1.简述人工智能、机器学习和深度学习三者的联系与区别。 答:人工智能:凡是机器做了人需要动脑才能完成的事情,都可以称为人工智能; 机器学习:如果一个系统能够通过执行某个过程改进它的性能,就是机器学习; 深度学习:深度学习可以看作是特殊的机器学习,我们可以利用深度学习来解决大部分需要思考的问题。 2. 阅读全文
posted @ 2020-06-07 18:46 曾宇慧 阅读(143) 评论(0) 推荐(0) 编辑
摘要: 1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl 阅读全文
posted @ 2020-05-17 21:52 曾宇慧 阅读(143) 评论(0) 推荐(0) 编辑
摘要: 1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别。 分类就是按照数据的属性给对象贴上标签,再根据标签来分类,属于无监督学习,聚类就是指事先定义好类别,然后通过某种度量(比如距离)将他们分类。 简述什么是监督学习与无监督学习。 监督学习:利用一组已知类别的样本调整分类器的参数,使 阅读全文
posted @ 2020-05-13 20:28 曾宇慧 阅读(166) 评论(0) 推荐(0) 编辑