广商吴彦祖 - 博客园

大数据应用技术课程实践--选题与实践方案

2020-06-23 20:07 by 广商吴彦祖, 133 阅读, 0 推荐, 收藏, 编辑

摘要：一、选题与意义 1.Hadoop平台应用 2.Kaggle分析数据项目简要说明理由与意义。选题： Hadoop 平台应用网站用户购物行为分析官网：http://dblab.xmu.edu.cn/post/7499/ 理由：感兴趣意义：可以对用户购物行为进行分析二、实践方案个人电脑安装实阅读全文

0 Comment

15 手写数字识别-小数据集

2020-06-14 18:20 by 广商吴彦祖, 115 阅读, 0 推荐, 收藏, 编辑

摘要：1.手写数字数据集 from sklearn.datasets import load_digits digits = load_digits() 2.图片数据预处理 x：归一化MinMaxScaler() y：独热编码OneHotEncoder()或to_categorical 训练集测试集划分阅读全文

0 Comment

14 深度学习-卷积

2020-06-07 19:01 by 广商吴彦祖, 138 阅读, 0 推荐, 收藏, 编辑

摘要：1.简述人工智能、机器学习和深度学习三者的联系与区别。要解释这三者之间的关系和应用，最简单的方法就是画一个同心圆，人工智能是最早出现的，也是最大、最外侧的同心圆；其次是机器学习，稍晚一点；最内侧，是深度学习，也是当今人工智能大爆炸的核心驱动。人工智能（Artificial Intelligenc 阅读全文

0 Comment

13-垃圾邮件分类2

2020-05-23 20:56 by 广商吴彦祖, 90 阅读, 0 推荐, 收藏, 编辑

摘要：1.读取 2.数据预处理 3.数据划分—训练集和测试集数据划分 from sklearn.model_selection import train_test_split x_train,x_test, y_train, y_test = train_test_split(data, target, 阅读全文

0 Comment

11.分类与监督学习，朴素贝叶斯分类算法

2020-05-13 21:22 by 广商吴彦祖, 143 阅读, 0 推荐, 收藏, 编辑

摘要：1.理解分类与监督学习、聚类与无监督学习。简述分类与聚类的联系与区别。分类就是按照数据的属性给对象贴上标签，再根据标签来分类，属于无监督学习，聚类就是指事先定义好类别，然后通过某种度量（比如距离）将他们分类。监督学习：利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，也称为监督阅读全文

0 Comment

9、主成分分析

2020-05-04 09:24 by 广商吴彦祖, 133 阅读, 0 推荐, 收藏, 编辑

摘要：一、用自己的话描述出其本身的含义： 1、特征选择特征选取是从包含多个特征的数据集中挑选出几个特征作为实际使用的数据集，将高维空间的样本通过映射或者是变换的方式转换到低维空间，达到降维的目的，然后通过特征选取删选掉冗余和不相关的特征来进一步降维。用于训练模型。没有改变特征的形式。 2、PCA PCA 阅读全文

0 Comment

7.逻辑回归实践

2020-04-29 21:31 by 广商吴彦祖, 119 阅读, 0 推荐, 收藏, 编辑

摘要：1.逻辑回归是怎么防止过拟合的？为什么正则化可以防止过拟合？（大家用自己的话介绍下）逻辑回归是怎么防止过拟合的？ (1)增加样本量，这是万能的方法，适用任何模型。 (2) 如果数据稀疏，使用L1正则，其他情况，用L2要好，可自己尝试。 (3) 通过特征选择，剔除一些不重要的特征，从而降低模型复杂度阅读全文

0 Comment

6.逻辑回归

2020-04-26 11:37 by 广商吴彦祖, 186 阅读, 0 推荐, 收藏, 编辑

摘要：1.用自己的话描述一下，什么是逻辑回归，与线性回归对比，有什么不同？逻辑回归又称logistic回归分析，是一种广义的线性回归分析模型，常用于数据挖掘，疾病自动诊断，经济预测等领域。线性回归要求因变量必须是连续性数据变量；逻辑回归要求因变量必须是分类变量，二分类或者多分类的 2.自述一下什么是过阅读全文

0 Comment

5.线性回归算法

2020-04-22 21:14 by 广商吴彦祖, 265 阅读, 0 推荐, 收藏, 编辑

摘要：1.本节重点知识点用自己的话总结出来，可以配上图片，以及说明该知识点的重要性机器学习可以理解成是生产算法的算法。需要人来先做特征提取，然后在把特征向量化后交给机器去训练。传统机器学习分为监督学习和无监督学习。回归和分类的区别不在于连续与否而在于损失函数的形式不同回归用于预测输入变量和输出阅读全文

0 Comment

3.K均值算法

2020-04-16 21:59 by 广商吴彦祖, 225 阅读, 0 推荐, 收藏, 编辑

摘要：1）. 扑克牌手动演练k均值聚类过程：>30张牌，3类 2）. *自主编写K-means算法，以鸢尾花花瓣长度数据做聚类，并用散点图显示。（加分题） 3）. 用sklearn.cluster.KMeans，鸢尾花花瓣长度数据做聚类，并用散点图显示. 4）. 鸢尾花完整数据做聚类并用散点图显示. 5 阅读全文

0 Comment

About