摘要: 一、选题与意义 Hadoop平台应用 简要说明理由与意义。 还要在十天左右做一个项目出来,只能选择hadoop了。 二、实践方案 简要说明理由。 步骤零:实验环境准备 所需知识储备 Windows操作系统、Linux操作系统、大数据处理架构Hadoop的关键技术及其基本原理、列族数据库HBase概念 阅读全文
posted @ 2020-06-23 21:18 俞英杰 阅读(157) 评论(0) 推荐(0) 编辑
摘要: 4.K均值算法--应用 https://www.cnblogs.com/yuyuyuyuyuyuyuyuuyuyuyuyuyuyuy/p/13126683.html 忘记交了 1.手写数字数据集 from sklearn.datasets import load_digits digits = lo 阅读全文
posted @ 2020-06-14 20:16 俞英杰 阅读(141) 评论(0) 推荐(0) 编辑
摘要: 1. 应用K-means算法进行图片压缩 读取一张图片 观察图片文件大小,占内存大小,图片数据结构,线性化 用kmeans对图片像素颜色进行聚类 获取每个像素的颜色类别,每个类别的颜色 压缩图片生成:以聚类中收替代原像素颜色,还原为二维 观察压缩图片的文件大小,占内存大小 2. 观察学习与生活中可以 阅读全文
posted @ 2020-06-14 20:06 俞英杰 阅读(79) 评论(0) 推荐(0) 编辑
摘要: 1.简述人工智能、机器学习和深度学习三者的联系与区别。 深度学习是基于人工神经网络发展而成的概念,是机器学习的子集。人工神经网络是对人脑神经元网络的抽象,也是早期机器学习中的一种算法,其主要应用于图像识别、语音识别、自然语言处理等领域。 人工智能包含了机器学习,机器学习包含了深度学习,其中人工智能出 阅读全文
posted @ 2020-06-04 11:04 俞英杰 阅读(137) 评论(0) 推荐(0) 编辑
摘要: 1.读取 2.数据预处理 3.数据划分—训练集和测试集数据划分 from sklearn.model_selection import train_test_split x_train,x_test, y_train, y_test = train_test_split(data, target, 阅读全文
posted @ 2020-05-23 21:43 俞英杰 阅读(120) 评论(0) 推荐(0) 编辑
摘要: 1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl 阅读全文
posted @ 2020-05-17 19:55 俞英杰 阅读(97) 评论(0) 推荐(0) 编辑
摘要: 1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别。 答:分类指监督学习,就是按照某种标准给对象贴标签,再根据标签来区分归类。聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因的过程。指无监督学习。 区别是,分类是事先定义好类别 ,聚类则没有事先预定的类别。 2 阅读全文
posted @ 2020-05-13 21:20 俞英杰 阅读(144) 评论(0) 推荐(0) 编辑
摘要: 一、用自己的话描述出其本身的含义: 1、特征选择 通过特征选取删选掉冗余和不相关的特征来进一步降维。 2、PCA 将n维特征映射到k维上(k<n),这k维是全新的正交特征。这k维特征称为主元,是重新构造出来的k维特征,而不是简单地从n维特征中去除其余n-k维特征。 二、并用自己的话阐述出两者的主要区 阅读全文
posted @ 2020-05-03 21:47 俞英杰 阅读(98) 评论(0) 推荐(0) 编辑
摘要: 用过滤法对以下数据进行特征选择: [[0,2,0,3], [0,1,4,3], [0,1,1,3]] 要求: 1、Variance Threshold(threshold =1.0) 2、将结果截图放上来(没有条件的备注说明原因)注意:每个人的电脑ID是不一样 阅读全文
posted @ 2020-04-29 22:16 俞英杰 阅读(138) 评论(0) 推荐(0) 编辑
摘要: 1.逻辑回归是怎么防止过拟合的?为什么正则化可以防止过拟合?(大家用自己的话介绍下) 逻辑回归在算法层面是通过正则化来防止过拟合的,,就是拟合函数需要顾忌每一个点,最终形成的拟合函数波动很大。简单来说就是正则化是通过约束参数的范数使其不要太大,所以可以在一定程度上减少过拟合情况。 2.用logift 阅读全文
posted @ 2020-04-29 21:49 俞英杰 阅读(127) 评论(0) 推荐(0) 编辑