摘要: 一、选题与意义 1.Hadoop平台应用 2.Kaggle分析数据项目 简要说明理由与意义。 选择Kaggle分析数据项目,电脑环境比较差对安装配置又比较不在行,故选择Kaggle上的项目进行分析。 二、实践方案 简要说明理由。 选择了深圳市二手房房价数据进行研究。 数据描述: 深圳二手房房价等相关 阅读全文
posted @ 2020-06-23 21:27 HvYan 阅读(224) 评论(0) 推荐(0) 编辑
摘要: 1.手写数字数据集 from sklearn.datasets import load_digits digits = load_digits() # 1.数据集读入 from sklearn.datasets import load_digits #读入手写数字数据 digits=load_dig 阅读全文
posted @ 2020-06-13 13:44 HvYan 阅读(219) 评论(0) 推荐(0) 编辑
摘要: 1.简述人工智能、机器学习和深度学习三者的联系与区别。 2. 全连接神经网络与卷积神经网络的联系与区别。 3.理解卷积计算。 以digit0为例,进行手工演算。 from sklearn.datasets import load_digits #小数据集8*8 digits = load_digit 阅读全文
posted @ 2020-06-05 18:16 HvYan 阅读(257) 评论(0) 推荐(0) 编辑
摘要: 1、聚类-Kmeans算法应用 观察学习与生活中可以用K均值解决的问题,从数据-模型训练-测试-预测完整地完成一个应用案例。 问题背景:某国产美妆公司试图开拓女大学生市场,苦于无法有效筛选出有效目标用户。根据向目标年龄段发放调查问卷后,获得了一定数据进行分类筛选。(*合计有效数据726条) 数据内容 阅读全文
posted @ 2020-05-25 17:18 HvYan 阅读(229) 评论(0) 推荐(0) 编辑
摘要: 1.数据读取 # ①数据读取 sms=open("./data/SMSSpamCollection",'r',encoding='utf-8') #数据读取 sms_data=[] #字符串列表 sms_label=[] csv_reader=csv.reader(sms,delimiter='\t 阅读全文
posted @ 2020-05-22 17:05 HvYan 阅读(260) 评论(0) 推荐(0) 编辑
摘要: 1. 读邮件数据集文件,提取邮件本身与标签。 列表;numpy数组 2.邮件预处理 ①邮件分句 ②句子分词 ③大小写,标点符号,去掉过短的单词 ④词性还原:复数、时态、比较级 ⑤连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 安装完成,通过下述命令可查看nltk版本: impo 阅读全文
posted @ 2020-05-14 18:57 HvYan 阅读(197) 评论(0) 推荐(0) 编辑
摘要: 1.理解分类与监督学习、聚类与无监督学习。 (1)简述分类与聚类的联系与区别。 ①聚类分析是研究如何在没有训练的条件下把样本划分为若干类。聚类需要解决的问题是将已给定的若干无标记的模式聚集起来使之成为有意义的聚类。 ②分类中,对于目标数据库中存在类别是已经清楚知道的,要做的是把某个对象划分到某个具体 阅读全文
posted @ 2020-05-07 14:31 HvYan 阅读(195) 评论(0) 推荐(0) 编辑
摘要: 一、用自己的话描述出其本身的含义: 1、特征选择 从原来的多组特征里面进行筛选,选择出一些特征来降低特征量。通过特征选择来过滤掉一些冗杂的特征以达到降低数据集维度的目的。 2、PCA(主成分分析) 是一种分析和简化数据集的技术,主要目的是为了将数据维护压缩,尽可能的降低原本数据的复杂。程度,不过会因 阅读全文
posted @ 2020-04-30 16:23 HvYan 阅读(170) 评论(0) 推荐(0) 编辑
摘要: 用过滤法对以下数据进行特征选择: [[0,2,0,3], [0,1,4,3], [0,1,1,3]] 要求: 1、Variance Threshold(threshold =1.0) 2、将结果截图放上来(没有条件的备注说明原因)注意:每个人的电脑ID是不一样的 阅读全文
posted @ 2020-04-28 14:57 HvYan 阅读(127) 评论(0) 推荐(0) 编辑
摘要: 1.逻辑回归是怎么防止过拟合的?为什么正则化可以防止过拟合?(大家用自己的话介绍下) 算法层面: ①L1正则,通过增大正则项导致更多参数为0,参数系数化降低模型复杂度,从而抵抗过拟合。 ②L2正则,通过使得参数都趋于0,变得很小,降低模型的抖动,从而抵抗过拟合。 数据层面: ①增加样本数量 ②通过特 阅读全文
posted @ 2020-04-28 14:38 HvYan 阅读(155) 评论(0) 推荐(0) 编辑