摘要:
1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 nltk库分词 nltk.sent_tokenize(text) #对文本按照句子进行分割 nltk.word 阅读全文
posted @ 2020-06-09 17:18
广宇小陈
阅读(125)
评论(0)
推荐(0)
摘要:
1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别。 分类就是按照数据的属性给对象贴上标签,再根据标签来分类,属于无监督学习,聚类就是指事先定义好类别,然后通过某种度量(比如距离)将他们分类。 简述什么是监督学习与无监督学习。 有监督学习:通过已有的训练样本去训练得到一个最优模型 阅读全文
posted @ 2020-06-09 15:09
广宇小陈
阅读(133)
评论(0)
推荐(0)
摘要:
用过滤法对以下数据进行特征选择: [[0,2,0,3], [0,1,4,3], [0,1,1,3]] 要求: 1、Variance Threshold(threshold =1.0) 2、将结果截图放上来(没有条件的备注说明原因)注意:每个人的电脑ID是不一样的 阅读全文
posted @ 2020-06-09 11:27
广宇小陈
阅读(76)
评论(0)
推荐(0)
摘要:
1.逻辑回归是怎么防止过拟合的?为什么正则化可以防止过拟合?(大家用自己的话介绍下) (1)逻辑回归是怎么防止过拟合的? 利用正则化来防止过拟合。正则化可以有更小的权值w,从某种意义上说,表示网络的复杂度更低,对数据的拟合刚刚好 (2)为什么正则化可以防止过拟合? 过拟合的时候,拟合函数的系数往往非 阅读全文
posted @ 2020-06-09 10:48
广宇小陈
阅读(71)
评论(0)
推荐(0)
摘要:
1.用自己的话描述一下,什么是逻辑回归,与线性回归对比,有什么不同? 逻辑回归是一种用于解决二分类问题的机器学习方法;简单来说,就是用于估计某种事物发生的可能性,例如:今天是晴天的可能性,用户购买某商品的可能性。 逻辑回归和线性回归都是一种广义的线性回归模型,逻辑回归与线性回归有很多相同之处,去除S 阅读全文
posted @ 2020-06-09 09:31
广宇小陈
阅读(64)
评论(0)
推荐(0)
浙公网安备 33010602011771号