05 2020 档案
摘要:1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 句子分词 大小写,标点符号,去掉过短的单词 词性还原:复数、时态、比较级 连接成字符串 2.1 传统方法来实现 2.2 nltk库的安装与使用 pip install nltk import nltk nl
阅读全文
摘要:1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别。 分类就是按照数据的属性给对象贴上标签,再根据标签来分类,属于无监督学习,聚类就是指事先定义好类别,然后通过某种度量(比如距离)将他们分类。 简述什么是监督学习与无监督学习。 监督学习:利用一组已知类别的样本调整分类器的参数,使
阅读全文
摘要:一、用自己的话描述出其本身的含义: 1、特征选择 特征选取是从包含多个特征的数据集中挑选出几个特征作为实际使用的数据集,将高维空间的样本通过映射或者是变换的方式转换到低维空间,达到降维的目的,然后通过特征选取删选掉冗余和不相关的特征来进一步降维。用于训练模型。没有改变特征的形式。 2、PCA 主成分
阅读全文

浙公网安备 33010602011771号