05 2020 档案

13-垃圾邮件分类2
摘要:1.读取 2.数据预处理 3.数据划分—训练集和测试集数据划分 from sklearn.model_selection import train_test_split x_train,x_test, y_train, y_test = train_test_split(data, target, 阅读全文

posted @ 2020-05-27 21:04 红庙坡破 阅读(95) 评论(0) 推荐(0)

12.朴素贝叶斯-垃圾邮件分类
摘要:1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 2.邮件预处理 邮件分句 名子分词 去掉过短的单词 词性还原 连接成字符串 传统方法来实现 nltk库的安装与使用 pip install nltk import nltk nltk.download() # sever地址改成 h 阅读全文

posted @ 2020-05-20 18:51 红庙坡破 阅读(112) 评论(0) 推荐(0)

11.分类与监督学习,朴素贝叶斯分类算法
摘要:1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别。 答:区别:分类是事先定义好类别 ,类别数不变 。分类器需要由人工标注的分类训练语料训练得到,属于有指导学习范畴; 聚类没有事先预定的类别,类别数不确定。 聚类不需要人工标注和预先训练分类器,类别在聚类过程中自动生成 。 联系: 阅读全文

posted @ 2020-05-13 13:01 红庙坡破 阅读(142) 评论(0) 推荐(0)

导航