05 2020 档案

摘要:1.读取 # 读取数据集 def read_dataset(): file_path =r'C:\Users\Administrator\PycharmProjects\机器学习\data\SMSSpamCollection.csv' sms = open(file_path, encoding=' 阅读全文
posted @ 2020-05-24 16:25 爱飞的大白鲨 阅读(982) 评论(0) 推荐(0)
摘要:1. 读邮件数据集文件,提取邮件本身与标签。 列表 numpy数组 运行结果如下: 2.邮件预处理 邮件分句 名子分词 去掉过短的单词 词性还原 连接成字符串 传统方法来实现 nltk库的安装与使用 pip install nltk import nltk nltk.download() # sev 阅读全文
posted @ 2020-05-17 17:37 爱飞的大白鲨 阅读(812) 评论(0) 推荐(0)
摘要:1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别。 ①分类:为了确定一个点的类别,具体有哪些类别是已知的,常用的算法是KNN,是一种有监督学习。 ②聚类:将一系列点分成若干类,事先是没有类别的,常用算法是K-Mean算法,是一种无监督学习。 ③分类与聚类也有共同点,对于想要分析 阅读全文
posted @ 2020-05-09 16:54 爱飞的大白鲨 阅读(306) 评论(0) 推荐(0)