2018 年 12月 3 日随笔档案 - 陈松林

2018年12月3日

摘要： 1. 数据准备：收集数据与读取 2. 数据预处理：处理数据 3. 训练集与测试集：将先验数据按一定比例进行拆分。 4. 提取数据特征，将文本解析为词向量。 5. 训练模型：建立模型，用训练数据训练模型。即根据训练样本集，计算词项出现的概率P(xi|y)，后得到各类下词汇出现概率的向量。 6. 测阅读全文

posted @ 2018-12-03 11:23 陈松林阅读(144) 评论(0) 推荐(0)

朴素贝叶斯应用：垃圾邮件分类2

摘要： import nltk from nltk.corpus import stopwords from nltk.stem import WordNetLemmatizer import csv import numpy as np from sklearn.model_selection import train_test_split from sklearn.feature_extractio... 阅读全文

posted @ 2018-12-03 11:05 陈松林阅读(260) 评论(0) 推荐(0)

公告