陈松林 - 博客园

2018年12月17日

摘要：一、boston房价预测 1. 读取数据集 2. 训练集与测试集划分 3. 线性回归模型：建立13个变量与房价之间的预测模型，并检测模型好坏。 4. 多项式回归模型：建立13个变量与房价之间的预测模型，并检测模型好坏。 5. 比较线性模型与非线性模型的性能，并说明原因。二、中文文本分类按学号未位阅读全文

posted @ 2018-12-17 11:38 陈松林阅读(221) 评论(0) 推荐(0)

2018年12月10日

回归模型与房价预测

摘要： 1. 导入boston房价数据集 2. 一元线性回归模型，建立一个变量与房价之间的预测模型，并图形化显示。 3. 多元线性回归模型，建立13个变量与房价之间的预测模型，并检测模型好坏，并图形化显示检查结果。 4. 一元多项式回归模型，建立一个变量与房价之间的预测模型，并图形化显示。 3. 4. 阅读全文

posted @ 2018-12-10 11:19 陈松林阅读(134) 评论(0) 推荐(0)

各数据特征与房价的关系

摘要： from sklearn.datasets import load_boston boston = load_boston() print(boston.keys()) data = boston.data x = data[:,5] y = boston.target import matplotlib.pyplot as plt plt.scatter(x,y) plt.plot(x,9... 阅读全文

posted @ 2018-12-10 09:12 陈松林阅读(224) 评论(0) 推荐(0)

2018年12月6日

朴素贝叶斯应用：垃圾邮件分类

摘要： 1. 数据准备：收集数据与读取 2. 数据预处理：处理数据 3. 训练集与测试集：将先验数据按一定比例进行拆分。 4. 提取数据特征，将文本解析为词向量。 5. 训练模型：建立模型，用训练数据训练模型。即根据训练样本集，计算词项出现的概率P(xi|y)，后得到各类下词汇出现概率的向量。 6. 测阅读全文

posted @ 2018-12-06 19:03 陈松林阅读(227) 评论(0) 推荐(0)

2018年12月3日

朴素贝叶斯应用：垃圾邮件分类1

摘要： 1. 数据准备：收集数据与读取 2. 数据预处理：处理数据 3. 训练集与测试集：将先验数据按一定比例进行拆分。 4. 提取数据特征，将文本解析为词向量。 5. 训练模型：建立模型，用训练数据训练模型。即根据训练样本集，计算词项出现的概率P(xi|y)，后得到各类下词汇出现概率的向量。 6. 测阅读全文

posted @ 2018-12-03 11:23 陈松林阅读(150) 评论(0) 推荐(0)

朴素贝叶斯应用：垃圾邮件分类2

摘要： import nltk from nltk.corpus import stopwords from nltk.stem import WordNetLemmatizer import csv import numpy as np from sklearn.model_selection import train_test_split from sklearn.feature_extractio... 阅读全文

posted @ 2018-12-03 11:05 陈松林阅读(262) 评论(0) 推荐(0)

2018年11月26日

sklearn中的朴素贝叶斯模型及其应用

摘要： 1.使用朴素贝叶斯模型对iris数据集进行花分类尝试使用3种不同类型的朴素贝叶斯：高斯分布型多项式型伯努利型 2.使用sklearn.model_selection.cross_val_score()，对模型进行验证. 3.垃圾邮件分类. 阅读全文

posted @ 2018-11-26 11:38 陈松林阅读(477) 评论(0) 推荐(0)

2018年11月19日

分类与监督学习，朴素贝叶斯分类算法

摘要：一. 1.理解分类与监督学习、聚类与无监督学习。简述分类与聚类的联系与区别。简述什么是监督学习与无监督学习。答：监督学习与无监督学习：不仅把训练数据丢给计算机，而且还把分类的结果（数据具有的标签）也一并丢给计算机分析。由于计算机在学习的过程中不仅有训练数据，而且有训练结果（标签），因此训练的阅读全文

posted @ 2018-11-19 11:05 陈松林阅读(461) 评论(0) 推荐(0)

2018年11月12日

K-means算法应用：图片压缩

摘要： 1. 用K-means算做图片压缩读取一张示例图片或自己准备的图片，观察图片存放数据特点。根据图片的分辨率，可适当降低分辨率。再用k均值聚类算法，将图片中所有的颜色值做聚类。然后用聚类中心的颜色代替原来的颜色值。形成新的图片。观察原始图片与新图片所占用内存的大小。将原始图片与新图片保存阅读全文

posted @ 2018-11-12 11:28 陈松林阅读(208) 评论(0) 推荐(0)

2018年10月31日

聚类--K均值算法：自主实现与sklearn.cluster.KMeans调用

摘要： import numpy as np x = np.random.randint(1, 100, [20, 1]) y = np.zeros(20) k = 3 # 选取数据空间中的K个对象作为初始中心，每个对象代表一个聚类中心； def initcenter(x, k): return x[0:k].reshape(k) def nearest(kc, i): ... 阅读全文

posted @ 2018-10-31 21:57 陈松林阅读(174) 评论(0) 推荐(0)

公告