摘要: 一、boston房价预测 1. 读取数据集 2. 训练集与测试集划分 3. 线性回归模型:建立13个变量与房价之间的预测模型,并检测模型好坏。 4. 多项式回归模型:建立13个变量与房价之间的预测模型,并检测模型好坏。 5. 比较线性模型与非线性模型的性能,并说明原因。 二、中文文本分类 按学号未位 阅读全文
posted @ 2018-12-17 11:38 陈松林 阅读(211) 评论(0) 推荐(0) 编辑
摘要: 1. 导入boston房价数据集 2. 一元线性回归模型,建立一个变量与房价之间的预测模型,并图形化显示。 3. 多元线性回归模型,建立13个变量与房价之间的预测模型,并检测模型好坏,并图形化显示检查结果。 4. 一元多项式回归模型,建立一个变量与房价之间的预测模型,并图形化显示。 3. 4. 阅读全文
posted @ 2018-12-10 11:19 陈松林 阅读(120) 评论(0) 推荐(0) 编辑
摘要: from sklearn.datasets import load_boston boston = load_boston() print(boston.keys()) data = boston.data x = data[:,5] y = boston.target import matplotlib.pyplot as plt plt.scatter(x,y) plt.plot(x,9... 阅读全文
posted @ 2018-12-10 09:12 陈松林 阅读(197) 评论(0) 推荐(0) 编辑
摘要: 1. 数据准备:收集数据与读取 2. 数据预处理:处理数据 3. 训练集与测试集:将先验数据按一定比例进行拆分。 4. 提取数据特征,将文本解析为词向量 。 5. 训练模型:建立模型,用训练数据训练模型。即根据训练样本集,计算词项出现的概率P(xi|y),后得到各类下词汇出现概率的向量 。 6. 测 阅读全文
posted @ 2018-12-06 19:03 陈松林 阅读(198) 评论(0) 推荐(0) 编辑
摘要: 1. 数据准备:收集数据与读取 2. 数据预处理:处理数据 3. 训练集与测试集:将先验数据按一定比例进行拆分。 4. 提取数据特征,将文本解析为词向量 。 5. 训练模型:建立模型,用训练数据训练模型。即根据训练样本集,计算词项出现的概率P(xi|y),后得到各类下词汇出现概率的向量 。 6. 测 阅读全文
posted @ 2018-12-03 11:23 陈松林 阅读(141) 评论(0) 推荐(0) 编辑
摘要: import nltk from nltk.corpus import stopwords from nltk.stem import WordNetLemmatizer import csv import numpy as np from sklearn.model_selection import train_test_split from sklearn.feature_extractio... 阅读全文
posted @ 2018-12-03 11:05 陈松林 阅读(254) 评论(0) 推荐(0) 编辑
摘要: 1.使用朴素贝叶斯模型对iris数据集进行花分类 尝试使用3种不同类型的朴素贝叶斯: 高斯分布型 多项式型 伯努利型 2.使用sklearn.model_selection.cross_val_score(),对模型进行验证. 3.垃圾邮件分类. 阅读全文
posted @ 2018-11-26 11:38 陈松林 阅读(468) 评论(0) 推荐(0) 编辑
摘要: 一. 1.理解分类与监督学习、聚类与无监督学习。 简述分类与聚类的联系与区别。 简述什么是监督学习与无监督学习。 答:监督学习与无监督学习:不仅把训练数据丢给计算机,而且还把分类的结果(数据具有的标签)也一并丢给计算机分析。 由于计算机在学习的过程中不仅有训练数据,而且有训练结果(标签),因此训练的 阅读全文
posted @ 2018-11-19 11:05 陈松林 阅读(430) 评论(0) 推荐(0) 编辑
摘要: 1. 用K-means算做图片压缩 读取一张示例图片或自己准备的图片,观察图片存放数据特点。 根据图片的分辨率,可适当降低分辨率。 再用k均值聚类算法,将图片中所有的颜色值做聚类。 然后用聚类中心的颜色代替原来的颜色值。 形成新的图片。 观察原始图片与新图片所占用内存的大小。 将原始图片与新图片保存 阅读全文
posted @ 2018-11-12 11:28 陈松林 阅读(184) 评论(0) 推荐(0) 编辑
摘要: import numpy as np x = np.random.randint(1, 100, [20, 1]) y = np.zeros(20) k = 3 # 选取数据空间中的K个对象作为初始中心,每个对象代表一个聚类中心; def initcenter(x, k): return x[0:k].reshape(k) def nearest(kc, i): ... 阅读全文
posted @ 2018-10-31 21:57 陈松林 阅读(161) 评论(0) 推荐(0) 编辑