2018年12月22日

期末大作业

摘要: 一、boston房价预测 线性模型可以是用曲线拟合样本,但是分类的决策边界一定是直线的。多项式模型是曲线形式,比线性回归模型更加贴近样本点分布的范围,误差值更小。 二、中文文本分类 阅读全文

posted @ 2018-12-22 16:11 zz,ZZ 阅读(127) 评论(0) 推荐(0) 编辑

2018年12月14日

回归模型与房价预测

摘要: 1. 导入boston房价数据集 2. 一元线性回归模型,建立一个变量与房价之间的预测模型,并图形化显示。 3. 多元线性回归模型,建立13个变量与房价之间的预测模型,并检测模型好坏,并图形化显示检查结果。 4. 一元多项式回归模型,建立一个变量与房价之间的预测模型,并图形化显示。 阅读全文

posted @ 2018-12-14 22:36 zz,ZZ 阅读(158) 评论(0) 推荐(0) 编辑

2018年12月6日

朴素贝叶斯应用:垃圾邮件分类

摘要: 1. 数据准备:收集数据与读取 2. 数据预处理:处理数据 3. 训练集与测试集:将先验数据按一定比例进行拆分。 4. 提取数据特征,将文本解析为词向量 。 5. 训练模型:建立模型,用训练数据训练模型。即根据训练样本集,计算词项出现的概率P(xi|y),后得到各类下词汇出现概率的向量 。 6. 测 阅读全文

posted @ 2018-12-06 17:57 zz,ZZ 阅读(127) 评论(0) 推荐(0) 编辑

2018年11月26日

sklearn中的朴素贝叶斯模型及其应用

摘要: 1.使用朴素贝叶斯模型对iris数据集进行花分类 尝试使用3种不同类型的朴素贝叶斯: 高斯分布型 多项式型 伯努利型 2.使用sklearn.model_selection.cross_val_score(),对模型进行验证。 3. 垃圾邮件分类 数据准备: 用csv读取邮件数据,分解出邮件类别及邮 阅读全文

posted @ 2018-11-26 11:31 zz,ZZ 阅读(127) 评论(0) 推荐(0) 编辑

2018年11月22日

分类与监督学习,朴素贝叶斯分类算法

摘要: 1、 简述分类与聚类的联系与区别。 简述什么是监督学习与无监督学习。 分类与聚类:分类是一种有监督的算法,是在已经有目标分类的情况下对数据进行类别判断(朴素贝叶斯算法)。而聚类是一种无监督算法,是在建立模型之前还没有目标分类,将特征相似的数据自动聚为一类的算法(KMeans聚类算法)。 有监督学习和 阅读全文

posted @ 2018-11-22 12:01 zz,ZZ 阅读(283) 评论(0) 推荐(0) 编辑

2018年11月15日

K-means算法应用:图片压缩

摘要: from sklearn.datasets import load_sample_image import matplotlib.pyplot as plt from sklearn.cluster import KMeans import numpy as np flower=load_sample_image('flower.jpg')#原始图片 plt.imshow(flower) pl... 阅读全文

posted @ 2018-11-15 14:42 zz,ZZ 阅读(130) 评论(0) 推荐(0) 编辑

2018年11月12日

聚类--K均值算法:自主实现与sklearn.cluster.KMeans调用

摘要: 1)选取初始数据中的k个对象作为初始的中心,每个对象代表一个聚类中心: #随机生成一组整数sample import numpy as np sample=np.random.randint(1,100,[50,1]) k=3#要分成的类别数 y=np.zeros(50) #定义一个函数来存放开始的聚类中心kc def start_center(sample,k): return ... 阅读全文

posted @ 2018-11-12 10:41 zz,ZZ 阅读(270) 评论(0) 推荐(0) 编辑

2018年11月5日

numpy数据集练习

摘要: #安装scipy,numpy,sklearn包 import numpy from sklearn.datasets import load_iris #从sklearn包自带的数据集中读出鸢尾花数据集data data = load_iris() #查看data类型,包含哪些数据 print('数据类型是:',type(data)) print('包含的数据有:',data.keys())... 阅读全文

posted @ 2018-11-05 08:33 zz,ZZ 阅读(111) 评论(0) 推荐(0) 编辑

2018年10月23日

numpy数组及处理:效率对比

摘要: 一、处理日期时间 取系统时间 转换成‘2017年9月30日星期六10时28分56秒’格式字符串 ’2018-10-25 22:00‘转换成一个日期时间变量 计算两者的间隔 二、问题: 数列: a = a1,a2,a3,·····,an b = b1,b2,b3,·····,bn 求: c = a12 阅读全文

posted @ 2018-10-23 13:20 zz,ZZ 阅读(131) 评论(0) 推荐(0) 编辑

2018年10月15日

阶段作业1:完整的中英文词频统计

摘要: 1.英文小说 词频统计 2.中文小说 词频统计 阅读全文

posted @ 2018-10-15 11:35 zz,ZZ 阅读(145) 评论(0) 推荐(0) 编辑

导航