傻傻de

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

12 2018 档案

摘要:朴素贝叶斯(Naive Bayes) 一、简介 首先介绍一下贝叶斯: 贝叶斯(约1702 1761) Thomas Bayes,英国数学家。 约1702年出生于伦敦,做过神甫。1742年成为英国皇家学会会员。1761年4月7日逝世。贝叶斯在数学方面主要研究概率论。 他首先将归纳推理法用于概率论基础理 阅读全文
posted @ 2018-12-27 23:58 傻傻de 阅读(771) 评论(0) 推荐(0)

摘要:一、交叉验证(Cross Validation) 1. 目的 交叉验证的目的是为了让模型评估更加准确可信。 2. 基本思想 基本思想是将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set or test set),首先用训练集 阅读全文
posted @ 2018-12-22 17:41 傻傻de 阅读(6281) 评论(1) 推荐(0)

摘要:混淆矩阵 混淆矩阵(Confusion Matrix)是评估模型结果的指标,属于模型评估的一部分,混淆矩阵如下图所示。 TP(True Positive): 真实为0,预测也为0 FN(False Negative): 真实为0,预测为1 FP(False Positive): 真实为1,预测为0 阅读全文
posted @ 2018-12-22 12:02 傻傻de 阅读(7508) 评论(0) 推荐(0)

摘要:一、简介 1968年,Cover和Hart最早提出了K 近邻算法。 以下引用自百度百科: K最近邻(k Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。 该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的 阅读全文
posted @ 2018-12-18 11:08 傻傻de 阅读(721) 评论(0) 推荐(0)

摘要:一、简介 以下引用自百度百科 Matplotlib 是一个 Python 的 2D绘图库,它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形 。 通过 Matplotlib,开发者可以仅需要几行代码,便可以生成绘图,直方图,功率谱,条形图,错误图,散点图等。 二、流程 1. 明确要研究的问 阅读全文
posted @ 2018-12-13 01:10 傻傻de 阅读(2962) 评论(0) 推荐(0)

摘要:昨天写了一个小爬虫,爬取了豆瓣上2017年中国大陆的电影信息,网址为 "豆瓣选影视" ,爬取了电影的名称、导演、编剧、主演、类型、上映时间、片长、评分和链接,并保存到MongoDB中。 一开始用的本机的IP地址,没用代理IP,请求了十几个网页之后就收不到数据了,报HTTP错误302,然后用浏览器打开 阅读全文
posted @ 2018-12-10 13:00 傻傻de 阅读(3041) 评论(0) 推荐(0)

摘要:昨天使用 写了一个爬虫,爬取 "中国图书网" 上的图书的分类、书名、作者、出版社、出版日期、页数、价格、评分和评论数,数据通过 直接提取出来,下一页和详情页的url也可以通过 提取出来。 程序一开始运行没什么问题,可是运行几分钟之后,就悲剧了!如下图, 直接使用浏览器都进不去网站了。。。 在 中只添 阅读全文
posted @ 2018-12-02 22:03 傻傻de 阅读(250) 评论(0) 推荐(0)