02 2018 档案

摘要:此文旨在把trainNB0这个函数详细讲清楚。 下面所做的工作都是为了求下面这个贝叶斯概率,也叫条件概率: 为了计算方便,书中的操作实际上是把这个式子转化为了下式: 概率P(ci)就是通过类别i(侮辱性留言或非侮辱性留言)中文档数除以总的文档数来得到的,也就是最后得到的计算结果0.5。 这里有一个重 阅读全文
posted @ 2018-02-25 17:11 火军刀 阅读(573) 评论(0) 推荐(0)
摘要:这一节中关于概率分布的描述,省略了一些语句,所以有点看不明白,经过反复推敲琢磨分析以后,把这些省略的文字补足,这样就能看懂了。【】中为补充的文字。 文中的“需要”的意思是“需要足够的数据样本来得到好的概率分布” 假设词汇表中有1000个单词。要得到好的概率分布,就需要足够的数据样本,假定样本数为N, 阅读全文
posted @ 2018-02-23 02:16 火军刀 阅读(282) 评论(0) 推荐(0)
摘要:这个plotTree函数,比较聪明,比较简化,比较抽象,作者一定是逐步优化和简化到这个程度的。我是花了小两天时间,断断续续看明白的,还是在参考了另一篇文章以后。这里是链接http://www.cnblogs.com/fantasy01/p/4595902.html。现在尝试讲明白。 总体思想是,找出 阅读全文
posted @ 2018-02-09 01:56 火军刀 阅读(1695) 评论(0) 推荐(0)
摘要:matplotlib.pyplot是一个命令行风格的函数集合,使matplotlib像MATLAB一样工作。每个pyplot 函数会对图形窗口(figure)做一些改变,例如:创建一个图形窗口、在图形窗口上创建一个绘图区(plotting area)、在绘图区上画一些线条、在线条上标注说明文字等等。 阅读全文
posted @ 2018-02-06 23:57 火军刀 阅读(621) 评论(0) 推荐(0)
摘要:有点乱,等我彻底想明白时再来整理清楚。 阅读全文
posted @ 2018-02-05 00:30 火军刀 阅读(807) 评论(0) 推荐(0)
摘要:作为一个从业近二十年的人,如果说今天刚刚访问了图灵社区,是不是有点晚了? 阅读全文
posted @ 2018-02-04 20:21 火军刀 阅读(270) 评论(0) 推荐(0)
摘要:方式一: 复制以下代码建立一个reg文件,替换相关路径,保存,双击运行加入注册表 Windows Registry Editor Version 5.00 [HKEY_CLASSES_ROOT\*\shell\Notepad++]@="使用Notepad++打开""Icon"="C:\\Progra 阅读全文
posted @ 2018-02-03 20:21 火军刀 阅读(440) 评论(0) 推荐(0)
摘要:splitDataSet这个函数困扰了我好一阵子,为什么以某一特征值为标准进行划分数据集以后,变成了局部?例如,如果以第1个特征为0为标准进行划分,那么返回的结果集就是不含有此特征的结果集,如下图红框部分所示: 代码表示为:[[1, 'no'], [1, 'no']] 同理,如果以第1个特征为1作为 阅读全文
posted @ 2018-02-02 20:45 火军刀 阅读(971) 评论(0) 推荐(0)
摘要:以下输出结果是每个样本的类别都不同时的输出结果: 样本总数:8当前labelCounts状态:{'1': 1}当前labelCounts状态:{'1': 1, '2': 1}当前labelCounts状态:{'1': 1, '2': 1, '3': 1}当前labelCounts状态:{'1': 1 阅读全文
posted @ 2018-02-01 19:31 火军刀 阅读(2252) 评论(0) 推荐(0)