摘要:朴素贝叶斯分类 原理 贝叶斯最基本的思想就是条件概率公式+条件独立假设+贝叶斯估计。 因为条件假设是一个较强的假设,因此称作朴素贝叶斯法。 它的思想有点类似于奥卡姆剃刀原理,举个例子,当前眼前走过一个黑人的时候,为你他是那里人,你第一眼想到的是他是个非洲人。因为非洲人普遍皮肤黑。 贝叶斯分类思想与此
阅读全文
摘要:为什么要改进成C4.5算法 原理 C4.5算法是在ID3算法上的一种改进,它与ID3算法最大的区别就是特征选择上有所不同,一个是基于信息增益比,一个是基于信息增益。 之所以这样做是因为信息增益倾向于选择取值比较多的特征(特征越多,条件熵(特征划分后的类别变量的熵)越小,信息增益就越大);因此在信息增
阅读全文
摘要:主要思想: 0、训练集格式:特征1,特征2,...特征n,类别 1、采用Python自带的数据结构字典递归的表示数据 2、ID3计算的信息增益是指类别的信息增益,因此每次都是计算类别的熵 3、ID3每次选择最优特征进行数据划分后都会消耗特征 4、当特征消耗到一定程度,可能会出现数据实例一样,但是类别
阅读全文
摘要:决策树模型 优点:高效简单、易于理解,可以处理不相关特征。 缺点:容易过拟合,训练集在特征上是完备的 决策树过程:特征选择、划分数据集、构建决策树、决策树剪枝 决策树选择最优的划分特征,将数据集按照最优划分特征的取值划分成不同的子集,然后依次对子集重复上述步骤,指导子集中数据都归属于同一个类别,或者
阅读全文
摘要:1、trees = {'no surfacing': { 0: 'no', 1: {'flippers': {0: 'no', 1: 'yes'}}}} 2、从我的文件trees.txt里读的决策树,也是一个递归字典表示 ps:参考博客[http://blog.csdn.net/ifruoxi/ar
阅读全文
摘要:按理说运行下面一句就可以安装了 但是对于我的redhat7.2+python2.7.5,报了下面的错误 _posixsubprocess.c:3:20: 致命错误:Python.h:没有那个文件或目录 于是需要先安装python-devel
阅读全文
摘要:今天做了一件非常开心的事,事情是这样的。 上午去玉泉路听完老师学长们的科研分享会,回到所里发现衣服胳膊肘地方开了两个大缝,特别生气。这个衣服是新买的,穿了不到两次,没想到质量这么差;一想到又要去跟老板交涉,心就好累。 吃晚饭时候跟碧爷去店里找老板,来的路上,我还跟碧爷商量怎么跟老板交涉,我们以为换估
阅读全文
摘要:评价分类模型的性能时需要用到以下四个指标 最开始使用以下代码计算,发现代码需要跑近一个小时,而且这一个小时都花在这四行代码上 心想着理论上可以只扫描一遍数据就可以计算出这四个指标。 一开始在foreach函数中传递一个自定义评估函数,这个函数来统计上面四个指标,然后在函数里再使用全局变量TP,TN等
阅读全文
摘要:前面说过pscp不支持多线程,所以在此特地实现了一个 程序分三个部分: 1、初始化各种参数,涉及getopt函数的使用 2、重新定义scp,实现传递IP然后远程拷贝 3、启动多线程调用scp,涉及多线程的启动和等待线程结束 测试结果: ps:对于读取带选项参数和Python多线程参考了以下两篇博客
阅读全文
摘要:首先说明一下pip在线安装程序会发生什么 例如: 运行pip install numpy 1、pip会先下载与自己机器匹配的wheel安装包 我的是numpy-1.12.1-cp27-cp27mu-manylinux1_x86_64.whl 2、pip会运行如下命令来安装wheel安装包 pip i
阅读全文