摘要: 1、Python简介:Python在Linux、windows、Mac os等操作系统下都有相应的版本,不管在什么操作系统下,它都能够正常工作。除非使用平台相关功能,或特定平台的程序库,否则可以跨平台使用。python有许多优点,如:简单、易学、免费开源、高层语言、可移植性、解释性、面向对象、可扩展性、可嵌入性、丰富的库。2 安装python Windows之所以使用的这么普遍,是因为在win... 阅读全文
posted @ 2016-03-11 10:22 HUSTLX 阅读(313) 评论(0) 推荐(0) 编辑
摘要: S. S. Keerthi等人在Improvements to Platt’s SMO Algorithm for SVM Classifier Design一文中提出了对SMO算法的改进,纵观SMO算法,其核心是怎么选择每轮优化的两个拉格朗日乘子,标准的SMO算法是通过判断乘子是否违反原问题的KKT条件来选择待优化乘子的,由KKT条件: 是否违反它,与这几个因素相关:拉格朗日乘子 、样... 阅读全文
posted @ 2016-03-11 10:17 HUSTLX 阅读(502) 评论(0) 推荐(0) 编辑
摘要: 这种方法假设样本点在光滑的流形上,这一方法的计算数据的低维表达,局部近邻信息被最优的保存。以这种方式,可以得到一个能反映流形的几何结构的解。 步骤一:构建一个图G=(V,E),其中V={vi,i=1,2,3…n}是顶点的集合,E={eij}是连接顶点的vi和vj边,图的每一个节点vi与样本集X中的一个点xi相关。如果xi,xj相距较近,我们就连接vi,vj。也就是说在各自节点插入一个边eij,如果... 阅读全文
posted @ 2016-03-11 10:13 HUSTLX 阅读(1369) 评论(0) 推荐(0) 编辑
摘要: 1.1算法流程 假设有m个samples,每个数据有n维。 1. 计算各个feature的平均值,计μj ;(Xj(i)表示第i个样本的第j维特征的value) μj = Σm Xj(i)/m meanVals = mean(dataMat, axis=0) 2. 将每一个feature scaling:将在不同scale上的feature进行归一化; 3. 将特征进行mean normal... 阅读全文
posted @ 2016-03-11 09:30 HUSTLX 阅读(681) 评论(0) 推荐(0) 编辑
摘要: 剪枝 由于悲观错误剪枝 PEP (Pessimistic Error Pruning)、代价-复杂度剪枝 CCP (Cost-Complexity Pruning)、基于错误剪枝 EBP (Error-Based Pruning)、最小错误剪枝 MEP (Minimum Error Pruning)都是用于分类模型,故我们用降低错误剪枝 REP ( Reduced Error Pruning)方法... 阅读全文
posted @ 2016-03-11 09:23 HUSTLX 阅读(1397) 评论(0) 推荐(0) 编辑
摘要: 贝叶斯定理 设是类标号未知的数据样本,为某种假设,数据样本 属于某特定的类 C ,对于该分类问题,期望确定,即给定观测数据样本,假定成立的概率,称为后验概率,或称条件下的后验概率。分类就是要确定。 例如,假定数据样本集由顾客组成,用他们的年龄和收入情况进行分类。假定表示顾客的年龄在31岁到40之间并且中等收入,表示顾客将购买电脑,则反映的是观察到顾客的年龄在31岁到40之间并且中等收入时,将购买电... 阅读全文
posted @ 2016-03-10 22:12 HUSTLX 阅读(1216) 评论(0) 推荐(0) 编辑
摘要: 1.概述 数据挖掘是从大量的,不完全的,有噪声的,模糊的,随即的数据中,提取隐含在其中的,人们事先不知道的,但有潜在的有用信息和知识的过程。数据挖掘过程一般包括数据采集,数据预处理,数据挖掘以及知识评价和呈现。在一个完整的数据挖掘过程中,数据预处理要花费60%左右的时间,而后的挖掘工作仅仅占工工作量的10%左右。目前对挖掘的研究主要集中于挖掘技术,挖掘算法,挖掘语言等在海量的原始数据中,存在这... 阅读全文
posted @ 2016-03-10 20:21 HUSTLX 阅读(6897) 评论(0) 推荐(0) 编辑
摘要: 1.BP神经网络训练过程论述 BP网络结构有3层:输入层、隐含层、输出层,如图1所示。 图1 三层BP网络结构 3层BP神经网络学习训练过程主要由4部分组成:输入模式顺传播(输入模式由输入层经隐含层向输出层传播计算)、输出误差逆传播(输出的误差由输出层经隐含层传向输入层)、循环记忆训练(模式顺序传播与误差逆传播的计算过程反复交替循环进行)和学习结果判别(判定全局误差是否趋向极小值)。... 阅读全文
posted @ 2016-03-10 20:11 HUSTLX 阅读(4448) 评论(3) 推荐(2) 编辑
摘要: 聚类算法 李鑫 2014210820 电子系 1、kmeans算法 1.1Kmeans算法理论基础 K均值算法能够使聚类域中所有样品到聚类中心距离平方和最小。其原理为:先取k个初始聚类中心,计算每个样品到这k个中心的距离,找出最小距离,把样品归入最近的聚类中心,修改中心点的值为本类所有样品的均值,再计算各个样品到新的聚类中心的距离,重新归类,修改新的中心点,直到新的聚类中心和上一... 阅读全文
posted @ 2016-03-10 19:35 HUSTLX 阅读(3475) 评论(0) 推荐(0) 编辑
摘要: 1.在C++ 程序中调用被C 编译器编译后的函数,为什么要加extern “C”?答:首先,extern是C/C++语言中表明函数和全局变量作用范围的关键字,该关键字告诉编译器,其声明的函数和变量可以在本模块或其它模块中使用。通常,在模块的头文件中对本模块提供给其它模块引用的函数和全局变量以关键字extern声明。extern "C"是连接申明(linkage declaration),被exte... 阅读全文
posted @ 2016-03-09 18:53 HUSTLX 阅读(309) 评论(0) 推荐(0) 编辑