Siucaan - 博客园

摘要： 1.SVM的基本思想间隔最大化来得到最优分离超平面。方法是将这个问题形式化为一个凸二次规划问题，还可以等价位一个正则化的合页损失最小化问题。SVM又有硬间隔最大化和软间隔SVM两种。这时首先要考虑的是如何定义间隔，这就引出了函数间隔和几何间隔的概念（这里只说思路），我... 阅读全文

posted @ 2018-08-28 15:44 Siucaan 阅读(745) 评论(0) 推荐(0) 编辑

摘要： 1. 决策树怎么做回归让所有节点求平均值。2. 熵、联合熵、条件熵、交叉熵、KL散度（相对熵），信息增益，互信息，信息增益率的计算简介：熵用于衡量不确定性，所以均分的时候熵最大 KL散度用于度量两个分布的不相似性，KL(p||q)等于交叉熵H(p,q)-熵H(p)。... 阅读全文

posted @ 2018-08-28 15:42 Siucaan 阅读(426) 评论(0) 推荐(0) 编辑

摘要： 1.衡量分类器的好坏（1）常用的指标：查准率 precision = TP/(TP+FP) = TP/~P （~p为预测为真的数量）召回率 recall = TP/(TP+FN) = TP/ P （2）F1 score F1值： 2/F1 = 1/recall +... 阅读全文

posted @ 2018-08-28 15:39 Siucaan 阅读(343) 评论(0) 推荐(0) 编辑

摘要： 1.二阶收敛为什么比一阶收敛更快？一阶收敛是以1/n的速度收敛，二阶收敛是以1/(n^2)的速度收敛，所以速度比较快。附：最优化问题中，牛顿法为什么比梯度下降法求解需要的迭代次数更少？直观上的理解：梯度下降法，确定了一个方向（负梯度方向），迭代点沿着这个方向走... 阅读全文

posted @ 2018-08-28 15:38 Siucaan 阅读(411) 评论(0) 推荐(0) 编辑

摘要： 1. 为什么要做特征选择？特征选择主要有两个功能： (1)减少特征数量、降维，使模型泛化能力更强，减少过拟合 (2)增强对特征和特征值之间的理解2. 常用的特征选择方法[这里](1)去掉取值变化小的特征针对特征值都是离散型变量； (2)单变量特征选择单变量特征选择... 阅读全文

posted @ 2018-08-28 15:37 Siucaan 阅读(777) 评论(0) 推荐(0) 编辑

摘要：这里是3.x版本的Python，对代码做了一些修改。其中画图的函数直接使用的是原代码中的函数，也做了一些修改。书本配套的数据和2.7版本的源码可以在这里获取：https://www.manning.com/books/machine-learning-in-a... 阅读全文

posted @ 2018-08-23 22:13 Siucaan 阅读(806) 评论(0) 推荐(0) 编辑

摘要：决策树简介决策的构造1.决策树的流程（1）收集数据（2）准备数据比如下面的数据：因为决策树只能处理数值型的数据，所以要准备特定的数据格式。使用上面的数据表格中有两个特征和一个分类结果。可以像下面这样准备数据或者说构建特征向量。 [1,1,'Y'] ... 阅读全文

posted @ 2018-08-23 21:03 Siucaan 阅读(294) 评论(0) 推荐(0) 编辑

摘要：鸡尾酒排序的流程先对数组从左到右进行升序的冒泡排序；再对数组进行从右到左的降序的冒泡排序；以此类推，持续的、依次的改变冒泡的方向，并不断缩小没有排序的数组范围；一个动图（来自hujingshuang）： python实现def cocktail_sort(se... 阅读全文

posted @ 2018-08-20 22:48 Siucaan 阅读(168) 评论(0) 推荐(0) 编辑

摘要：基数排序不用比较每个数的大小而是通过将每个数不同位数上的值放到桶里对应的位置，先按照个位排完，然后按这个排完后的数组的数的十位排，以此类推，最后得到一个有序序列。排序过程比如输入一个无序数列：res = [95, 45, 15, 78, 814, 51, 24, 12... 阅读全文

posted @ 2018-08-20 16:36 Siucaan 阅读(129) 评论(0) 推荐(0) 编辑

摘要：一、50个常用的命令汇总 tar grep find ssh sed awk vim diff sort export... 阅读全文

posted @ 2018-08-20 10:46 Siucaan 阅读(170) 评论(0) 推荐(0) 编辑