2013年12月30日

感知机分类算法学习

摘要: 1、感知机主要针对的问题是二类分类问题,解决的情况是线性可分的情况。感知机学习算法是高维SVM分类问题的基础。2、感知机模型如下:f(x)= sign(w*x+b) 其中,x为输入向量,sign为符号函数,括号里面大于等于0,则其值为1,括号里面小于0,则其值为-1。w为权值向量,b为偏置。求感知机模型即求模型参数w和b。感知机预测,即通过学习得到的感知机模型,对于新的输入实例给出其对应的输出类别1或者-1。3、感知机学习的学习策略是最小化损失函数:损失函数对应于误分类点到分离超平面的总距离。4、感知机学习算法是基于随机梯度下降法对损失函数的最优化算法,有原始形式和对偶形式。算法简单且易于实现阅读全文

posted @ 2013-12-30 17:12 _Clarence 阅读(552) 评论(0)  编辑

2013年12月3日

中文数字转阿拉伯数字

摘要: 自己写得一个中文数字转阿拉伯数字代码,模拟写的,如果有badcase欢迎大家拍砖。package org.x.cloud.rewrite;import java.util.ArrayList;import java.util.HashMap;import java.util.regex.Matcher;import java.util.regex.Pattern;class DigitalUtil { private String regex_al = null; private Pattern pattern_al = null; private String regex_...阅读全文

posted @ 2013-12-03 17:22 _Clarence 阅读(42) 评论(0)  编辑

2013年9月21日

欧拉回路

摘要: 在下图的多边形ABCDE中从哪一点出发,可以遍历图上的每条边一次,而且仅遍历一次A)A点B) B点C) C点D)D点欧拉回路—通过图中每条边一次且仅一次,并且过每一顶点的回路。无向图中,G有欧拉通路的充分必要条件为:G连通,G中只有两个奇度顶点(它们分别是欧拉通路的两个端点)。有向图中D有欧拉通路:D连通,除两个顶点外,其余顶点的入度均等于出度,这两个特殊的顶点中,一个顶点的入度比出度大1,另一个顶点的入度比出度小1。阅读全文

posted @ 2013-09-21 15:45 _Clarence 阅读(24) 评论(0)  编辑

2013年5月29日

求小于等于N的所有正整数里面包含的1的个数

摘要: 题目:已知一个正整数N,求比N小(包括N)的所有正整数中包含的1的个数。例如N = 12,则包含5个1,分别为1、10、11、12解答:最直观最简单的想法是,从1到N对每一个数检查,得出每个数中包含的一的个数,事件复杂度大概是O(N)1时间复杂度比较高,不是最优算法。一个比1快的算法是:对N的每一位进行检查,得出比N小的正数某一位包含的1的个数总和。比如1234,千位包含234 + 1个1(1000 ~ 1234),百位包含 2 * 100个1(1100 ~ 1199, 100 ~ 199),十位包含13 * 10个1(1210 ~ 1219,1110 ~ 1119,。。。。。。,10 ~ 1阅读全文

posted @ 2013-05-29 23:35 _Clarence 阅读(38) 评论(0)  编辑

2013年5月27日

从(0,1)中平均随机出几次才能使得和超过1?

摘要: 为了证明这一点,让我们先来看一个更简单的问题:任取两个 0 到 1 之间的实数,它们的和小于 1 的概率有多大?容易想到,满足 x+y<1 的点 (x, y) 占据了正方形 (0, 1)×(0, 1) 的一半面积,因此这两个实数之和小于 1 的概率就是 1/2 。类似地,三个数之和小于 1 的概率则是 1/6 ,它是平面 x+y+z=1 在单位立方体中截得的一个三棱锥。这个 1/6 可以利用截面与底面的相似比关系,通过简单的积分求得:∫(0..1) (x^2)*1/2 dx = 1/6可以想到,四个 0 到 1 之间的随机数之和小于 1 的概率就等于四维立方体一角的“体积”,它阅读全文

posted @ 2013-05-27 21:03 _Clarence 阅读(84) 评论(0)  编辑

2013年5月10日

如何恢复Hadoop的误删除文件

摘要: 本文转自:http://blog.163.com/zhaoweibiao87@126/blog/static/1347994812012915101924344/利用 hadoop fs -rmr (目录名)删除目录时易出现误删除的操作,如何解决:建立回收站!具体操作为:找到配置文件core-site.xml,在其中添加如下信息:<property> <name>fs.trash.interval</name> <value>10080</value> <description> Number of minutes bet阅读全文

posted @ 2013-05-10 14:48 _Clarence 阅读(125) 评论(0)  编辑

2013年3月26日

用GDB调试程序

摘要: GDB概述————GDB是GNU开源组织发布的一个强大的UNIX下的程序调试工具。或许,各位比较喜欢那种图形界面方式的,像VC、BCB等IDE的调试,但如果你是在UNIX平台下做软件,你会发现GDB这个调试工具有比VC、BCB的图形化调试器更强大的功能。所谓“寸有所长,尺有所短”就是这个道理。一般来说,GDB主要帮忙你完成下面四个方面的功能: 1、启动你的程序,可以按照你的自定义的要求随心所欲的运行程序。 2、可让被调试的程序在你所指定的调置的断点处停住。(断点可以是条件表达式) 3、当程序被停住时,可以检查此时你的程序中所发生的事。 4、动态的改变你程序的执行环境。从上面看来,GDB和一般的阅读全文

posted @ 2013-03-26 20:04 _Clarence 阅读(29) 评论(0)  编辑

2012年9月11日

关于决策树分类算法几点说明

摘要: 1、如果属性用完了怎么办 在决策树构造过程中可能会出现这种情况:所有属性都作为分裂属性用光了,但有的子集还不是纯净集,即集合内的元素不属于同一类别。在这种情况下,由于没有更多信息可以使用了,一般对这些子集进行“多数表决”,即使用此子集中出现次数最多的类别作为此节点类别,然后将此节点作为叶子节点。2、在实际构造决策树时,通常要进行剪枝,这时为了处理由于数据中的噪声和离群点导致的过分拟合问题。剪枝有两种: 先剪枝——在构造过程中,当某个节点满足剪枝条件,则直接停止此分支的构造。 后剪枝——先构造完成完整的决策树,再通过某些条件遍历树进行剪枝。 关于剪枝的具体算法这里不再详述,有兴趣的可以参考相关文阅读全文

posted @ 2012-09-11 16:37 _Clarence 阅读(32) 评论(0)  编辑

2012年9月6日

关于Ubuntu下Java文件都写乱码问题

摘要: 当要处理的文件是Windowws OS下的文件时拿到Linux OS下面处理时,因为系统默认的编码格式不一样,windows OS一般为GBK格式的字符集,而Linux一般为UTF-8字符集,所以写文件时会出现乱码现象。网上有很多讲到了两种方法来修改系统的字符集,大部分效果还是不理想。如果您也遇到了这种问题,请采用下面方法:将读文件和写文件都按照特定格式来读,也就是按照文本在windows下面的格式GBK,在此之前我们应该解决的问题应该是让你的Linux能够处理中文字符集(GBK或者是GB2312); BufferedReader br = new BufferedReader(...阅读全文

posted @ 2012-09-06 18:06 _Clarence 阅读(43) 评论(0)  编辑

2012年9月4日

error while loading shared libraries的解決方法

摘要: 本文摘自 :http://www.cnblogs.com/amboyna/archive/2008/02/06/1065322.html行程式時,如此遇到像下列這種錯誤: ./tests: error while loading shared libraries: xxx.so.0:cannot open shared object file: No such file or directory ...阅读全文

posted @ 2012-09-04 16:49 _Clarence 阅读(22) 评论(0)  编辑

导航

统计

公告