_Clarence - 博客园

2013年12月30日

感知机分类算法学习

摘要： 1、感知机主要针对的问题是二类分类问题，解决的情况是线性可分的情况。感知机学习算法是高维SVM分类问题的基础。2、感知机模型如下：f(x)= sign(w*x+b) 其中，x为输入向量，sign为符号函数，括号里面大于等于0，则其值为1，括号里面小于0，则其值为-1。w为权值向量，b为偏置。求感知机模型即求模型参数w和b。感知机预测，即通过学习得到的感知机模型，对于新的输入实例给出其对应的输出类别1或者-1。3、感知机学习的学习策略是最小化损失函数：损失函数对应于误分类点到分离超平面的总距离。4、感知机学习算法是基于随机梯度下降法对损失函数的最优化算法，有原始形式和对偶形式。算法简单且易于实现阅读全文

posted @ 2013-12-30 17:12 _Clarence 阅读(987) 评论(0) 推荐(0) 编辑

2013年12月3日

中文数字转阿拉伯数字

摘要：自己写得一个中文数字转阿拉伯数字代码，模拟写的，如果有badcase欢迎大家拍砖。package org.x.cloud.rewrite;import java.util.ArrayList;import java.util.HashMap;import java.util.regex.Matcher;import java.util.regex.Pattern;class DigitalUtil { private String regex_al = null; private Pattern pattern_al = null; private String regex_... 阅读全文

posted @ 2013-12-03 17:22 _Clarence 阅读(224) 评论(0) 推荐(0) 编辑

2013年9月21日

欧拉回路

摘要：在下图的多边形ABCDE中从哪一点出发，可以遍历图上的每条边一次，而且仅遍历一次A）A点B） B点C） C点D）D点欧拉回路—通过图中每条边一次且仅一次，并且过每一顶点的回路。无向图中，G有欧拉通路的充分必要条件为：G连通，G中只有两个奇度顶点(它们分别是欧拉通路的两个端点)。有向图中D有欧拉通路：D连通，除两个顶点外，其余顶点的入度均等于出度，这两个特殊的顶点中，一个顶点的入度比出度大1，另一个顶点的入度比出度小1。阅读全文

posted @ 2013-09-21 15:45 _Clarence 阅读(127) 评论(0) 推荐(0) 编辑

2013年5月29日

求小于等于N的所有正整数里面包含的1的个数

摘要：题目：已知一个正整数N，求比N小（包括N）的所有正整数中包含的1的个数。例如N = 12，则包含5个1，分别为1、10、11、12解答：最直观最简单的想法是，从1到N对每一个数检查，得出每个数中包含的一的个数，事件复杂度大概是O（N）1时间复杂度比较高，不是最优算法。一个比1快的算法是:对N的每一位进行检查，得出比N小的正数某一位包含的1的个数总和。比如1234，千位包含234 + 1个1（1000 ～ 1234），百位包含 2 * 100个1（1100 ～ 1199， 100 ～ 199），十位包含13 * 10个1（1210 ～ 1219，1110 ～ 1119，。。。。。。，10 ～ 1 阅读全文

posted @ 2013-05-29 23:35 _Clarence 阅读(445) 评论(0) 推荐(0) 编辑

2013年5月27日

从（0,1）中平均随机出几次才能使得和超过1？

摘要：为了证明这一点，让我们先来看一个更简单的问题：任取两个 0 到 1 之间的实数，它们的和小于 1 的概率有多大？容易想到，满足 x+y<1 的点 (x, y) 占据了正方形 (0, 1)×(0, 1) 的一半面积，因此这两个实数之和小于 1 的概率就是 1/2 。类似地，三个数之和小于 1 的概率则是 1/6 ，它是平面 x+y+z=1 在单位立方体中截得的一个三棱锥。这个 1/6 可以利用截面与底面的相似比关系，通过简单的积分求得：∫(0..1) (x^2)*1/2 dx = 1/6可以想到，四个 0 到 1 之间的随机数之和小于 1 的概率就等于四维立方体一角的“体积”，它阅读全文

posted @ 2013-05-27 21:03 _Clarence 阅读(299) 评论(0) 推荐(0) 编辑

2013年5月10日

如何恢复Hadoop的误删除文件

摘要：本文转自：http://blog.163.com/zhaoweibiao87@126/blog/static/1347994812012915101924344/利用 hadoop fs -rmr (目录名)删除目录时易出现误删除的操作，如何解决：建立回收站！具体操作为：找到配置文件core-site.xml，在其中添加如下信息：<property> <name>fs.trash.interval</name> <value>10080</value> <description> Number of minutes bet 阅读全文

posted @ 2013-05-10 14:48 _Clarence 阅读(349) 评论(0) 推荐(0) 编辑

2013年3月26日

用GDB调试程序

摘要： GDB概述————GDB是GNU开源组织发布的一个强大的UNIX下的程序调试工具。或许，各位比较喜欢那种图形界面方式的，像VC、BCB等IDE的调试，但如果你是在UNIX平台下做软件，你会发现GDB这个调试工具有比VC、BCB的图形化调试器更强大的功能。所谓“寸有所长，尺有所短”就是这个道理。一般来说，GDB主要帮忙你完成下面四个方面的功能： 1、启动你的程序，可以按照你的自定义的要求随心所欲的运行程序。 2、可让被调试的程序在你所指定的调置的断点处停住。（断点可以是条件表达式） 3、当程序被停住时，可以检查此时你的程序中所发生的事。 4、动态的改变你程序的执行环境。从上面看来，GDB和一般的阅读全文

posted @ 2013-03-26 20:04 _Clarence 阅读(133) 评论(0) 推荐(0) 编辑

2012年9月11日

关于决策树分类算法几点说明

摘要： 1、如果属性用完了怎么办在决策树构造过程中可能会出现这种情况：所有属性都作为分裂属性用光了，但有的子集还不是纯净集，即集合内的元素不属于同一类别。在这种情况下，由于没有更多信息可以使用了，一般对这些子集进行“多数表决”，即使用此子集中出现次数最多的类别作为此节点类别，然后将此节点作为叶子节点。2、在实际构造决策树时，通常要进行剪枝，这时为了处理由于数据中的噪声和离群点导致的过分拟合问题。剪枝有两种：先剪枝——在构造过程中，当某个节点满足剪枝条件，则直接停止此分支的构造。后剪枝——先构造完成完整的决策树，再通过某些条件遍历树进行剪枝。关于剪枝的具体算法这里不再详述，有兴趣的可以参考相关文阅读全文

posted @ 2012-09-11 16:37 _Clarence 阅读(176) 评论(0) 推荐(0) 编辑

2012年9月6日

关于Ubuntu下Java文件都写乱码问题

摘要：当要处理的文件是Windowws OS下的文件时拿到Linux OS下面处理时，因为系统默认的编码格式不一样，windows OS一般为GBK格式的字符集，而Linux一般为UTF-8字符集，所以写文件时会出现乱码现象。网上有很多讲到了两种方法来修改系统的字符集，大部分效果还是不理想。如果您也遇到了这种问题，请采用下面方法：将读文件和写文件都按照特定格式来读，也就是按照文本在windows下面的格式GBK，在此之前我们应该解决的问题应该是让你的Linux能够处理中文字符集（GBK或者是GB2312）； BufferedReader br = new BufferedReader(... 阅读全文

posted @ 2012-09-06 18:06 _Clarence 阅读(367) 评论(0) 推荐(0) 编辑

2012年9月4日

error while loading shared libraries的解決方法

摘要：本文摘自：http://www.cnblogs.com/amboyna/archive/2008/02/06/1065322.html行程式時，如此遇到像下列這種錯誤： ./tests: error while loading shared libraries: xxx.so.0:cannot open shared object file: No such file or directory ... 阅读全文

posted @ 2012-09-04 16:49 _Clarence 阅读(79) 评论(0) 推荐(0) 编辑