05 2015 档案

摘要:Abstract大数据的克隆检测和搜索算法已经作为嵌入在应用中的一部分.本文推出一个代码检测基准.包含一些已知的真假克隆代码.其中包括600万条真克隆(包含type-1,type-2,type-3,type-4).S1 IntroductionIJaDataset 2.0包含25,000个系统,36... 阅读全文
posted @ 2015-05-22 11:21 max_xbw 阅读(821) 评论(4) 推荐(0)
摘要:概率论只不过是把常识用数学公式表达了出来。——拉普拉斯记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时;有一次,在书店看到一本书,名叫贝叶斯方法。当时数学系的课程还没有学到概率统计。我心想,一个方法能够专门写出一本书来,肯定很牛逼。后来,我发现当初的那个朴素归纳推理成立了——... 阅读全文
posted @ 2015-05-21 09:13 max_xbw 阅读(492) 评论(0) 推荐(0)
摘要:书中给出了一个典型的曲线拟合的例子,给定一定量的x以及对应的t值,要你判断新的x对应的t值多少.任务就是要我们去发现潜在的曲线方程:sin(2πx)这时就需要概率论的帮忙,对于这种不确定给t赋何值的情况,它可以通过一种精确和量化的方式来提供一种框架,而对于决策理论,为了根据适当的度量方式来获取最优的... 阅读全文
posted @ 2015-05-20 17:36 max_xbw 阅读(708) 评论(0) 推荐(0)
摘要:模式识别领域主要关注的就是如何通过算法让计算机自动去发现数据中的规则,并利用这些规则来做一些有意义的事情,比如说,分类.以数字识别为例,我们可以根据笔画规则启发式教学去解决,但这样效果并不理想.我们一般的做法是: 1,统一尺寸; 2,简化色彩; 3,计算灰度平均值; 4,计算哈希值(生成指纹);当有... 阅读全文
posted @ 2015-05-15 18:17 max_xbw 阅读(303) 评论(0) 推荐(0)
摘要:weka中的过滤器主要用于数据预处理阶段对数据集的各种操作。今天简单地使用一下过滤器:首先打开一个自带数据集weather.numeric.arff,这是一个关于通过天气条件,气温以及风力等因素来判断是否要play。可以看到:看一下数据的大致情况:红色代表no,蓝色代表yes。问题一:假设我现在要添... 阅读全文
posted @ 2015-05-15 11:39 max_xbw 阅读(1700) 评论(0) 推荐(0)
摘要:abstract: 代码克隆的综述S1 INTRODUCTION AND MOTIVATION代码克隆的利弊: 利:可以有效地去耦合,避免其他一些可能的错误; 弊:当被复制的那段code中带有bug的话,他的复制版本中都会含有bug。但是代码克隆操作又是不可避免的,因此,代码克隆应该得到有效的检测和... 阅读全文
posted @ 2015-05-13 15:37 max_xbw 阅读(374) 评论(0) 推荐(0)
摘要:摘要: 利用软件中的历史缺陷数据来建立分类器,进行软件缺陷的检测。 多核学习(Multiple kernel learning):把历史缺陷数据映射到高维特征空间,使得数据能够更好地表达; 集成学习(ensemble learning):使用一系列的分类器来减少由主类带来的分类误差,使具有更好的检测结果。 本文采用集成学习的方法构建一个多核... 阅读全文
posted @ 2015-05-10 16:53 max_xbw 阅读(1645) 评论(0) 推荐(0)