随笔分类 -  数据挖掘

摘要:L0、L1与L2范数、核范数 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。这里因为篇幅比较庞大,为了不吓到大家,我将这个五个部分分成两篇博文。知识有限,以下都是我一些浅显的看法,如果理解存在... 阅读全文
posted @ 2014-10-25 20:53 LongYou 阅读(44559) 评论(3) 推荐(23)
摘要:基于mapreduce的大规模连通图寻找算法当我们想要知道哪些账号是一个人的时候往往可以通过业务得到两个账号之间有联系,但是这种联系如何传播呢?问题 已知每个账号之间的联系如:A BB CD EF CB G得到 对应的一个人的账号如:A B C F G为同一个人D E 为同一个人 ... 阅读全文
posted @ 2014-08-21 10:25 LongYou 阅读(1245) 评论(4) 推荐(0)
摘要:Mahout应用(一)Mahout 是应用于hadoop上的数据挖掘工具(废话不多说)这里先简单介绍一下mahout的一般使用方法。拿kmeans为列子Mahout中的kmeans所需要的输入比较特殊需要的输入类型为VectorWritable类型并且是SequenceFile格式存储(一般来讲为了方便查看数据我比较喜欢直接用Text格式直接存储)使用SequenceFile主要是因为可压缩和数据读入速度,mahout认为我们的输出绝大多数不需要看而是为了当做以后的输入。VectorWritable的应用我们以后再说。Mahout中有一个类叫做InputDriver是用来将输入的文件转化成Ve 阅读全文
posted @ 2014-03-14 18:20 LongYou 阅读(1215) 评论(0) 推荐(0)
摘要:对于优化问题: 的求解需要计算这个内积,而如果输入样本线性不可分的话,我们采取的方法是通过函数映射将输入样本映射到另外一个高维空间并使其线性可分。 以库克定律为例(http://zh.wikipedia.org/zh-cn/%E9%9D%99%E7%94%B5%E5%8A%9B): 一个电量为的点电荷作用于另一个电量为的点电荷,其静电力的大小,可以用方程表达为: ,其中,是两个点电荷之间的距离,是库仑常数。 显然这个定律无法用线性学习器来表达,看到乘积想到ln函数,对原始形式两边取ln,得到: ,令,,,,,那么就得到一个线性学习器: 这个过程... 阅读全文
posted @ 2013-09-01 20:33 LongYou 阅读(1422) 评论(0) 推荐(0)
摘要:入门:数据挖掘入门的书籍,中文的大体有这些:JiaweiHan的《数据挖掘概念与技术》IanH.Witten/EibeFrank的《数据挖掘实用机器学习技术》TomMitchell的《机器学习》TOBYSEGARAN的《集体智慧编程》AnandRajaraman的《大数据》Pang-NingTan的《数据挖掘导论》MatthewA.Russell的《社交网站的数据挖掘与分析》很多人的第一本数据挖掘书都是JiaweiHan的《数据挖掘概念与技术》,这本书也是我们组老板推荐的入门书(我个人觉得他之所以推荐是因为Han是他的老师)。其实我个人来说并不是很推荐把这本书。这本书什么都讲了,甚至很多书少有 阅读全文
posted @ 2013-07-06 23:23 LongYou 阅读(545) 评论(0) 推荐(0)
摘要:拉格朗日对偶(Lagrange duality) 存在等式约束的极值问题求法,比如下面的最优化问题: 目标函数是f(w),下面是等式约束。通常解法是引入拉格朗日算子,这里使用来表示算子,得到拉格朗日公式为 L是等式约束的个数。 然后分别对w和求偏导,使得偏导数等于0,然后解出w和。至于为什么引入拉格朗日算子可以求出极值,原因... 阅读全文
posted @ 2013-07-06 12:50 LongYou 阅读(1017) 评论(0) 推荐(0)
摘要:1.把数据以点连线的方式在画面中显示2. 数据按照数据的性别属性使用不同的颜色3.鼠标左键可以把图在画面中拖动4.鼠标右键可以把图放大或者缩小5.鼠标单击某个数据上,该数据点中心化显示(可以点击下试试就知道中心化显示)6.鼠标可以选中某个数据点进行任意位置的拖动,而在该点与其它点的关系保持不变7.在右下框输入a,则图中数据点中包含a的数据加亮显示先把代码附上,注释中有讲解package wjl;import java.awt.BorderLayout;import java.awt.Color;import java.awt.Dimension;import java.awt.Font;imp 阅读全文
posted @ 2013-07-01 18:14 LongYou 阅读(699) 评论(0) 推荐(0)
摘要:prefuse正常的数据源需要从ConnectionFactory中生产出来,但是如果平时不想用里面给的方法得到数据,就需要手动创造Graph里面所需要的内容两个Table下面是我自己写的从文件中读入数据的工具类package wjl.util;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.IOException;import java.util.Scanner;import prefuse.data.Table;public class PreTable { public 阅读全文
posted @ 2013-06-30 15:22 LongYou 阅读(451) 评论(0) 推荐(0)