PhoenixZq
分享是一门艺术~~

随笔分类 -  Data Mining

mine golden~~
贝叶斯分类
摘要:朴素贝叶斯分类1.1、摘要 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本文作为分类算法的第一篇,将首先介绍分类问题,对分类问题进行一个正式的定义。然后,介绍贝叶斯分类算法的基础——贝叶斯定理。最后,通过实例讨论贝叶斯分类中最简单的一种:朴素贝叶斯分类。1.2、分类问题综述 对于分类问题,其实谁都不会陌生,说我们每个人每天都在执行分类操作一点都不夸张,只是我们没有意识到罢了。例如,当你看到一个陌生人,你的脑子下意识判断TA是男是女;你可能经常会走在路上对身旁的朋友说“这个人一看就很有钱、那边有个非主流”之类的话,其实这就是一种分类操作。 从数学角度来说,分 阅读全文
posted @ 2014-02-07 15:53 PhoenixZq 阅读(53325) 评论(1) 推荐(4)
验证码识别程序
摘要:摘自:http://0527.yo2.cn/articles/identify.html最近手痒痒,装上了 .NET 就用VC2005+AutoHotKey 写了一个识别验证码的程序,序只以动网的验证码图片作为样本进行处理和识别,验证码样本如下,也就是说只能对这种类型的验证码进行识别。打开下载页面这回把图像处理的算法部分用VC控制台实现,这样只用专注算法部分。而后续的界面和收尾工作则是由AHK完成。再也不用考虑恶心的MFC了。首先,由AHK打开图片,以参数的形式传递给VC编写的控制台程序。然后由控制台程序对验证码图片进行处理,得到验证码的特征值,直接输出到控制台窗口,最后由AHK对窗口里的文字 阅读全文
posted @ 2011-11-11 00:01 PhoenixZq 阅读(1112) 评论(0) 推荐(0)
(一)SVM的八股简介
摘要:转自:http://www.blogjava.net/zhenandaci/archive/2009/02/13/254519.html支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力[ 阅读全文
posted @ 2011-11-06 20:31 PhoenixZq 阅读(270) 评论(0) 推荐(0)
线性支持向量分类机及其实现
摘要:转自:http://www.cnblogs.com/yuwenchao/archive/2011/10/28/csvc.html本文讨论对于一般的分类问题,线性支持向量分类机(C-SVC)的实现原理及MATLAB代码实现。 由于需要处理线性不可分问题,我们没法找到一个超平面可以完全正确的分化训练集,因此需要“软化”一些条件。由标准的支持向量机(SVM)的最大间隔法所导出的约束条件可以进行如下的“软化”: yi((w·xi)+b) ≥ 1-ξi ,i = 1, 2, ... , n 当ξi足够大时,训练点(yi, xi)总是可以满足条件的,所以我们不能让ξi太大,因此得给ξi一个惩罚系 阅读全文
posted @ 2011-10-29 11:37 PhoenixZq 阅读(444) 评论(0) 推荐(0)
日志分析方法概述
摘要:日志在计算机系统中是一个非常广泛的概念,任何程序都有可能输出日志:操作系统内核、各种应用服务器等等。日志的内容、规模和用途也各不相同,很难一概而论。本文讨论的日志处理方法中的日志,仅指Web日志。其实并没有精确的定义,可能包括但不限于各种前端Web服务器——apache、lighttpd、tomcat等产生的用户访问日志,以及各种Web应用程序自己输出的日志。在Web日志中,每条日志通常代表着用户的一次访问行为,例如下面就是一条典型的apache日志:211.87.152.44 – - [18/Mar/2005:12:21:42 +0800] “GET / HTTP/1.1″ 200 899 阅读全文
posted @ 2011-10-09 20:31 PhoenixZq 阅读(455) 评论(0) 推荐(0)
针对数据分析没态度的几句牢骚
摘要:于数据分析的态度,有几句牢骚要发泄一下,纯属这几年工作的个人心里感受。面试后的感想这个周末我一直在面试,总共三十多人,只有一半能到我这一关,不管是工作了几年的,还是一点工作经验都没有的,不管是名牌大学的还是一般学校的,他们对数据的态度都让我有些失望。我问他们,假如我是京东商城的CEO,周一早上你要给我看上周的三个数据,你会选择什么数据?几乎所有的人没有1秒就回答,比如流量、转化率、交易量等。我接着问,你听清楚我的问题了吗,我说是给CEO看的。接着大部分人会倒抽口气说,也许CEO不会关注这么细节的数据,那应该是XXX数据了。接着我又问,我说的是上一周情况,你注意到“周”这个时间段吗?接着大部分人 阅读全文
posted @ 2011-07-08 20:26 PhoenixZq 阅读(298) 评论(0) 推荐(0)
MATLAB Toolbox 大全
摘要:找几个不错的Matlab资源。里面有不少需要的模型、方法,比如multifractal,貌似还有kriging,Kalman滤波。好东西不少,有时间得多看看。字数限制,只能分三次篇了。转自:http://www.baisi.net/thread-51930-1-3.htmlhttp://blog.hjenglish.com/rainy8758/articles/1337926.htmlhttp://zjm040186.blog.163.com/blog/static/3024899020087273225176/MATLAB Toolboxes========================= 阅读全文
posted @ 2011-04-06 16:26 PhoenixZq 阅读(17709) 评论(0) 推荐(2)
深入探索 IBM 数据分析和预测软件 - PASW Modeler
摘要:简介:本文从介绍 SPSS 产品家族开始,将详细介绍 SPSS 数据挖掘套件的基本使用,数据挖掘的基本概念及其与 BI 和统计数据分析等概念的区别,作为工业界标准的数据挖掘标准流程 Crisp-DM 以及一些典型的数据挖掘算法。期望能够帮助从事相关工作的工程师和数据分析人员尽快建立使用 SPSS 进行数据挖掘的概念框架。Spass 发展历史SPSS 是著名的统计分析和数据挖掘软件,一直以来它和 SAS,BMDP 并称为最有影响力的三大统计分析软件。广泛应用于经济学、生物学、心理学、地理学、医疗卫生、体育、农业、林业、商业、金融等各个领域。SPSS 最早由斯坦福大学三位学生于 1968 年创建, 阅读全文
posted @ 2011-01-15 23:59 PhoenixZq 阅读(2334) 评论(1) 推荐(0)