摘要: 简介:Python 和 Perl 作为主流脚本语言中的成员,在语法等方面有很多相似之处,却又存在一定的差异。本文通过对这两种语言的比较,从而使得相关开发人员可以更深刻的了解和掌握这两种语言。关于 Perl 与 Python 的起源和特点Perl 是 Practical Extraction and ... 阅读全文
posted @ 2013-10-11 11:41 hzs319 阅读(360) 评论(0) 推荐(0)
摘要: 31grep函数(如果你是个的新手,你可以先跳过下面的两段,直接到 Grep vs.loops 样例这一部分,放心,在后面你还会遇到它)grep BLOCK LISTgrep EXPR, LISTgrep 函数会用 LIST 中的元素对 BLOCK 或 EXPR 求值,而且会把局部变量 $_ 设置为... 阅读全文
posted @ 2013-10-09 10:06 hzs319 阅读(420) 评论(0) 推荐(0)
摘要: 芯片质量分析芯片数据预处理获取差异表达基因GO和KEGG分析聚类分析(本文于2013.09.04更新)TAIR,NASCarray 和 EBI 都有一些公开的免费芯片数据可以下载。本专题使用的数据(Exp350)来自NASCarray,也可以用FTP直接下载。下载其中的CEL文件即可(.CEL.gz... 阅读全文
posted @ 2013-09-25 15:44 hzs319 阅读(1603) 评论(0) 推荐(0)
摘要: 议员是如何投票的?[latexpage]一、议员投票这个数据在近几年的图模型文章中常能见到,并且已有很多深入的讨论——包括图结构随时间变化、多图联合估计等情况。本文只涉及单个图结构的估计,此外笔者对政治不了解,因此文中摘录wiki的相关评论。从 http://www.senate.gov 可以看到s... 阅读全文
posted @ 2013-08-30 10:29 hzs319 阅读(480) 评论(0) 推荐(0)
摘要: 最近四五年,互联网行业似乎总是绕不开社交网络这个概念。无论是旗舰级别的传说中的facebook、LinkedIn,还是如雨后春笋般冒出来的各种团购和微博网站,全都或多或少地体现着SNS(社会网络服务)的特色。这些五花八门的产品,在丰富我们业余生活的同时,也为研究者提供了大量珍贵的数据。以往只能依靠有... 阅读全文
posted @ 2013-08-22 09:26 hzs319 阅读(322) 评论(0) 推荐(0)
摘要: 1 简介支持向量机基本上是最好的有监督学习算法了。最开始接触SVM是去年暑假的时候,老师要求交《统计学习理论》的报告,那时去网上下了一份入门教程,里面讲的很通俗,当时只是大致了解了一些相关概念。这次斯坦福提供的学习材料,让我重新学习了一些SVM知识。我看很多正统的讲法都是从VC 维理论和结构风险最小... 阅读全文
posted @ 2013-08-20 17:18 hzs319 阅读(190) 评论(0) 推荐(0)
摘要: 3.2 最小平方误差理论 假设有这样的二维样本点(红色点),回顾我们前面探讨的是求一条直线,使得样本点投影到直线上的点的方差最大。本质是求直线,那么度量直线求的好不好,不仅仅只有方差最大化的方法。再回想我们最开始学习的线性回归等,目的也是求一个线性函数使得直线能够最佳拟合样本点,那么我们能不能认为... 阅读全文
posted @ 2013-08-07 16:22 hzs319 阅读(290) 评论(0) 推荐(0)
摘要: 1 问题 之前我们考虑的训练数据中样例的个数m都远远大于其特征个数n,这样不管是进行回归、聚类等都没有太大的问题。然而当训练样例个数m太小,甚至m=n+1才能保证在最大似然估计下得出的是非奇异的。然而在上面的任何一种假设限定条件下,只要m>=2都可以估计出限定的。 这样做的缺点也是显然易见的,我们认... 阅读全文
posted @ 2013-08-07 16:20 hzs319 阅读(324) 评论(0) 推荐(0)
摘要: 在这一篇之前的内容是《Factor Analysis》,由于非常理论,打算学完整个课程后再写。在写这篇之前,我阅读了PCA、SVD和LDA。这几个模型相近,却都有自己的特点。本篇打算先介绍PCA,至于他们之间的关系,只能是边学边体会了。PCA以前也叫做Principal factor analys... 阅读全文
posted @ 2013-08-07 16:19 hzs319 阅读(197) 评论(0) 推荐(0)
摘要: 应用场景决定知识的储备与工具的选择,反过来,无论你选择了什么样的工具,你一定会努力地把它改造成符合自己应用场景所需的那个样子。从这个道理来说,我选择了R作为数据挖掘人员手中攻城陷池的那把云梯,并努力地把它改造成自己希望的那个样子。我最初接触到专门用于科学计算的工具,是大名鼎鼎的matlab,正如它帮助了无数中国学生顺利毕业的赫赫功劳一样,它是我对于向量化计算的启蒙老师。用过matlab的人都会对其循环结构的效率无法忍受,不知道是否有意而为之的这样的设计缺陷,迫使人们要想真正地用好它,就得接受它提供的向量化计算的思想,在掌握了这个专门为高效计算而设计的计算思想之后,你会发现自己获得的不单是计算效 阅读全文
posted @ 2013-08-07 16:15 hzs319 阅读(1359) 评论(0) 推荐(0)