随笔档案「2011年1月」 - 丁啸

java实现序列对比Needleman–Wunsch Algorithm, Smith–Waterman Algorithm

摘要：The Needleman–Wunsch algorithm performs a global alignment on two sequences (called A and B here). It is commonly used in bioinformatics to align protein or nucleotide sequences. The Smith-Waterman algorithm is a well-known algorithm for performing local sequence alignment; that is, for determining 阅读全文

posted @ 2011-01-29 21:48 丁啸阅读(1581) 评论(0) 推荐(0)

尝试用java实现k-means，老鸟多指点，菜鸟共同学习啊

摘要：1.首先将停用词读入ArrayList中：代码2.将文章中停用词去掉，剩下待统计tfidf的term：代码3.计算每个词的tfidf值：代码待续-- 阅读全文

posted @ 2011-01-29 21:13 丁啸阅读(469) 评论(3) 推荐(0)

WEKA使用手册

摘要：1. 简介 WEKA的全名是怀卡托智能分析环境（Waikato Environment for Knowledge Analysis），它的源代码可通过http://www.cs.waikato.ac.nz/ml/weka得到。同时weka也是新西兰的一种鸟名，而WEKA的主要开发者来自新西兰。 WEKA作为一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理，分类，回归、聚类、关联规则以及在新的交互式界面上的可视化。如果想自己实现数据挖掘算法的话，可以看一看weka的接口文档。在weka中集成自己的算法甚至借鉴它的方法自己实现可视化工具并不是件很困难的事情阅读全文

posted @ 2011-01-10 09:15 丁啸阅读(1231) 评论(0) 推荐(0)

数据挖掘领域18个候选经典算法（转发）

摘要：1：C4.5 C4.5就是一个决策树算法，它是决策树(决策树也就是做决策的节点间的组织方式像一棵树，其实是一个倒树)核心算法ID3的改进算法，所以基本上了解了一半决策树构造方法就能构造它。决策树构造方法其实就是每次选择一个好的特征以及分裂点作为当前节点的分类条件。C4.5比ID3改进的地方时： 1) ID3选择属性用的是子树的信息增益(这里可以用很多方法来定义信息，ID3使用的是熵(entropy)(熵是一种不纯度度量准则)),也就是熵的变化值.而C4.5用的是信息增益率。也就是多了个率嘛。一般来说率就是用来取平衡用的，就像方差起的作用差不多，比如有两个跑步的人，一个起点是10m/s的人、其1s后为20m/s 阅读全文

posted @ 2011-01-07 09:46 丁啸阅读(562) 评论(0) 推荐(1)