10 2012 档案

摘要:读完了《数据挖掘导论》(简称IDM)的前言和第一章,了解到本书主要负责数据挖掘的5个主题数据预处理 Chp 2 3分类 Chp 4 5关联 Chp 6 7聚类 Chp 8 9异常探测 Chp 10前面的四个主题均分为两部分:基础和高级。所以如果希望有大概了解,可以先看所有的基础部分,然后再找自己感兴趣的主题,阅读高级部分。主题的依赖关系,数据预处理最基础,最好先读。分类,关联和聚类顺序任意。异常探测需要分类,关联和聚类的知识,所以最好最后阅读。 阅读全文
posted @ 2012-10-31 20:40 bourneli 阅读(387) 评论(0) 推荐(0) 编辑
摘要:本文目的 最近一直在使用R进行hcluster计算,主要采用了一些R自带的距离公式和cophenetic距离验证聚类的质量。其中R自带的hclust方法不支持cosine函数,如果需要下载R的扩展,要下载许多关联的库,所以自己编写了一个简单的cosine函数,并且使用了R的proxy扩展(距离计算框架),计算向量距离。内容涉及比较多,所以记录一下,作为备忘。 采用R计算hclust 步骤... 阅读全文
posted @ 2012-10-30 20:36 bourneli 阅读(4354) 评论(4) 推荐(0) 编辑
摘要:Ascii画图的主要好处在于没有兼容问题,任何媒介都可以显示。如果只是画示意图,原理图,这个再好不过。 在线Ascii画图工具:http://www.asciiflow.com/ 本地Ascii画图工具:http://www.jave.de/ 阅读全文
posted @ 2012-10-30 16:48 bourneli 阅读(11091) 评论(0) 推荐(2) 编辑
摘要:本文目的 今天在写项目时,发现php foreach语句中使用引用会出现奇特现象,故此记录此现象,原因和解决方法。希望对其他人有帮助! 现象 猜猜下面的代码会输出什么? <?php$a = array(1=>'one', 2=>'two');foreach ($a as $key => &$val) {} // do nothingvar_dump($a); foreach ($a a... 阅读全文
posted @ 2012-10-29 17:38 bourneli 阅读(7549) 评论(1) 推荐(0) 编辑
摘要:本文目的 最近项目开发到一定阶段了,大部分需求已经完成,可以将精力放到Web性能优化上。首先从前端js入手,找来这本书《高性能网站建站指南》作为指导。周末在家将所有JS相关的优化点阅读了一边,现在记录下要点,作为备忘。 主要有四点需要优化的地方: 将脚本放到底部(Rule 6: Put Scripts at the Bottom) 将JS和CSS放到页面外部(Rule 8: M... 阅读全文
posted @ 2012-10-29 15:55 bourneli 阅读(631) 评论(0) 推荐(0) 编辑
摘要:本文目的最近在使用R做一些文本聚类方面的计算,感觉R还是很好用的,特别是R有很多计算扩展,可以方便的运用这些扩展和数据进行试验。所以,在此记录一些使用心得,作为备忘。R是什么R是一个开源软件,起初主要用于数学统计计算。通过R脚本与R环境交互,脚本中内置了许多统计相关的函数,使用十分方便。但是,最近几年R被广泛使用到了数据挖掘领域,据Rexer Analytics 5th Annual Data Miner Survey - 2011调查显示,有47%的数据挖掘从业人员使用R作为主要工具。R有一个活跃的社区CRAN(The Comprehensive R Archive Network),此社区 阅读全文
posted @ 2012-10-27 16:07 bourneli 阅读(805) 评论(0) 推荐(0) 编辑
摘要:本文目的 weka是一套使用java开发的数据挖掘工具集合,提供GUI/CLI界面和Java API使用方式。所以,在学习和解决数据挖掘问题时,可以先尝试用weka的GUI或CLI做出合适的分析,找到适当的算法,然后在将此算法集成到自己的项目中。最近在的项目中遇到了文本聚类的问题,kmeans是一种常见的聚类算法,这里先拿此算法和示例数据做一些实验,以便熟悉weka的界面操作。 什么是k... 阅读全文
posted @ 2012-10-15 21:12 bourneli 阅读(24165) 评论(3) 推荐(1) 编辑
摘要:首先,下载SCWS源代码按照下面的方式安装scws(scws可以作为独立工具使用,也可以作为动态库,在C/C++程序中调用,也可以作为php扩展在php语言中调用)bzip2 -d SCWS_1.X.X.tar.bz2tar xvf SCWS_1.X.X.tar./configure --prefix=SCWS_HOMEmake make installPS:上述操作完成后,scws已经安装成功,可以以命令行方式或在C/C++程序中使用SCWS命令行方式使用SWCScd SCWS_HOME./scws -i ../etc/test.txt -o ../etc/out.txt -r ../etc 阅读全文
posted @ 2012-10-15 20:20 bourneli 阅读(5215) 评论(0) 推荐(0) 编辑
摘要:工欲善其事必先利其器,学习数据挖掘,没有好的工具,估计举步维艰。下面是在网上上调研的一些数据挖掘工具,详细情况,参考链接中的内容: http://voyagememoirs.com/pharmine/2008/05/18/summary/ http://wenku.baidu.com/view/5cea1f906bec0975f465e2ab http://wenku.baid... 阅读全文
posted @ 2012-10-15 19:45 bourneli 阅读(564) 评论(0) 推荐(0) 编辑
摘要:本文目的 前几天工作中,需要频繁判断数组中的键值对是否存在,起初使用的”!empty($arr[‘key’])”来判断,觉得这样读起来比较舒服,但是写出的代码无法通过单元测试(单元测试太好了)。排查很久,终于发现,当$arr[‘key’] == 0时,empty仍然返回true,这样破坏了业务逻辑! 今天终于有空,就将判断数组键值对存在的方法查阅了一下,记录于此,作为备忘。 一个例子 ... 阅读全文
posted @ 2012-10-12 17:04 bourneli 阅读(40560) 评论(1) 推荐(2) 编辑
摘要:本文目的使用mysql遇到并解决了一些问题,在这里记录与分享。问题1:Linux源代码安装mysql时,默认不安装innodb存储引擎,需要手动安装如果忘记手动安装innodb,那么任何表创建时,如果存储引擎指定为innodb,mysql会默认选择myisam作为存储引擎,并且不报错也不警告,这样就有可能将问题掩饰了。因为有些业务逻辑,可能是依赖外键约束实现的,myisam存储引擎不支持外键约束,那么这些业务逻辑实现起来就会有问题。手动安装innodb参考链接:http://www.cnblogs.com/bourneli/articles/2632171.html问题2:mysqldump导 阅读全文
posted @ 2012-10-09 16:27 bourneli 阅读(404) 评论(0) 推荐(0) 编辑
摘要:目的最近项目中有个需求是文本聚类,实现这个功能需要一些数据挖掘的技术,由于此领域“水很深”,项目也很紧,没有那么多闲功夫去深入研究此领域。向一个相关领域的博士在读同学请教了此问题,推荐阅读《Programming Collective Intelligence》中的相关章节,读后果然豁然开朗,这里再次感谢此同学 。将第三章的大概内容和心得体会记录于此,方便日后查阅。同时,也希望作为契机,为以后进一步深入学习数据挖掘做准备。概要本章主要介绍了聚类算法:Hierachical Clustering:根据两个向量之间的关系得到相关树结构,结果是一个二叉树 ,时间复杂度是O(n^3)K-Means C 阅读全文
posted @ 2012-10-05 20:30 bourneli 阅读(452) 评论(0) 推荐(0) 编辑