会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
梁喵
博客园
首页
新随笔
联系
订阅
管理
2012年7月4日
操作系统对文件缓存的疑问
摘要: 对这个问题一直不是很懂,希望有经验或者知道的能告诉我~ 一个程序对一个文件读取以后,第二遍再读取就快很多,这是为什么呢? 应该是有缓存的原因,但是操作系统把它缓存在哪 不会是内存的一部分了吧? 同样的,对文件进行随机读取是非常慢的,都是毫秒级的速度,而一个程序在随机跳跃位移读了一次,再次随机读同样的...
阅读全文
posted @ 2012-07-04 14:47 梁喵
阅读(242)
评论(0)
推荐(0)
2012年7月3日
一个数据挖掘算法的项目:dami
摘要: 废弃了! (更新于2012/07/20)关注和学习数据挖掘不少年,现在数据挖掘算法已经非常多了,比较出名的基本都能找到实现好的。掌握一个算法原理十分重要,但我觉得实现一遍算法对于算法的如何适用数据才是最有帮助的。一些挖掘工具遇到大量点的数据集就吃不消,可能是对内存不珍惜,可能是对计算不节俭等等。感觉
阅读全文
posted @ 2012-07-03 17:44 梁喵
阅读(620)
评论(1)
推荐(0)
2012年3月24日
随机交换检验数据挖掘结果-assessing data mining result via swap randomization
摘要: 随机交换的思想简单的说就是看一个数据集的挖掘结果是不是由特定因素造成的
阅读全文
posted @ 2012-03-24 22:42 梁喵
阅读(203)
评论(0)
推荐(0)
2012年3月6日
折腾hadoop安装系列
摘要: hadoop系列安装,一顿折腾,Mapreduce需要安装lzo,hbase跑job需要配置hadoop classpath,hive需要Mysql,Hive-hbase-handler需要add jar
阅读全文
posted @ 2012-03-06 11:05 梁喵
阅读(355)
评论(0)
推荐(0)
2012年3月4日
lucene smartcn原理
摘要: Smartcn分词器是ictclas的java版ictclas4j的简化版 分词三步:1)原子切分;2)找出原子之间所有可能的组词方案;3)通过动态规划找出字或词构成整句话的最少消耗,确定分词。
阅读全文
posted @ 2012-03-04 23:15 梁喵
阅读(678)
评论(0)
推荐(0)
准备把csdn的博客迁移到这里
摘要: CSDN太坑爹了,泄露密码, 居然登陆不上,经常开小差。唯一好处是漂亮 算了放弃
阅读全文
posted @ 2012-03-04 16:41 梁喵
阅读(113)
评论(0)
推荐(0)
公告