摘要: http://blog.csdn.net/lwm_1985/article/details/6738112打造自己的中文分词器之如何让Lucene认识自己的分词器 2011-09-01 09:25 12人阅读 评论(0) 收藏 举报 更新日期:2008-11-08 点击...阅读全文
朗志工作室(Langzhi Studio)江浙沪一带找工作中,欢迎联系 |
公告 |
09 2011 档案摘要: http://blog.csdn.net/lwm_1985/article/details/6738112打造自己的中文分词器之如何让Lucene认识自己的分词器 2011-09-01 09:25 12人阅读 评论(0) 收藏 举报 更新日期:2008-11-08 点击...阅读全文
摘要: http://hi.baidu.com/chanajianxin/blog/item/9b36608bb7dfc013c8fc7a9c.html 改写lucene的Analyzer,添加自己的中文分词系统的方法(原创) 2007-04-30 16:16 /***作者:夺天策 百度空间名:刹那剑欣*转载请说明出处!*/ 这几天完成了我的中文分词算法,就着手把它加入到lucene中去...阅读全文
摘要: ArrayList Vector LinkedList 区别与用法 最近用到了,所以依然是转载ArrayList 和Vector是采用数组方式存储数据,此数组元素数大于实际存储的数据以便增加和插入元素,都允许直接序号索引元素,但是插入数据要设计到数组元素移动 等内存操作,所以索引数据快插入数据慢,Vector由于使用了synchronized方法(线程安全)所以性能上比Array...阅读全文
摘要: ArrayList Vector LinkedList 区别与用法 最近用到了,所以依然是转载ArrayList 和Vector是采用数组方式存储数据,此数组元素数大于实际存储的数据以便增加和插入元素,都允许直接序号索引元素,但是插入数据要设计到数组元素移动 等内存操作,所以索引数据快插入数据慢,Vector由于使用了synchronized方法(线程安全)所以性能上比Array...阅读全文
摘要: http://mqbing.iteye.com/blog/76913 LinkedList vs ArrayList RESTJDK.netBlog 晚上和同学讨论 LinkedList 和 ArrayList的区别... 讨论时发现信息太少,于是在网上找了些资料..存一下. 今天看到的一个Blog上的内容,我把大致...阅读全文
摘要: [博主推荐]一个允许你反悔的hook--PushbackInputStream和PushbackReader 2008-08-01 23:12 [转载]:http://hi.baidu.com/ppchar/blog/item/b3738364f532e1f1f6365479.html PushbackInputStream和PushbackReader是Java I/...阅读全文
摘要: nutch1.3和solr3.x集成时出现Invalid UTF-8 character问题 http://blog.csdn.net/laigood12345/article/details/6689611Hadoop的Python语言封装 Gao Ang 发表于 2010年05月25日 11:38 | Hits: 1404 Tag: 编程语言 ...阅读全文
摘要: Hadoop的Python语言封装 Gao Ang 发表于 2010年05月25日 11:38 | Hits: 1404 Tag: 编程语言 Hadoop使
用Java语言实现,编写具体的应用业务除了借助Hadoop的Java API外,还可以使用开发者所熟悉的Python或C++等其他语言编码。在Hadoop安装路径的/src/examples/目录中,给出了
Python实现...阅读全文
摘要: Nutch 使用入门(一)——准备工作及Intranet抓取http://softkid.iteye.com/blog/625736http://51mst.iteye.com/blog/1155120 2011-08-22 nutch1.3 +hadoop 分布式部署(亲测) 博客分类:nutchhadoop ...阅读全文
摘要: Nutch 使用入门(一)——准备工作及Intranet抓取http://softkid.iteye.com/blog/625736阅读全文
摘要: Other ways to get JRuby If you use RVM, then installing JRuby is also a piece of cake: <font color="#CC0000"><code>rvm install jruby</code></font> JRuby might also be available as OS packages for y...阅读全文
摘要: 由于在google和cnblogs的搜索引擎里都没有收录完全,自己找东西很麻烦,搜索不到,之前还考虑说solr,现在看来直接nutch就好了阅读全文
摘要: http://www.donanza.com/jobs/p3315101-crawler_with_data_analysis_hadoop_mapreduce_hbase_phase_icrawler with data analysis (Hadoop, MapReduce, HBase) - Phase I - Data Modeling Goal for Phase ...阅读全文
摘要: http://www.donanza.com/jobs/p3315101-crawler_with_data_analysis_hadoop_mapreduce_hbase_phase_icrawler with data analysis (Hadoop, MapReduce, HBase) - Phase I - Data Modeling Goal for Phase ...阅读全文
摘要: http://www.searchtb.com/2011/01/understanding-hbase.htmlHBase vs Cassandra: 我们迁移系统的原因 http://wangxu.me/blog/p/371阅读全文
摘要: http://chandlerproject.org/wikihome阅读全文
摘要: 基于 hive 的日志数据统计实战http://blog.javaworker.cn/index.php/archives/104阅读全文
摘要: http://railsapps.github.com/installing-rails-3-1.htmlInstalling Rails 3.1: Detailed (and current) instructions on how to install Rails 3.1 with advice and troubleshooting tips. This is a guide for dev...阅读全文
摘要: http://blog.csdn.net/YidingHe/article/details/4093982 Java 流(Stream)简介:2、Reader 和 Writer 分类: Java 技术 2009-04-20 11:39...阅读全文
摘要: http://www.moandroid.com/?p=1435Java I/O总结——InputStream By: 海市蜃楼 | In: Android开发 22 十一 2009 在前面介绍了Decorator(装饰)模式, 让我自己想起了刚开始工作时那段“痛并快乐”的学习时光。在学习Android网络方面,也发现网络方面的很多内容都与Java I/O有关,因此暂时先停下An...阅读全文
摘要: http://ictclas.org/index.html阅读全文
摘要: http://hi.baidu.com/catro/blog/item/e9b8ceea24754ec0d539c9b8.html 关于MMSEG分词算法 2011-02-02 13:54 MMSEG是中文分词中一个常见的、基于词典的分词算法(作者主页:http://chtsai.org/index_tw.html),简单、效果相对较好。由于它的简易直观性,实现起来不是很复杂,运行速...阅读全文
摘要: http://www.matrix67.com/blog/archives/4212阅读全文
摘要: http://www.cnblogs.com/alic/archive/2008/06/06/1215001.html常用分词算法的比较与设想 与基于理解的分词算法和基于统计的分词算法相比,基于文本匹配的算法更加通用。基于文本匹配的算法又称之为“机械分词算法”,他是它 是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功,可...阅读全文
摘要: http://www.openvim.com/index.html阅读全文
摘要: 【Lucene3.0 初窥】文本分析器Analyzerhttp://hxraid.iteye.com/blog/634577阅读全文
摘要: http://www.cnblogs.com/singlepine/archive/2005/10/30/265010.html职责链模式(Chain of Responsibility Pattern)一、职责链(Chain of Responsibility)模式 责任链模式是一种对象的行为模式【GOF95】。在责任链模式里,很多对象由每一个对象对其下家的引用而连接起来形成一条链。请求在...阅读全文
摘要: http://linliangyi2007.iteye.com/blog/429960 发布IK Analyzer 3.0 中文分词器 博客分类:程序人生 luceneJavaSVN算法Eclipse 最新:IKAnalyzer3.2.3稳定版已经发布,支持Lucene3.0和solr1.4 链接:http://www....阅读全文
摘要: 今天看hold姐,再看小S怎么感觉身上有母性的光辉呢,好奇怪啊,真的上了年纪了?大S好像还不如小S了,。。。阅读全文
摘要: http://www.douban.com/group/topic/13024594/?start=100阅读全文
摘要: shlug] [OT]百度腾讯这样的公司运维和产品的待遇如何收件箱X回复|left lizheseven@gmail.com 发送至 Shanghai 显示详细信息 19:31 (5 小时前) 有没有业内人士,可否稍微透露一下? 回复 转发回复|Svenyang zhaoyang21cn@gmail.com 发送至 shlug 显示详细信息 20:16 (4 小时前) 貌似百度两个职位薪水都超过腾...阅读全文
摘要: 融了钱就是好啊阅读全文
摘要: 杨幂陶虹李艾照片其实不出彩,就不放了辛苦后面两位了另外这个营销团队真的很牛逼啊,真的是个奇迹,我是信了,比光线传媒做柳岩牛一些感觉阅读全文
摘要: http://www.zhihu.com/question/19614774最好的城市在北京吧不要来上海上海工作的人和上海的大环境都非常现实,很注重眼前利益,说白了,大部分人都没有做白日梦的能力,所以无论是招人还是留人,都是非常大的问题。而且房租很贵,其他的消费也非常贵。相比之下,北京有硅谷般的中关村,又在各个国家大院的门口,有个政策的风吹草动都能立即采取行动。而且北京的互联网公司占全国互联网公司...阅读全文
摘要: 明天要去面试,晚上10点左右,关机准备离开办公室了,结果随手一关门,把钥匙丢在里面了,意味着我晚上我要在外面过了,摸摸钱包,手机,火车票都在,OK,大不了去住快捷酒店,于是看了看家里有什么工具,好在厕所里有一把梯子,走廊外有一长的晾衣干,我就用晾衣干前面加一小铁丝,去勾钥匙,花了好一阵功夫,大概有10分钟吧,才把钥匙拿出来改天上图,照片拍了,但是没找到连接线改天再和你们说吧,一时半会讲不清楚,总之...阅读全文
摘要: 那个微博上的创意片不错,就这些了阅读全文
摘要: http://qa.taobao.com/?p=6400Technology Evangelist阅读全文
摘要: http://rfyimcool.blog.51cto.com/1030776/413198反向代理软件对比,七层负载均衡与静态文件缓存 2010-10-31 19:20:16 标签: 这个标题有点吓人,又是负载均衡又是缓存,随便哪个都能写好几本书了,这里浅谈一二,适合...阅读全文
摘要: solr的用分布式搜索(转) 2010-03-11 13:05:56|分类: solr |字号订阅 ...阅读全文
摘要: http://clayz.iteye.com/blog/2403572008-09-10 Lucene / Solr 开发经验 博客分类:Framework Solrlucene全文检索搜索引擎应用服务器 转自 Lucene/Solr开发经验[原] 作者 张驰有道 注意:该文章所属Blog中的日记遵循...阅读全文
摘要: http://www.cnblogs.com/finallyliuyu/archive/2010/04/07/1705967.html阅读全文
摘要: http://code.google.com/p/paoding/Paoding Analysis摘要Paoding's Knives 中文分词具有极 高效率 和 高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。 高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字。 采用基于 不限制个数 的词典文件对文章进行有效切分,使能够将对词汇分类定义。 能够对未知的词汇进行合理...阅读全文
摘要: http://www.cnblogs.com/eaglet/archive/2009/08/13/1545420.html 盘古分词--功能简介 Posted on 2009-08-13 16:50 eaglet 阅读(8474) 评论(103) 编辑 收藏 盘古分词--功能简介 作者:eaglet 两年前我开发了一个KTDictSeg 中...阅读全文
摘要: http://www.cnblogs.com/eaglet/阅读全文
摘要: http://www.cnblogs.com/jqbird/archive/2011/04/05/2005672.html 电子商务网站搜索架构方案 说是电子商务搜索架构方案,其实就是lucene.net的应用,公司庙小,人少,也就自己平时看看,以前做过一点例子,这样就被拉上去写架构方案了。 我这个懒惰的家伙,在网上疯狂的搜集搜索架构方面的东西,因为做做架构,暂时没...阅读全文
摘要: http://zsp.iteye.com/blog/244245先推荐一本书,csdn上可以下载完美的pdf Programming Collective Intelligence ( http://www.douban.com/subject/2209702/?from=mb-62346329 ) 协同过滤的缺点是 热点相关内容 往往变成了 其他同期出现的热点内容 . 先划分类别(比如SVD)...阅读全文
摘要: http://www.alibuybuy.com/posts/26137.html阅读全文
摘要: http://zhuyx808.iteye.com/blog/980839阅读全文
摘要: 今天用上vpn,速度感觉上比ssh好,总算可以无忧无虑了,用上了twitterfeed以我的blog为数据源,向外辐射阅读全文
摘要: http://blog.sina.com.cn/s/blog_7d3b18a50100uary.htmlhttp://laigw.name/post/91.html阅读全文
摘要: MyEclipse 显示 行号 2009-05-04 11:52 66人阅读 评论(0) 收藏 举报 在使用MyEclipse开发程序的时候,不显示行号是一件很烦人的事情,要想显示行号,按住 Ctrl + F10 选择 show Line Numbers阅读全文
摘要: import java.io.File;import java.io.IOException;import org.apache.lucene.analysis.Analyzer;import org.apache.lucene.analysis.standard.StandardAnalyzer;import org.apache.lucene.document.Document;import ...阅读全文
|