摘要:1、http://www.oschina.net/project/tag/64/spider?lang=0&os=0&sort=view&搜索引擎NutchNutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 尽管Web搜索是漫游Int...
阅读全文
posted @ 2014-10-10 12:00
| 有声有色工作,有滋有味生活,有情有义做人 |
10 2014 档案
摘要:1、http://www.oschina.net/project/tag/64/spider?lang=0&os=0&sort=view&搜索引擎NutchNutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 尽管Web搜索是漫游Int...
阅读全文
posted @ 2014-10-10 12:00
摘要:[转自百度文库]基于CRF工具的机器学习方法命名实体识别的过程|浏览:226|更新:2014-04-11 09:32这里只讲基本过程,不涉及具体实现,我也是初学者,想给其他初学者一些帮助,如有不对,请多包涵方法/步骤语料的收集整理。部分专业有完整的语料库(包括训练语料和测试语料,这些语料不需要再进行...
阅读全文
posted @ 2014-10-10 11:49
摘要:几种开源分词工具的比较分类:全文搜索引擎2012-08-14 16:186175人阅读评论(0)收藏举报工具luceneqq算法扩展文档[转载]分词工具特点支持语言原理词典及扩展性StandardAnalyzer中文、英文(unicode)中文:单字符切分英文:根据空格切分ChineseAnalyz...
阅读全文
posted @ 2014-10-10 11:47
|
||