网络蜘蛛 - 随笔分类 - xnfriday

HtmlParser读书笔记

摘要：1，Node有三种实现，分别是RemarkNode，用于保存注释。TextNode也很简单，就是用户可见的文字信息。TagNode是最复杂的，包含了HTML语言中的所有标签，而且可以扩展放入。TagNode包含两类，一类是简单的Tag，实际就是不能包含其他Tag的标签，只能做叶子节点。另一类是CompositeTag，就是可以包含其他Tag，是分支节点。2，Node中包含的方法有几类：对于树型结构进行遍历的函数，这些函数最容易理解：Node getParent ()：取得父节点 NodeList getChildren ()：取得子节点的列表 Node getFirstChild ()：取.. 阅读全文

posted @ 2012-07-04 10:10 xnfriday 阅读(214) 评论(0) 推荐(0)

Nutch成功添加中文分词

摘要：原文地址：http://www.cnblogs.com/streamhope/archive/2011/07/28/2119345.html在win7+nutch1.2上通过（亲身试验）IKAnalyzer版本最好为3.2.8，不要下载IKAnalyzer2012版本的以下为摘录文章：一、开发环境介绍(以我个人为例)：个人开发端：windows Server 2003 + Cygwin + Eclipse3.2二、准备工作：<1>.将Nutch导入eclipse，导入过程详情请点击查看文章<2>.下载IKAnalyzer(http://code.google.com/p 阅读全文

posted @ 2012-03-20 21:50 xnfriday 阅读(1223) 评论(0) 推荐(0)

关于Nutch命令在Eclipse中运行的方法

摘要：在Eclipse中运行，需要添加运行参数，运行参数的方法稍微和shell中有不同，可以看代码中关于处理参数的部分，这样能更改的配置参数此外，一定要添加虚拟参数（-Xms64m -Xmx512m），不然会出现Job Failed的错误原文地址：http://www.linuxso.com/linuxpeixun/14931.html参考地址：http://blog.sina.com.cn/s/blog_468674a0010004nu.html1. Crawl Crawl是“org.apache.nutch.crawl.Crawl”的别称，它是一个完整的爬取和索引过程命令。使用方法： Shel 阅读全文

posted @ 2012-03-10 15:04 xnfriday 阅读(566) 评论(0) 推荐(0)

win下使用eclipse运行Nutch1.2

摘要：有几个点需要注意一下的：1，应该使用apache-nutch-1.2-bin压缩包，不要使用apache-nutch-1.2-src压缩包2，需要运行Cygwin，除了下载安装之后，还需要设置环境变量，成功的标识是在cmd下看看能不能运行linux命令3，最后设置jre为1.64，Nutch在1.2的版本上运行成功5，刚部署的时候，Nutch不能支持中文，需要在Tomcat的conf的server.xml中关于端口的那部分修改成以下内容：<Connector port="8080" protocol="HTTP/1.1" connectionTim 阅读全文

posted @ 2012-03-06 14:24 xnfriday 阅读(446) 评论(0) 推荐(0)

编译carrot2发布

摘要：下载carrot2需要使用git，一种分布式的版本管理工具～～介绍可以参见百度百科～在linux下使用ant命令编译如果出现RE: No supported regular expression matcher found的错误添加sudo apt-get install ant-optional参考https://bugs.launchpad.net/ubuntu/+source/ant/+bug/172789http://download.carrot2.org/head/manual/index.html#section.advanced-topics.building-from-sou 阅读全文

posted @ 2011-11-21 19:02 xnfriday 阅读(220) 评论(0) 推荐(0)

随笔分类 - 网络蜘蛛