随笔分类 -  网络蜘蛛

HtmlParser读书笔记
摘要:1,Node有三种实现,分别是RemarkNode,用于保存注释。TextNode也很简单,就是用户可见的文字信息。TagNode是最复杂的,包含了HTML语言中的所有标签,而且可以扩展放入。TagNode包含两类,一类是简单的Tag,实际就是不能包含其他Tag的标签,只能做叶子节点。另一类是CompositeTag,就是可以包含其他Tag,是分支节点。2,Node中包含的方法有几类:对于树型结构进行遍历的函数,这些函数最容易理解:Node getParent ():取得父节点 NodeList getChildren ():取得子节点的列表 Node getFirstChild ():取.. 阅读全文
posted @ 2012-07-04 10:10 xnfriday 阅读(214) 评论(0) 推荐(0)
Nutch成功添加中文分词
摘要:原文地址:http://www.cnblogs.com/streamhope/archive/2011/07/28/2119345.html在win7+nutch1.2上通过(亲身试验)IKAnalyzer版本最好为3.2.8,不要下载IKAnalyzer2012版本的以下为摘录文章:一、开发环境介绍(以我个人为例):个人开发端:windows Server 2003 + Cygwin + Eclipse3.2二、准备工作:<1>.将Nutch导入eclipse,导入过程详情请点击查看文章<2>.下载IKAnalyzer(http://code.google.com/p 阅读全文
posted @ 2012-03-20 21:50 xnfriday 阅读(1223) 评论(0) 推荐(0)
关于Nutch命令在Eclipse中运行的方法
摘要:在Eclipse中运行,需要添加运行参数,运行参数的方法稍微和shell中有不同,可以看代码中关于处理参数的部分,这样能更改的配置参数此外,一定要添加虚拟参数(-Xms64m -Xmx512m),不然会出现Job Failed的错误原文地址:http://www.linuxso.com/linuxpeixun/14931.html参考地址:http://blog.sina.com.cn/s/blog_468674a0010004nu.html1. Crawl Crawl是“org.apache.nutch.crawl.Crawl”的别称,它是一个完整的爬取和索引过程命令。 使用方法: Shel 阅读全文
posted @ 2012-03-10 15:04 xnfriday 阅读(566) 评论(0) 推荐(0)
win下使用eclipse运行Nutch1.2
摘要:有几个点需要注意一下的:1,应该使用apache-nutch-1.2-bin压缩包,不要使用apache-nutch-1.2-src压缩包2,需要运行Cygwin,除了下载安装之后,还需要设置环境变量,成功的标识是在cmd下看看能不能运行linux命令3,最后设置jre为1.64,Nutch在1.2的版本上运行成功5,刚部署的时候,Nutch不能支持中文,需要在Tomcat的conf的server.xml中关于端口的那部分修改成以下内容:<Connector port="8080" protocol="HTTP/1.1" connectionTim 阅读全文
posted @ 2012-03-06 14:24 xnfriday 阅读(446) 评论(0) 推荐(0)
编译carrot2发布
摘要:下载carrot2需要使用git,一种分布式的版本管理工具~~介绍可以参见百度百科~在linux下使用ant命令编译如果出现RE: No supported regular expression matcher found的错误添加sudo apt-get install ant-optional参考https://bugs.launchpad.net/ubuntu/+source/ant/+bug/172789http://download.carrot2.org/head/manual/index.html#section.advanced-topics.building-from-sou 阅读全文
posted @ 2011-11-21 19:02 xnfriday 阅读(220) 评论(0) 推荐(0)