代码改变世界

随笔档案-2006年09月

Nutch代码分析之1(Hadoop和creative commons)

2006-09-25 17:38 by cppguy, 846 阅读, 收藏,
摘要: Hadoop 是 Google labs 的MapReduce的一个实现,Nutch项目的全部数据处理都构建在其之上。MapReduce是一种简化的分布式编程模式,让程序可以自动在普通机器组成的集群中以并行方式分布执行。 就如同java程序员可以不考虑内存泄露一样,MapReduce程序员也不许要关心海量数据如何被分配到多台机器上,不需要考虑机器失效的处理,不需要考虑这些机器间如何协作共同完成工作... 阅读全文

Nutch的自动运行

2006-09-14 01:00 by cppguy, 2632 阅读, 收藏,
摘要: 1:在Windows下调用nutch的脚本,可实现自动运行,这样做可以不用crywin来模拟linux,下面式win xp调用nutch的脚本nutch.bat@cmd /V:on /c %~dp0nutch1.bat %* nutch1.bat@echo onrem ****************************************************************... 阅读全文

IronPython

2006-09-14 00:03 by cppguy, 533 阅读, 收藏,
摘要: IronPython是Pyhon在.NET环境下新的实现 阅读全文

Plugin中心(翻译)

2006-09-07 12:33 by cppguy, 886 阅读, 收藏,
摘要: plugin(插件)为nutch提供了一些功能强大的部件,举个例子,HtmlParser就是使用比较普遍的用来分析nutch抓取的html文件的插件。 为什么nutch要使用这样的plugin系统? 有三个原因:1:可扩展性 通过plugin,nutch允许任何人扩展它的功能,而我们要做的只是对给定的接口做简单的实现,举个例子:MSWordParser这个插件是用来分析wordwendang的,它... 阅读全文

Nutch 0.8最近更新的邮件列表

2006-09-05 01:41 by cppguy, 401 阅读, 收藏,
摘要: 怎样向Nutch中添加筛取Http流的正则表达式的业务逻辑?你应该写一个新的plugin,使用src/plugin/creativecommons作为模版创建适用自己的pluginYou can start from here.. http://wiki.apache.org/nutch/ About writing plugin http://wiki.apache.org/nutch/Plug... 阅读全文

C#中的字符串

2006-09-04 21:08 by cppguy, 306 阅读, 收藏,
摘要: 在做网页信息抽取的时候,需要对一些编码搞清楚,这里罗列一些 c#内部是使用16位的unicode编码(utf-16)来表示的字符串,因此无论中文还是英文都是2字节的。 System.Char结构中一个最有用的方法是GetUnicodeCategory().这个静态的方法将传输给他的字符类型分为30种。一些判断的方法是:Char.IsWhiteSpace(mString,5),Char.IsPun... 阅读全文

javascript学习笔记

2006-09-01 03:47 by cppguy, 229 阅读, 收藏,
摘要: javascript是一种轻型的.解释型的程序设计语言.而且具有面向对象的能力.该语言的通用核心已经嵌入了Netscape.Internet Explorer和其他的Web浏览器中,而且它能用表示Web浏览器窗口及其内容的对象使Web程序设计增色不少.javascript的 客户端版本把可执行的 内容添加 到了网页中,这样一来,网页就不再是静态的HTML了,而是包含于用户进行交互的程序,控制浏览器... 阅读全文