上一页 1 2 3 4 5 6 ··· 23 下一页
摘要: Nutch 基本情况Nutch 是 Apache 基金会的一个开源项目,它原本是开源文件索引框架 Lucene 项目的一个子项目,后来渐渐发展成长为一个独立的开源项目。它基于 Java 开发,基于 Lucene 框架,提供 Web 网页爬虫功能。另外很吸引人的一点在于,它提供了一种插件框架,使得其对各种网页内容的解析、各种数据的采集、查询、集群、过滤等功能能够方便的进行扩展,正是由于有此框架,使得 Nutch 的插件开发非常容易,第三方的插件也层出不穷,极大的增强了 Nutch 的功能和声誉。本文就是主要描述这个插件框架内部运行的机制和原理。回页首Nutch 的插件体系结构在 Nutch 的插 阅读全文
posted @ 2013-08-25 17:55 张兰云 阅读(669) 评论(0) 推荐(0) 编辑
摘要: source 与 . 命令:相当于在终端执行一遍文件中的所有指令alias:重命名命令n== , gg=G 对文档进行重排jobs:查看后台暂停的任务fg:把一个后台暂停进程,搬到前台执行bg:让一个后台暂停的程序,继续执行cut: cut -d: f1${Name}er ,$(Name)er:小括号是执行命令,返回执行命令的结果,大括号是引入变量的值shell脚本中加双引号和不加双引号没有太多的区别,除非有空格和特殊字符nc -l 1234nc 127.0.0.1 1234tartr [a-z] [A-Z] : 大小写转化shell变量引用的引用:eval a=\${${ver}ion}-- 阅读全文
posted @ 2013-08-16 15:51 张兰云 阅读(261) 评论(0) 推荐(0) 编辑
摘要: 本文讲述了Linux命令行编辑快捷键的方法,希望对您有所帮助。Linux命令行编辑快捷键:history 显示命令历史列表↑(Ctrl+p) 显示上一条命令↓(Ctrl+n) 显示下一条命令!num 执行命令历史列表的第num条命令!! 执行上一条命令!?string? 执行含有string字符串的最新命令Ctrl+r 然后输入若干字符,开始向上搜索包含该字符的命令,继续按Ctrl+r,搜索上一条匹配的命令Ctrl+s 与Ctrl+r类似,只是正向检索Alt+ 历史列表最后一项Ctrl+f 光标向前移动一个字符,相当与->Ctrl+b 光标向后移动一个字符,相当与<-Alt+f 光 阅读全文
posted @ 2013-08-14 09:28 张兰云 阅读(304) 评论(0) 推荐(0) 编辑
摘要: 对Base64的一个简单的例子: JAVA中的MD5加密,加密之后转化为两个16进制字符串, 阅读全文
posted @ 2013-08-07 14:57 张兰云 阅读(153) 评论(0) 推荐(0) 编辑
摘要: 最近看了很多如何让hadoop运行时间减少的文章,一点自己的理解,记录如下1)压缩map输出和reduce输出 压缩输出结果,不仅可以减少写数据,还可以加快map到ruduce的传输速度,有利于加快运行时间。2)不要重复创建对象 尽量在mapper或者reducer的类中去创建,不要重复的在map函数中创建对象。3)scan的参数设置 在扫描数据库表时,scan的一些属性:hbase.scan.catching 和 hbase.scan.batch 都是可以一次性的返回 多条记录,避免每次都要去访问数据库,同时要注意只设置自己需要的columnFamily就可以了,减少... 阅读全文
posted @ 2013-08-06 11:31 张兰云 阅读(312) 评论(0) 推荐(0) 编辑
摘要: rsync是unix/linux下同步文件的一个高效算法,它能同步更新两处计算机的文件与目录,并适当利用查找文件中的不同块以减少数据传输。rsync中一项与其他大部分类似程序或协定中所未见的重要特性是镜像是只对有变更的部分进行传送。rsync可拷贝/显示目录属性,以及拷贝文件,并可选择性的压缩以及递归拷贝。rsync利用由Andrew Tridgell发明的算法。这里不介绍其使用方法,只介绍其核心算法。我们可以看到,Unix下的东西,一个命令,一个工具都有很多很精妙的东西,怎么学也学不完,这就是Unix的文化啊。本来不想写这篇文章的,因为原先发现有很多中文blog都说了这个算法,但是看了一下, 阅读全文
posted @ 2013-07-27 11:21 张兰云 阅读(1002) 评论(0) 推荐(0) 编辑
摘要: 1. 如果Map和reduce的输出不一致,需要显示的设置Map的输出,没有根据参数进行推导的原因是类型擦除combiner是在copy数据到机器之前可以进行的一些数据的合并,这和数据有关,不是所有的任务都可以进行combiner过程。2. Hadoop 有两套API,一般来说用旧的就只能全部用旧的,用新的话就只能用新的,不能混用,不然会出现各种错误。3.InputSampler的问题,改变reduce的个数会影响结果的输出,报 split point are out of order 。这个问题是因为取样之后,样本不均匀,导致选取的split point 中有相等的,然后报了这个错误,通过查 阅读全文
posted @ 2013-07-25 17:17 张兰云 阅读(287) 评论(0) 推荐(0) 编辑
摘要: "忘记历史的Linux用户注定要输入很多信息。”这也让强有力的历史命令(包括Bash shell的历史变体)不仅在援引之前执行命令而不需重新输入它们时有用,在调用其它很少用到的命令时也有用,这省去了必须重新使用它们的麻烦。该命令按时间顺序列出了之前执行命令的清单。该命令的输出示例如下:01$ history02...0362 rm 092210.sql0463 mysqldump0564 mysqldump -u root -p dev_gamenomad_com > 092210.sql0665 more 092210.sql0766 rm 092210.sql08...09 阅读全文
posted @ 2013-07-24 18:08 张兰云 阅读(726) 评论(0) 推荐(0) 编辑
摘要: 搞定了hadoop配置之后,可以写代码运行了,首先要配一下CLASS_PATH,修改/etc/profileexport JAVA_HOME=/usr/lib/jvm/java-6-openjdk-i386export HADOOP_INSTALL=/home/zhanglanyun/workspace/hadoopexport PATH=$PATH:$HADOOP_INSTALL/binexport CLASSPATH=.:$JAVA_HOME/lib/:$HADOOP_INSTALL/hadoop-core-1.1.2.jar然后编译代码javac A.java ...然后把所有的clas 阅读全文
posted @ 2013-07-11 17:28 张兰云 阅读(519) 评论(0) 推荐(0) 编辑
摘要: vim笔记索引1. 关于Vim1.1 Vim的几种模式2. 启动Vim3. 文档操作4. 光标的移动4.1 基本移动4.2 翻屏4.3 标记5. 插入文本5.1 基本插入5.2 改写插入6. 剪切复制和寄存器6.1 剪切和复制、粘贴6.2 文本对象6.3 寄存器7. 查找与替换7.1 查找7.2 替换7.3 正则表达式8. 排版8.1 基本排版8.2 拼写检查8.3 统计字数9. 编辑多个文件9.1 一次编辑多个文件9.2 多标签编辑9.3 缓冲区10. 分屏编辑10.1 水平分割10.2 垂直分割10.3 关闭子窗口10.4 调整窗口大小10.5 切换和移动窗口11. 快速编辑11.1 改变 阅读全文
posted @ 2013-07-10 10:21 张兰云 阅读(307) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 23 下一页