12 2012 档案
摘要:在linux操作系统中,我们可能会有一些需求,去定时删除某个文件夹下的某些文件。为了实现这个需求,我们一般可以采取写一个删除文件的shell脚本,然后放到crontab表中定时执行即可。 但是这个执行方案会有一个问题,我们删除目录的话,一般是采用 rm -rf yourdir这种形式。如果有一天,我们的程序不需要了,我们把上面提到的某个文件都删除了,而我们又没有在crontab表中把这条route job给删除掉。会导致下面的后果: rm -rf yourdir如果找不到yourdir,它会自动跑到你账号下的根目录,然后执行rm -rf 命令,它会将你账号下的所有文件夹,文件全部删除,除...
阅读全文
摘要:悲剧啊,发现原来写入数据库的数据有些问题,需要对这批数据进行处理只有写几行代码连接到数据库批量修改了。 需要操作的字段数据:public class GarbageData { private long id; private String comment; public void setID(long id){ this.id = id; } public long getID(){ return this.id; } public void setComment(String comment){ this.comment = comment; } public String ...
阅读全文
摘要:上篇文章介绍了协同过滤的安装与配置,这篇找了几个协同过滤的简单例子,看一下Mahout给我们提供的强大的协同过滤算法。需要新建一个基于Maven的工程,下面是pom.xml需要导入的包。<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.
阅读全文
摘要:Mahout 是Apache旗下的一个机器学习和数据挖掘的分布式框架,包括聚类,分类,协同过滤,关联规则挖掘等经典的算法。 1. 安装Maven wget http://apache.etoak.com//maven/maven-3/3.0.4/binaries/apache-maven-3.0.4-bin.tar.gz下载最新版本的Maven. tar xvf apache-maven-3.0.2-bin.tar.gz 解压后配置路径,vi ~/.bashrc 在此文件添加如下两行export M3_HOME=maven的实际安装路径export PATH=${M3_HOME}/bin:$.
阅读全文
摘要:(2013年1月5日)近日在网上找到两篇关于Ubuntu下Hadoop单机和集群安装的文章,英文的可以用来参考一下:1.http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/2.http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-multi-node-cluster/ 总体来说,跟单机版的差不多,只是配置文件需要做些修改,以及各个服务器之间可以无密码ssh切换。现在简单描述一下: 1.
阅读全文
摘要:这个是在自己笔记本上的实验版本,在不熟悉的情况还是先考虑在自己的电脑上安装一个试验版本,然后再考虑安装部署生产环境中的机器。首先自己的电脑上需要安装一个虚拟机VMWare WorkStation, 安装好了之后,再在此虚拟机上安装Ubutun操作系统,我这里装的是Ubutun 11.10, 可以通过lsb_release -a 命令查看,如果没有这个命令的话可以用下面的命令安装一下sudo apt-get install lsb。 1. 在此操作系统上新建一个账号hadoop.tinyfun@ubuntu:/home$ sudo addgroup hadoopAdding group `ha.
阅读全文

浙公网安备 33010602011771号