04 2012 档案
摘要:继承关系:SequenceFileInputFormat extends FileInputFormat implements InputFormat 。SequenceFileInputFormat 代码如下(其实很简单): /** * 覆盖了FileInputFormat的这个方法,FileInputFormat通过这个方法得到的FileStatus[] * 长度就是将要运行的map的长度,每个FileStatus对应一个文件 */ @Override protected FileStatus[] listStatus(JobConf job) throws IOExce...
阅读全文
摘要:以下是关于InetAddress的一些测试package com.ddc.gemantic;import java.net.InetAddress;import java.net.UnknownHostException;public class InetAddressTestMain { /**对于InetAddress的测试 * 关键词:主机名、主机别名、ip地址、ipv4、ipv6 * InetAddress是一个不可变对象 * InetAddress是一个对象,包含3个属性:主机名称、主机别名、主机ip * 一个ip对应唯一一个主机名,一个主机名可...
阅读全文
摘要:问题:集群中的存储数据增大,导致datanode的空间都快占满了(以前的dfs.data.dir=/data/hdfs/dfs/data),机器的硬盘监控程序不停的报警 。 给每台机器加了一倍的存储硬盘(新的dfs.data.dir=/data/hdfs/dfs/data,/data/hdfs/dfs/data2 新的硬盘挂载在/data/hdfs/dfs/data2),但是现在的问题来了,以前装数据的那块盘还是满的,仍然在报警,怎么把数据均衡到这两块盘上面 ??解决:移动其中一个文件夹的数据(其实也就是block)到另外一个文件加 。原理:hdfs中文件的inode文件树信息以及每个文件对.
阅读全文
摘要:简单话题识别的处理步骤:1、tf-idf处理词的值(idf为300万篇博文的切词)。2、切词并进行统计词频,依照tf-idf计算该词在向量中的维度值 。3、切分标题统计词频,标题的权重是3 (统计时,标题的实际词频*3) 。4、去掉非名词的词语,去掉一些自定义的无意义名词(像“今,今天”,“时候”等...
阅读全文

浙公网安备 33010602011771号