会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
搬砖的小沙弥
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
2015年3月1日
【推荐系统】双向选择推荐系统
摘要: 1. 概要 典型的推荐系统大多针对“用户--商品”这种模式下来展开研究的,然后现实中却有另外一种模式“用户--用户”或者“商品--商品”的现象,前者例如交友婚恋网,后者则有求职网之类的。对于交友婚恋网,除了男方对女方有好感外,女方也要对男方有心的情况下才能配成佳偶;求职网的模式和婚恋网又不同,对于求
阅读全文
posted @ 2015-03-01 21:39 很厉害的名字
阅读(2011)
评论(0)
推荐(0)
2014年5月5日
python笔记
摘要: 1. type()函数,指出指定对象的类型。2. tuple和list的区别:tuple是不能改变的,与之对应,它没有remove等函数,而list具有相应的函数3.tuple或者list访问:范围引用: 基本样式[下限:上限:步长]>>>print s1[:5] # 从开始到下标4 (下标5的元素...
阅读全文
posted @ 2014-05-05 13:05 很厉害的名字
阅读(278)
评论(0)
推荐(0)
2014年3月14日
寻找最小的k个数
摘要: 1. 能想到的最直接的办法,就是对数组进行排序,最好的排序算法的时间复杂性为O(n*logn),这一个方法请参照各种排序算法。2. 另外申请一个k空间数组,依次更改里面的最大值,每做一次最多要扫描一下这个K大小的空间(如果比上一次的最大值大的话,就不用扫描了,所以这里说是“最多”),整体时间复杂度为O((n-k)*k),实现代码如下:#include #include #include using namespace std;int initData(int test[],int len);int printArray(int test[],int len);int maxOfArray(in
阅读全文
posted @ 2014-03-14 13:35 很厉害的名字
阅读(250)
评论(0)
推荐(0)
2014年2月24日
MapReduce读取hdfs上文件,建立词频的倒排索引到Hbase
摘要: Hdfs上的数据文件为T0,T1,T2(无后缀):T0:What has come into being in him was life, and the life was the light of all people. The light shines in the darkness, and ...
阅读全文
posted @ 2014-02-24 18:59 很厉害的名字
阅读(1666)
评论(0)
推荐(0)
hbase-0.94.16 在hadoop-1.2.1的安装配置
摘要: 1. ZooKeeper的安装:ZooKeeper是一个分布式的服务框架。可用于处理分布式的一些数据管理问题,如统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。步骤如下: a. 准备,下载ZooKeeper,可以从官网下载到,在这里给出一条链接:http://mirror.esocc.com/apache/zookeeper/zookeeper-3.4.5/ b.执行 tar -zxvf zookeeper-3.4.5.tar.gz,会出现zookeeper-3.4.5这个文件夹 c.修改环境变量:执行 sudo gedit /etc/profile ,然后加入...
阅读全文
posted @ 2014-02-24 14:35 很厉害的名字
阅读(657)
评论(0)
推荐(0)
2014年2月20日
MapReduce 中的Map后,sort不能对中文的key排序
摘要: 今天写了一个用mapreduce求平均分的程序,结果是出来了,可是没有按照“学生名字”进行排序,如果是英文名字的话,结果是排好序的。代码如下:package com.pro.bq;import java.io.IOException;import java.util.StringTokenizer;...
阅读全文
posted @ 2014-02-20 22:25 很厉害的名字
阅读(1112)
评论(0)
推荐(0)
wordCount程序中MapReduce工作过程分析
摘要: Map处理的是一个纯文本。Mapper处理的数据是由InputFormat分解过的数据集,其中InputFormat的作用是将数据集切割成小数据集InputSplit,每一个InputSplit将由一个Mapper处理,此外,InputFormat中还提供了一个RecordReader的实现,并将一个InputSplit解析成对提供给map函数。InputFormat的默认值是TextInputFormat,它针对文本文件,按行将文本切割成InputSplit,并用LineRecordReader将InputSplit解析成对,key是行在文本中的位置,value是文本中的一行。 Inp...
阅读全文
posted @ 2014-02-20 13:15 很厉害的名字
阅读(779)
评论(0)
推荐(0)
2014年2月18日
使用eclipse的快捷键自动生成的map或者reduce函数的参数中:“org.apache.hadoop.mapreduce.Reducer.Context context”
摘要: 今天在测试mapreduce的程序时,就是简单的去重,对照课本上的程序和自己的程序,唯一不同的就是“org.apache.hadoop.mapreduce.Reducer.Context context”,我写的程序如下:package com.pro.bq;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.i
阅读全文
posted @ 2014-02-18 17:07 很厉害的名字
阅读(1385)
评论(0)
推荐(0)
2013年11月25日
"hadoop namenode -format"命令的作用和影响的文件
摘要: 在hadoop部署好了之后是不能马上应用的,而是对配置的文件系统进行格式化。这里的文件系统,在物理上还未存在,或者用网络磁盘来描述更加合适;还有格式化,并不是传统意义上的磁盘清理,而是一些清除与准备工作。namemode是hdfs系统中的管理者,它负责管理文件系统的命名空间,维护文件系统的文件树以及所有的文件和目录的元数据,元数据的格式如下:同时为了保证操作的可靠性,还引入了操作日志,所以,namenode会持久化这些数据到本地。对于第一次使用HDFS时,需要执行-format命令才能正常使用namenode节点。在namenode节点上有个重要的路径,就是{dfs.name.dir},这个属
阅读全文
posted @ 2013-11-25 15:53 很厉害的名字
阅读(11148)
评论(0)
推荐(0)
2013年11月22日
伪分布模式下使用java接口,访问hdfs
摘要: 1 package com.bq.pro; 2 3 import java.io.IOException; 4 5 import org.apache.hadoop.conf.Configuration; 6 import org.apache.hadoop.fs.FSDataInputStream; 7 import org.apache.hadoop.fs.FSDataOutputStream; 8 import org.apache.hadoop.fs.FileSystem; 9 import org.apache.hadoop.fs.FileStatus;10 import or...
阅读全文
posted @ 2013-11-22 10:37 很厉害的名字
阅读(517)
评论(0)
推荐(0)
上一页
1
2
3