摘要: 1. 概要 典型的推荐系统大多针对“用户--商品”这种模式下来展开研究的,然后现实中却有另外一种模式“用户--用户”或者“商品--商品”的现象,前者例如交友婚恋网,后者则有求职网之类的。对于交友婚恋网,除了男方对女方有好感外,女方也要对男方有心的情况下才能配成佳偶;求职网的模式和婚恋网又不同,对于求 阅读全文
posted @ 2015-03-01 21:39 很厉害的名字 阅读(2011) 评论(0) 推荐(0)
摘要: 1. type()函数,指出指定对象的类型。2. tuple和list的区别:tuple是不能改变的,与之对应,它没有remove等函数,而list具有相应的函数3.tuple或者list访问:范围引用: 基本样式[下限:上限:步长]>>>print s1[:5] # 从开始到下标4 (下标5的元素... 阅读全文
posted @ 2014-05-05 13:05 很厉害的名字 阅读(278) 评论(0) 推荐(0)
摘要: 1. 能想到的最直接的办法,就是对数组进行排序,最好的排序算法的时间复杂性为O(n*logn),这一个方法请参照各种排序算法。2. 另外申请一个k空间数组,依次更改里面的最大值,每做一次最多要扫描一下这个K大小的空间(如果比上一次的最大值大的话,就不用扫描了,所以这里说是“最多”),整体时间复杂度为O((n-k)*k),实现代码如下:#include #include #include using namespace std;int initData(int test[],int len);int printArray(int test[],int len);int maxOfArray(in 阅读全文
posted @ 2014-03-14 13:35 很厉害的名字 阅读(250) 评论(0) 推荐(0)
摘要: Hdfs上的数据文件为T0,T1,T2(无后缀):T0:What has come into being in him was life, and the life was the light of all people. The light shines in the darkness, and ... 阅读全文
posted @ 2014-02-24 18:59 很厉害的名字 阅读(1666) 评论(0) 推荐(0)
摘要: 1. ZooKeeper的安装:ZooKeeper是一个分布式的服务框架。可用于处理分布式的一些数据管理问题,如统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。步骤如下: a. 准备,下载ZooKeeper,可以从官网下载到,在这里给出一条链接:http://mirror.esocc.com/apache/zookeeper/zookeeper-3.4.5/ b.执行 tar -zxvf zookeeper-3.4.5.tar.gz,会出现zookeeper-3.4.5这个文件夹 c.修改环境变量:执行 sudo gedit /etc/profile ,然后加入... 阅读全文
posted @ 2014-02-24 14:35 很厉害的名字 阅读(657) 评论(0) 推荐(0)
摘要: 今天写了一个用mapreduce求平均分的程序,结果是出来了,可是没有按照“学生名字”进行排序,如果是英文名字的话,结果是排好序的。代码如下:package com.pro.bq;import java.io.IOException;import java.util.StringTokenizer;... 阅读全文
posted @ 2014-02-20 22:25 很厉害的名字 阅读(1112) 评论(0) 推荐(0)
摘要: Map处理的是一个纯文本。Mapper处理的数据是由InputFormat分解过的数据集,其中InputFormat的作用是将数据集切割成小数据集InputSplit,每一个InputSplit将由一个Mapper处理,此外,InputFormat中还提供了一个RecordReader的实现,并将一个InputSplit解析成对提供给map函数。InputFormat的默认值是TextInputFormat,它针对文本文件,按行将文本切割成InputSplit,并用LineRecordReader将InputSplit解析成对,key是行在文本中的位置,value是文本中的一行。 Inp... 阅读全文
posted @ 2014-02-20 13:15 很厉害的名字 阅读(779) 评论(0) 推荐(0)
摘要: 今天在测试mapreduce的程序时,就是简单的去重,对照课本上的程序和自己的程序,唯一不同的就是“org.apache.hadoop.mapreduce.Reducer.Context context”,我写的程序如下:package com.pro.bq;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.i 阅读全文
posted @ 2014-02-18 17:07 很厉害的名字 阅读(1385) 评论(0) 推荐(0)
摘要: 在hadoop部署好了之后是不能马上应用的,而是对配置的文件系统进行格式化。这里的文件系统,在物理上还未存在,或者用网络磁盘来描述更加合适;还有格式化,并不是传统意义上的磁盘清理,而是一些清除与准备工作。namemode是hdfs系统中的管理者,它负责管理文件系统的命名空间,维护文件系统的文件树以及所有的文件和目录的元数据,元数据的格式如下:同时为了保证操作的可靠性,还引入了操作日志,所以,namenode会持久化这些数据到本地。对于第一次使用HDFS时,需要执行-format命令才能正常使用namenode节点。在namenode节点上有个重要的路径,就是{dfs.name.dir},这个属 阅读全文
posted @ 2013-11-25 15:53 很厉害的名字 阅读(11148) 评论(0) 推荐(0)
摘要: 1 package com.bq.pro; 2 3 import java.io.IOException; 4 5 import org.apache.hadoop.conf.Configuration; 6 import org.apache.hadoop.fs.FSDataInputStream; 7 import org.apache.hadoop.fs.FSDataOutputStream; 8 import org.apache.hadoop.fs.FileSystem; 9 import org.apache.hadoop.fs.FileStatus;10 import or... 阅读全文
posted @ 2013-11-22 10:37 很厉害的名字 阅读(517) 评论(0) 推荐(0)