很厉害的名字

2015年3月1日

摘要： 1. 概要典型的推荐系统大多针对“用户--商品”这种模式下来展开研究的，然后现实中却有另外一种模式“用户--用户”或者“商品--商品”的现象，前者例如交友婚恋网，后者则有求职网之类的。对于交友婚恋网，除了男方对女方有好感外，女方也要对男方有心的情况下才能配成佳偶；求职网的模式和婚恋网又不同，对于求阅读全文

posted @ 2015-03-01 21:39 很厉害的名字阅读(2011) 评论(0) 推荐(0)

2014年5月5日

python笔记

摘要： 1. type（）函数，指出指定对象的类型。2. tuple和list的区别：tuple是不能改变的，与之对应，它没有remove等函数，而list具有相应的函数3.tuple或者list访问：范围引用：基本样式[下限:上限:步长]>>>print s1[:5] # 从开始到下标4 （下标5的元素... 阅读全文

posted @ 2014-05-05 13:05 很厉害的名字阅读(278) 评论(0) 推荐(0)

2014年3月14日

寻找最小的k个数

摘要： 1. 能想到的最直接的办法，就是对数组进行排序，最好的排序算法的时间复杂性为O（n*logn），这一个方法请参照各种排序算法。2. 另外申请一个k空间数组，依次更改里面的最大值，每做一次最多要扫描一下这个K大小的空间（如果比上一次的最大值大的话，就不用扫描了，所以这里说是“最多”），整体时间复杂度为O（（n-k）*k）,实现代码如下：#include #include #include using namespace std;int initData(int test[],int len);int printArray(int test[],int len);int maxOfArray(in 阅读全文

posted @ 2014-03-14 13:35 很厉害的名字阅读(250) 评论(0) 推荐(0)

2014年2月24日

MapReduce读取hdfs上文件，建立词频的倒排索引到Hbase

摘要： Hdfs上的数据文件为T0,T1,T2(无后缀)：T0:What has come into being in him was life, and the life was the light of all people. The light shines in the darkness, and ... 阅读全文

posted @ 2014-02-24 18:59 很厉害的名字阅读(1666) 评论(0) 推荐(0)

hbase-0.94.16 在hadoop-1.2.1的安装配置

摘要： 1. ZooKeeper的安装：ZooKeeper是一个分布式的服务框架。可用于处理分布式的一些数据管理问题，如统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。步骤如下： a. 准备，下载ZooKeeper，可以从官网下载到，在这里给出一条链接：http://mirror.esocc.com/apache/zookeeper/zookeeper-3.4.5/ b.执行 tar -zxvf zookeeper-3.4.5.tar.gz，会出现zookeeper-3.4.5这个文件夹 c.修改环境变量：执行 sudo gedit /etc/profile ,然后加入... 阅读全文

posted @ 2014-02-24 14:35 很厉害的名字阅读(657) 评论(0) 推荐(0)

2014年2月20日

MapReduce 中的Map后，sort不能对中文的key排序

摘要：今天写了一个用mapreduce求平均分的程序，结果是出来了，可是没有按照“学生名字”进行排序，如果是英文名字的话，结果是排好序的。代码如下：package com.pro.bq;import java.io.IOException;import java.util.StringTokenizer;... 阅读全文

posted @ 2014-02-20 22:25 很厉害的名字阅读(1112) 评论(0) 推荐(0)

wordCount程序中MapReduce工作过程分析

摘要： Map处理的是一个纯文本。Mapper处理的数据是由InputFormat分解过的数据集，其中InputFormat的作用是将数据集切割成小数据集InputSplit，每一个InputSplit将由一个Mapper处理，此外，InputFormat中还提供了一个RecordReader的实现，并将一个InputSplit解析成对提供给map函数。InputFormat的默认值是TextInputFormat，它针对文本文件，按行将文本切割成InputSplit，并用LineRecordReader将InputSplit解析成对，key是行在文本中的位置，value是文本中的一行。 Inp... 阅读全文

posted @ 2014-02-20 13:15 很厉害的名字阅读(779) 评论(0) 推荐(0)

2014年2月18日

使用eclipse的快捷键自动生成的map或者reduce函数的参数中：“org.apache.hadoop.mapreduce.Reducer.Context context”

摘要：今天在测试mapreduce的程序时，就是简单的去重，对照课本上的程序和自己的程序，唯一不同的就是“org.apache.hadoop.mapreduce.Reducer.Context context”，我写的程序如下：package com.pro.bq;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.i 阅读全文

posted @ 2014-02-18 17:07 很厉害的名字阅读(1385) 评论(0) 推荐(0)

2013年11月25日

"hadoop namenode -format"命令的作用和影响的文件

摘要：在hadoop部署好了之后是不能马上应用的，而是对配置的文件系统进行格式化。这里的文件系统，在物理上还未存在，或者用网络磁盘来描述更加合适；还有格式化，并不是传统意义上的磁盘清理，而是一些清除与准备工作。namemode是hdfs系统中的管理者，它负责管理文件系统的命名空间，维护文件系统的文件树以及所有的文件和目录的元数据，元数据的格式如下：同时为了保证操作的可靠性，还引入了操作日志，所以，namenode会持久化这些数据到本地。对于第一次使用HDFS时，需要执行-format命令才能正常使用namenode节点。在namenode节点上有个重要的路径，就是{dfs.name.dir}，这个属阅读全文

posted @ 2013-11-25 15:53 很厉害的名字阅读(11148) 评论(0) 推荐(0)

2013年11月22日

伪分布模式下使用java接口，访问hdfs

摘要： 1 package com.bq.pro; 2 3 import java.io.IOException; 4 5 import org.apache.hadoop.conf.Configuration; 6 import org.apache.hadoop.fs.FSDataInputStream; 7 import org.apache.hadoop.fs.FSDataOutputStream; 8 import org.apache.hadoop.fs.FileSystem; 9 import org.apache.hadoop.fs.FileStatus;10 import or... 阅读全文

posted @ 2013-11-22 10:37 很厉害的名字阅读(517) 评论(0) 推荐(0)

搬砖的小沙弥