农民阿姨 - 博客园

2015年12月4日

摘要：项目描述：今天花了680元买了阿里云的一台内存1G, 带宽1M 的云主机. 想以后方便测试用,而且想把自己的博客签到自己的主机上.所以自己就搭了一个测试的环境. 可以用来进行基本的hbase 入库, hadoop mrjob 的运行. 步骤： 1.配置JDK 我的安装路径如下:/usr/local 阅读全文

posted @ 2015-12-04 10:24 农民阿姨阅读(1694) 评论(0) 推荐(0)

2015年11月30日

bug--java访问hdfs (Server IPC version 9 cannot communicate with client version 4 错误)

摘要： 1. 今天想做一个hdfs的java工具类，但是在连接hdfs的时候，报如下错误： Exception in thread "main" org.apache.hadoop.ipc.RemoteException: Server IPC version 9 cannot communicate with client version 4 at org.apache.hadoop.ipc.Cli... 阅读全文

posted @ 2015-11-30 17:27 农民阿姨阅读(4334) 评论(0) 推荐(0)

3.聚类–K-means的Java实现

摘要： K-means的步骤输入：含n 个样本的数据集，簇的数据K 输出： K 个簇算法步骤： 1.初始化K个簇类中心C1，C2，-……Ck （通常随机选择） 2.repeat 步骤3,4 3，将数据集中的每个样本分配到与之最近的中心Ci所在的簇Cj ； 4. 更新聚类中心Ci,即计算各个簇的样本均值； 5.直到样本分配不在改变上代码： import java.lang.annotation.E... 阅读全文

posted @ 2015-11-30 10:52 农民阿姨阅读(502) 评论(0) 推荐(0)

Sublim text2 的注册码

摘要： 1. Andrew Weber Single User License EA7E-855605 813A03DD 5E4AD9E6 6C0EEB94 BC99798F 942194A6 02396E98 E62C9979 4BB979FE 91424C9D A45400BF F6747D88 2FB88078 90F5CC94 1CDC92DC 8457107A F151657B ... 阅读全文

posted @ 2015-11-30 10:04 农民阿姨阅读(235) 评论(0) 推荐(0)

2015年11月29日

2.交通聚类 -层次聚类（agnes）Java实现

摘要： 1.项目背景在做交通路线分析的时候，客户需要找出车辆的行车规律，我们将车辆每天的行车路线当做一个数据样本，总共有365天或是更多，从这些数据中通过聚类来获得行车路线规律统计分析。我首先想到是K-means算法，不过它的算法思想是任选K个中心点，然后不停的迭代，在迭代的过程中需要不停的更新中心点。在我们着这个项目中，此方案不能解决，因为我们是通过编辑距离来计算两条路线的相似度。可以参考（1.交... 阅读全文

posted @ 2015-11-29 21:58 农民阿姨阅读(1806) 评论(0) 推荐(0)

1.交通聚类：编辑距离（Levenshtein距离）Java实现

摘要： 1.最近工作中要实现用户车辆的行驶路线的聚类，由于所给的数据只有用户一天中交通卡口所监视的卡口名称：即青岛路-威海路-济阳路。要通过聚类实现车辆路线的规律分析，首先要解决的是相似度问题，我们知道计算相似度可以用：空间向量距离（欧式距离，余弦相似度）等算法。可是这些在此要求中都不适应，故需要用编辑距离来解决此问题 2. 编辑距离的思想： a.是指两个字符串之间，由一个转成另一个所需的最... 阅读全文

posted @ 2015-11-29 13:07 农民阿姨阅读(1732) 评论(0) 推荐(0)

hadoop之根据Rowkey从HBase中查询数据

摘要： 1.Hbase 根据rowkey 查询 conf的配置信息如下： conf = new Configuration(); conf.set("hbase.zookeeper.quorum", "192.168.50.253:2181"); conf.set("hbase.rootdir", "hdfs://192.168.50.253:9000... 阅读全文

posted @ 2015-11-29 12:04 农民阿姨阅读(3089) 评论(0) 推荐(0)

2015年11月28日

java实现文件单词频率统计 topN top K

摘要： java 实现单词计数.top N思路先统计每个单词出现的个数利用 TreeSet 的自动排序的功能上代码 wordcount public void wordCount() { String route = "青岛路青岛路济阳路口东济南路宴坡路 "; Map<String, Integer> map = new HashMap&... 阅读全文

posted @ 2015-11-28 14:03 农民阿姨阅读(1711) 评论(0) 推荐(0)

2015年11月27日

Mac 上真正替换LiveWriter 的工具 - ecto

摘要： Mac 上真正替换LiveWriter 的工具 - ecto13年开始使用mac.而后想把 windows 替换到.一直在寻找LiveWriter 的工具,至今终于找到我先感谢这位博主http://www.cnblogs.com/vinceoniphone/archive/2010/06/07/1753076.html看了他得文章后开始自己折腾,确实很好用,特此分享给现在的你,未来的你1. 下载e... 阅读全文

posted @ 2015-11-27 14:47 农民阿姨阅读(275) 评论(0) 推荐(0)

Hbase 的基础操作

摘要： Hbase的基础操作阅读全文

posted @ 2015-11-27 14:22 农民阿姨阅读(183) 评论(0) 推荐(0)

2015年11月21日

字符串查找-1

摘要： /** * Created by zzy on 15/11/16. */ /** * 对于一个给定的 source 字符串和一个 target 字符串， * 你应该在 source 字符串中找出 target 字符串出现的第一个位置(从0开始)。 * 如果不存在，则返回 -1。 * * 如果 source = "source" 和 target = "target"，返回 -1。 ... 阅读全文

posted @ 2015-11-21 22:28 农民阿姨阅读(295) 评论(0) 推荐(0)

Mac 下用IDEA时maven，ant打包（mr 入库hbase）

摘要：现在非常喜欢IDEA，之前在mac 上用的eclipse 经常出现无缘无故的错误。所以转为IDEA. 不过新工具需要学习成本，手头上的项目就遇到了很多问题，现列举如下：背景描述在hadoop 开发时，经常在mr阶段将清洗后的数据入库到Hbase. 在这个过程中，需要编译、打jar包，然后上传到服务器，执行hadoop jar *.jar 命令。每次清洗后需要手动4步操作。农民阿姨天生喜... 阅读全文

posted @ 2015-11-21 19:48 农民阿姨阅读(1928) 评论(0) 推荐(0)

2015年11月18日

hadoop之 mr输出到hbase

摘要： 1.注意问题： 1.在开发过程中一定要导入hbase源码中的lib库否则出现如下错误 TableMapReducUtil 找不到什么…… 2.编码： import java.io.IOException; import java.text.ParseException; import java.text.SimpleDateFormat; import java.util.Date; impor... 阅读全文

posted @ 2015-11-18 17:21 农民阿姨阅读(473) 评论(0) 推荐(0)

2015年10月19日

北美IT公司大致分档

摘要：北美IT公司大致分档（from mitbbs.com)第一档: Uber, Snapchat, Airbnb, Dropbox, Pinterest第二档：Facebook, LinkedIn, Google, Twitter, Apple第三档: Square, Yelp, Netflix, Sk... 阅读全文

posted @ 2015-10-19 15:30 农民阿姨阅读(1003) 评论(0) 推荐(0)

2015年10月17日

推荐系统（协同过滤，slope one）

摘要： 1.推荐系统中的算法：协同过滤: 基于用户 user-cf 基于内容 item –cf slop one 关联规则（Apriori 算法，啤酒与尿布） 2.slope one 算法 slope one 算法是基于不同物品之间的评分差的线性算法，预测用户对物品评分的个性化算法。slope one 算法是由daniel 教授在2005年提出。主要分为2步 1. ... 阅读全文

posted @ 2015-10-17 15:41 农民阿姨阅读(497) 评论(0) 推荐(0)

机器学习的常见面试问题

摘要： 1. 你在研究/项目/实习经历中主要用过哪些机器学习/数据挖掘的算法？答：推荐中用过CF,LR 分类中用过SVM,GBDT；一般用法是什么，是不是自己实现的，有什么比较知名的实现，使用过程中踩过哪些坑；优缺点分析。 2.你熟悉的机器学习/数据挖掘算法主要有哪些？基础算法要多说，其它算法要挑熟悉程度高的说，不光列举算法，也适当说说应用场合；答：协同过滤，聚类，分类， 3. ... 阅读全文

posted @ 2015-10-17 14:18 农民阿姨阅读(785) 评论(0) 推荐(0)

2015年10月11日

关联规则之Aprior算法(购物篮分析)

摘要： 0.支持度与置信度《mahout实战》与《机器学习实战》一起该买的记录数占所有商品记录总数的比例——支持度(整体)买了《mahout实战》与《机器学习实战》一起该买的记录数占所有购买《mahout实战》记录数的比例——置信度(局部)支持度、置信度越大，商品出现一起购买的次数就越多，可信度就越大。支持... 阅读全文

posted @ 2015-10-11 22:33 农民阿姨阅读(2885) 评论(0) 推荐(0)

2015年10月7日

Python的Set和List的性能比较 + 两者之间的转换

摘要： 1.能用set 不用list ~$ python -m timeit -n 1000 "[x for x in range(1000) if x in range(500, 1500)]" 1000 loops, best of 3: 28.2 msec per loop ~$ python -m timeit -n 1000 "set(range(1000)).intersection(ran... 阅读全文

posted @ 2015-10-07 10:04 农民阿姨阅读(10163) 评论(0) 推荐(0)

Python 集合set添加删除、交集、并集、集合操作符号

摘要：在Python中集合set是基本数据类型的一种，它有可变集合(set)和不可变集合(frozenset)两种。创建集合set、集合set添加、集合删除、交集、并集、差集的操作都是非常实用的方法。 1.创建集合 set类是在python的sets模块中，大家现在使用的python2.3中，不需要导入sets模块可以直接创建集合。>>>set('boy')set(['y', 'b', 'o'])... 阅读全文

posted @ 2015-10-07 09:57 农民阿姨阅读(18151) 评论(0) 推荐(1)

2015年10月4日

3.算法-二叉树遍历

摘要： 2015-10-04周日9:30 1. 阅读全文

posted @ 2015-10-04 13:27 农民阿姨阅读(196) 评论(0) 推荐(0)

农民阿姨-白眉大叔

跟随农民伯伯

公告