上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 15 下一页
摘要: 项目描述: 今天花了680元买了阿里云的一台内存1G, 带宽1M 的云主机. 想以后方便测试用,而且想把自己的博客签到自己的主机上.所以自己就搭了一个测试的环境. 可以用来进行基本的hbase 入库, hadoop mrjob 的运行. 步骤: 1.配置JDK 我的安装路径如下:/usr/local 阅读全文
posted @ 2015-12-04 10:24 农民阿姨 阅读(1668) 评论(0) 推荐(0) 编辑
摘要: 1. 今天想做一个hdfs的java工具类,但是在连接hdfs的时候,报如下错误: Exception in thread "main" org.apache.hadoop.ipc.RemoteException: Server IPC version 9 cannot communicate with client version 4 at org.apache.hadoop.ipc.Cli... 阅读全文
posted @ 2015-11-30 17:27 农民阿姨 阅读(4295) 评论(0) 推荐(0) 编辑
摘要: K-means的步骤 输入: 含n 个样本的数据集,簇的数据K 输出: K 个簇 算法步骤: 1.初始化K个簇类中心C1,C2,-……Ck (通常随机选择) 2.repeat 步骤3,4 3,将数据集中的每个样本分配到与之最近的中心Ci所在的簇Cj ; 4. 更新聚类中心Ci,即计算各个簇的样本均值; 5.直到样本分配不在改变 上代码: import java.lang.annotation.E... 阅读全文
posted @ 2015-11-30 10:52 农民阿姨 阅读(437) 评论(0) 推荐(0) 编辑
摘要: 1. Andrew Weber Single User License EA7E-855605 813A03DD 5E4AD9E6 6C0EEB94 BC99798F 942194A6 02396E98 E62C9979 4BB979FE 91424C9D A45400BF F6747D88 2FB88078 90F5CC94 1CDC92DC 8457107A F151657B ... 阅读全文
posted @ 2015-11-30 10:04 农民阿姨 阅读(221) 评论(0) 推荐(0) 编辑
摘要: 1.项目背景 在做交通路线分析的时候,客户需要找出车辆的行车规律,我们将车辆每天的行车路线当做一个数据样本,总共有365天或是更多,从这些数据中通过聚类来获得行车路线规律统计分析。 我首先想到是K-means算法,不过它的算法思想是任选K个中心点,然后不停的迭代,在迭代的过程中需要不停的更新中心点。在我们着这个项目中,此方案不能解决,因为我们是通过编辑距离来计算两条路线的相似度。可以参考(1.交... 阅读全文
posted @ 2015-11-29 21:58 农民阿姨 阅读(1726) 评论(0) 推荐(0) 编辑
摘要: 1.最近工作中要实现用户车辆的行驶路线的聚类,由于所给的数据只有用户一天中交通卡口所监视的卡口名称 :即青岛路-威海路-济阳路 。 要通过聚类实现车辆路线的规律分析,首先要解决的是相似度问题,我们知道计算相似度可以用 :空间向量距离(欧式距离,余弦相似度)等算法。可是这些在此要求中都不适应,故需要用编辑距离来解决此问题 2. 编辑距离的思想: a.是指两个字符串之间,由一个转成另一个所需的最... 阅读全文
posted @ 2015-11-29 13:07 农民阿姨 阅读(1685) 评论(0) 推荐(0) 编辑
摘要: 1.Hbase 根据rowkey 查询 conf的配置信息如下: conf = new Configuration(); conf.set("hbase.zookeeper.quorum", "192.168.50.253:2181"); conf.set("hbase.rootdir", "hdfs://192.168.50.253:9000... 阅读全文
posted @ 2015-11-29 12:04 农民阿姨 阅读(3050) 评论(0) 推荐(0) 编辑
摘要: java 实现单词计数.top N思路 先统计每个单词出现的个数 利用 TreeSet 的自动排序的功能上代码 wordcount public void wordCount() { String route = "青岛路 青岛路 济阳路口东 济南路 宴坡路 "; Map<String, Integer> map = new HashMap&... 阅读全文
posted @ 2015-11-28 14:03 农民阿姨 阅读(1656) 评论(0) 推荐(0) 编辑
摘要: Mac 上真正替换LiveWriter 的工具 - ecto13年开始使用mac.而后想把 windows 替换到.一直在寻找LiveWriter 的工具,至今终于找到我先感谢这位博主http://www.cnblogs.com/vinceoniphone/archive/2010/06/07/1753076.html看了他得文章后开始自己折腾,确实很好用,特此分享给现在的你,未来的你1. 下载e... 阅读全文
posted @ 2015-11-27 14:47 农民阿姨 阅读(259) 评论(0) 推荐(0) 编辑
摘要: Hbase的基础操作 阅读全文
posted @ 2015-11-27 14:22 农民阿姨 阅读(169) 评论(0) 推荐(0) 编辑
摘要: /** * Created by zzy on 15/11/16. */ /** * 对于一个给定的 source 字符串和一个 target 字符串, * 你应该在 source 字符串中找出 target 字符串出现的第一个位置(从0开始)。 * 如果不存在,则返回 -1。 * * 如果 source = "source" 和 target = "target",返回 -1。 ... 阅读全文
posted @ 2015-11-21 22:28 农民阿姨 阅读(278) 评论(0) 推荐(0) 编辑
摘要: 现在非常喜欢IDEA,之前在mac 上用的eclipse 经常出现无缘无故的错误。所以转为IDEA. 不过新工具需要学习成本,手头上的项目就遇到了很多问题,现列举如下: 背景描述 在hadoop 开发时,经常在mr阶段将清洗后的数据入库到Hbase. 在这个过程中,需要编译、打jar包,然后上传到服务器,执行hadoop jar *.jar 命令。每次清洗后需要手动4步操作。农民阿姨天生喜... 阅读全文
posted @ 2015-11-21 19:48 农民阿姨 阅读(1795) 评论(0) 推荐(0) 编辑
摘要: 1.注意问题: 1.在开发过程中一定要导入hbase源码中的lib库否则出现如下错误 TableMapReducUtil 找不到什么…… 2.编码: import java.io.IOException; import java.text.ParseException; import java.text.SimpleDateFormat; import java.util.Date; impor... 阅读全文
posted @ 2015-11-18 17:21 农民阿姨 阅读(448) 评论(0) 推荐(0) 编辑
摘要: 北美IT公司大致分档(from mitbbs.com)第一档: Uber, Snapchat, Airbnb, Dropbox, Pinterest第二档:Facebook, LinkedIn, Google, Twitter, Apple第三档: Square, Yelp, Netflix, Sk... 阅读全文
posted @ 2015-10-19 15:30 农民阿姨 阅读(965) 评论(0) 推荐(0) 编辑
摘要: 1.推荐系统中的算法: 协同过滤: 基于用户 user-cf 基于内容 item –cf slop one 关联规则 (Apriori 算法,啤酒与尿布) 2.slope one 算法 slope one 算法是基于不同物品之间的评分差的线性算法,预测用户对物品评分的个性化算法。slope one 算法是由daniel 教授在2005年提出。主要分为2步 1. ... 阅读全文
posted @ 2015-10-17 15:41 农民阿姨 阅读(479) 评论(0) 推荐(0) 编辑
摘要: 1. 你在研究/项目/实习经历中主要用过哪些机器学习/数据挖掘的算法? 答:推荐中用过CF,LR 分类中用过SVM,GBDT; 一般用法是什么,是不是自己实现的,有什么比较知名的实现,使用过程中踩过哪些坑; 优缺点分析。 2.你熟悉的机器学习/数据挖掘算法主要有哪些? 基础算法要多说,其它算法要挑熟悉程度高的说,不光列举算法,也适当说说应用场合; 答:协同过滤,聚类,分类, 3. ... 阅读全文
posted @ 2015-10-17 14:18 农民阿姨 阅读(759) 评论(0) 推荐(0) 编辑
摘要: 0.支持度与置信度《mahout实战》与《机器学习实战》一起该买的记录数占所有商品记录总数的比例——支持度(整体)买了《mahout实战》与《机器学习实战》一起该买的记录数占所有购买《mahout实战》记录数的比例——置信度(局部)支持度、置信度越大,商品出现一起购买的次数就越多,可信度就越大。支持... 阅读全文
posted @ 2015-10-11 22:33 农民阿姨 阅读(2811) 评论(0) 推荐(0) 编辑
摘要: 1.能用set 不用list ~$ python -m timeit -n 1000 "[x for x in range(1000) if x in range(500, 1500)]" 1000 loops, best of 3: 28.2 msec per loop ~$ python -m timeit -n 1000 "set(range(1000)).intersection(ran... 阅读全文
posted @ 2015-10-07 10:04 农民阿姨 阅读(10127) 评论(0) 推荐(0) 编辑
摘要: 在Python中集合set是基本数据类型的一种,它有可变集合(set)和不可变集合(frozenset)两种。创建集合set、集合set添加、集合删除、交集、并集、差集的操作都是非常实用的方法。 1.创建集合 set类是在python的sets模块中,大家现在使用的python2.3中,不需要导入sets模块可以直接创建集合。>>>set('boy')set(['y', 'b', 'o'])... 阅读全文
posted @ 2015-10-07 09:57 农民阿姨 阅读(17971) 评论(0) 推荐(1) 编辑
摘要: 2015-10-04周日9:30 1. 阅读全文
posted @ 2015-10-04 13:27 农民阿姨 阅读(181) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 15 下一页