摘要: http://www.cnblogs.com/yhlx125/p/5478147.html 阅读全文
posted @ 2017-06-02 11:38 Amelie.tingting 阅读(140) 评论(0) 推荐(0) 编辑
摘要: project:ChainOD_demo 输入:0803-0830出行链 输出: 过程:首先将进站时间戳处理成97-1440范围内的数(因为是从3号开始的),即根据时间戳就能知道这条记录在哪个段内,并将reducer的数目设置为1500,同一个时间段的记录放在同一个reducer里面,这样就能每个r 阅读全文
posted @ 2017-05-22 14:54 Amelie.tingting 阅读(1434) 评论(0) 推荐(0) 编辑
摘要: 原文:http://blog.pluskid.org/?p=39 每个 GMM 由 个 Gaussian 分布组成,每个 Gaussian 称为一个“Component”,这些 Component 线性加成在一起就组成了 GMM 的概率密度函数: 根据上面的式子,如果我们要从 GMM 的分布中随机地 阅读全文
posted @ 2017-05-10 16:17 Amelie.tingting 阅读(598) 评论(0) 推荐(0) 编辑
摘要: 其实需要了解泊松混合模型,但是因为资源很少的关系,先了解下泊松模型 这篇文章大体介绍了泊松模型的推导和意义 阅读全文
posted @ 2017-04-25 11:23 Amelie.tingting 阅读(1480) 评论(0) 推荐(0) 编辑
摘要: 按照这篇文章:this one 安装目录:/usr/local/hadoop/hadoop-2.5.2/hive/apache-hive-1.2.2-bin 最后完成了在主机hadoop伪分布式中Hive安装 启动hadoop后 阅读全文
posted @ 2017-04-24 10:20 Amelie.tingting 阅读(116) 评论(0) 推荐(0) 编辑
摘要: 一篇超级详细的文章:this one 读完之后感触颇深,什么时候在map的时候join什么时候在reducer的时候join 之前写两个输入的时候,写的多么可笑,效率极低。 先用了一遍这篇文章的分布式缓存,在reduce的时候读取,因为hadoop版本太低,所以又做了修改,结合好几篇文章结果: 版本 阅读全文
posted @ 2017-04-21 22:44 Amelie.tingting 阅读(146) 评论(0) 推荐(0) 编辑
摘要: 电脑配置是ubuntu 16.04 我给eclipse安装hadoop插件,新建map/reducer项目,写好之后,若在eclipse上点击run on hadoop,实则是在自己电脑上运行(具体为什么是这样子,还不清楚) 所以,试着打包成jar包远程登入集群,hadoop jar命令运行,但是遇 阅读全文
posted @ 2017-04-19 10:44 Amelie.tingting 阅读(504) 评论(0) 推荐(0) 编辑
摘要: 参考文献:https://my.oschina.net/hetiangui/blog/143364 root登入集群后: 和文章中不同的是,在最后运行代码是提示,permission denied的错误,最后使用下面代码,而不是参考文章中的/tmp 也可能原因,我配置了环境变量为HADOOP_USE 阅读全文
posted @ 2017-04-14 14:59 Amelie.tingting 阅读(436) 评论(0) 推荐(0) 编辑
摘要: 因为,运行hadoop的原因,现在修改jdk版本,以前是1.8修改为1.7 参考文章:http://blog.csdn.net/heybob/article/details/44783597 但是我的存储路径是 版本变成jdk1.7.0_75 阅读全文
posted @ 2017-04-13 21:04 Amelie.tingting 阅读(182) 评论(0) 推荐(0) 编辑
摘要: 打开终端,登入到root,进入/home/newday下 在本地用pscp命令上传.zip的GPS数据 pscp /home/newday/文档/trackgps_20150822.zip newday@172.18.49.17:/home/newday 在hadoop8上 unzip -n tra 阅读全文
posted @ 2017-04-13 17:17 Amelie.tingting 阅读(172) 评论(0) 推荐(0) 编辑