2018年9月7日

【day1】tensorflow版本问题及初步使用

摘要: 版本问题 tensorflow更新到1.10.0之后,由于软件包依赖的问题,先后报如下错误: 'module' object has no attribute 'computation' got an unexpected keyword argument "serialized_options" 阅读全文

posted @ 2018-09-07 22:38 _Deron_ 阅读(142) 评论(0) 推荐(0) 编辑

2017年1月14日

tflearn save模型异常

摘要: 存储模型始终无法形成单个文件,最初以为是机器中间断电\休眠引起的,重复了3次之后,发现这个问题一直存在。(每一次都要跑8~9个小时啊,摔...) 解决办法:tensorflow的版本回退到0.11版 https://github.com/tflearn/tflearn/issues/480 最后是酱 阅读全文

posted @ 2017-01-14 16:30 _Deron_ 阅读(1286) 评论(2) 推荐(0) 编辑

2016年4月10日

布隆过滤器(Bloom Filter)

摘要: 在大数据的实时处理系统中,累加型的计算(PV统计)可以使用累加器解决;非累加型的计算(UV统计),需要损失一定准确率来保证执行效率,对最终值进行估算。其中一种估算方法便是布隆过滤器。 BF是一种二进制向量数据结构,拥有很高的空间和时间效率。其基本原理是使用长度为m的位数组M存储集合信息,同时使用k个 阅读全文

posted @ 2016-04-10 20:34 _Deron_ 阅读(804) 评论(0) 推荐(0) 编辑

2014年11月13日

初识Spark(Spark系列)

摘要: 1.SparkSpark是继Hadoop之后,另外一种开源的高效大数据处理引擎,目前已提交为apach顶级项目。效率:据官方网站介绍,Spark是Hadoop运行效率的10-100倍(随内存计算、磁盘计算的不同而不同)。语言:支持的语言包括java、scala、python等,此外还支持SQL查询。... 阅读全文

posted @ 2014-11-13 20:07 _Deron_ 阅读(330) 评论(0) 推荐(0) 编辑

2013年11月19日

Hadoop实践

摘要: 1.将HDFS中的文本文件读取并以JSON格式转存到MongoDB时,报磁盘不足的异常。实验室的5台计算机的存储空间都在500G以上,就目前存储的数据量来看,完全达不到磁盘接近饱和的状态。通过查看HDFS的web客户端,显示如下:看了一下remaining,发现差别很大,首先想到的balance;其次看出dm5的总存储空间只有0.03TB,完全不正常,再看一下Linux的磁盘使用情况,让我大跌眼镜:根目录的挂载只有9.4G,而HDFS存储数据的文件夹就放在本地磁盘的根目录下,如下图:看到以上内容,应该修改本地存储目录才能解决问题。于是就有了下面的操作,将本地存储文件夹放在大一点的“房子”里:当 阅读全文

posted @ 2013-11-19 20:04 _Deron_ 阅读(329) 评论(0) 推荐(0) 编辑

2013年9月22日

install postgis(2.0) on ubuntu(12.04)

摘要: 1. 安装postgissudo apt-add-repository ppa:sharpie/for-science # To get GEOS 3.3.2 sudo apt-add-repository ppa:sharpie/postgis-nightlysudo apt-get updatesudo apt-get install postgresql-9.1-postgis2. 创建数据库模版 sudo su postgres createdb postgis_template psql -d postgis_template -f /usr/share/po... 阅读全文

posted @ 2013-09-22 09:33 _Deron_ 阅读(313) 评论(0) 推荐(0) 编辑

2013年8月7日

MapReduce库类

摘要: Hadoop除了可以让开发人员自行编写map函数和reduce函数,还提供一些常用函数(mapper、reducer和partitioner)的类库,这些类位于org.apache.hadoop.mapred.lib包内,在1.2.1版,该包包含一个接口和若干类。在org.apache.hadoop.mapreduce.lib 包内也存在相关类库,且有部分重复。mapred包内部是旧API,mapreduce包是重构之后的新API,但两者都可以使用。接口如下:InputSampler.SamplerInterface to sample using anInputFormat.类如下:Bina 阅读全文

posted @ 2013-08-07 15:36 _Deron_ 阅读(487) 评论(0) 推荐(0) 编辑

2013年7月2日

Mongo组合索引优化

摘要: 包含了等值测试、排序及范围过滤查询的索引建立方法:1. 等值测试 在索引中加入所有需要做等值测试的字段,任意顺序。2. 排序字段(多排序字段的升/降序问题 ) 根据查询的顺序有序的向索引中添加字段。3. 范围过滤 以字段的基数(Collection中字段的不同值的数量)从低到高的向索引中添加范围过滤字段。当然这里还有一个规则:如果索引中的等值或者范围查询字段不能过滤出Collection中90%以上的文档,那么把它移除索引估计会更好一些。并且如果你在一个Collection上有多个索引,那么必须hint Mongos。详细内容可以查阅参考资料1.参考资料:1. http://www.csdn. 阅读全文

posted @ 2013-07-02 16:21 _Deron_ 阅读(482) 评论(0) 推荐(0) 编辑

2013年6月9日

Hama——BSP、Graph教程

摘要: 1. BSPHama提供纯BSP模型,支持消息传递与全局通信。BSP模型由一系列超步组成,每一个超步包括3个部分: 1)本地计算 2)进程通信 3)障栅同步针对大量的科学计算问题,使用BSP模型可以编写高性能的并行计算算法。通过继承org.apache.hama.bsp.BSP类,创建自己的BSP类。继承类必须实现如下方法: public abstract void bsp(BSPPeer<K1, V1, K2, V2, M extends Writable> peer) throws IOException, SyncException, InterruptedException 阅读全文

posted @ 2013-06-09 15:25 _Deron_ 阅读(1042) 评论(0) 推荐(0) 编辑

2013年6月2日

oozie:hadoop中的工作流引擎

摘要: 一、maven安装1)从网站上下载Linux版本的Maven安装包;apache-maven-3.0.5-bin.tar.gz下载具体解压目录在 /home/maven/========================================2)解压apache-maven-3.0.5-bin.tar.gz进行安装;tar -xzvf apache-maven-3.0.5-bin.tar.gz3)设置maven环境变量;vim /etc/profile或者vim /etc/environment在末尾处增加如下内容:#maven envirmentexport M2_HOME=/hom 阅读全文

posted @ 2013-06-02 17:54 _Deron_ 阅读(2641) 评论(0) 推荐(0) 编辑

导航