_Deron_

【day1】tensorflow版本问题及初步使用

摘要：版本问题 tensorflow更新到1.10.0之后，由于软件包依赖的问题，先后报如下错误： 'module' object has no attribute 'computation' got an unexpected keyword argument "serialized_options" 阅读全文

posted @ 2018-09-07 22:38 _Deron_ 阅读(155) 评论(0) 推荐(0)

tflearn save模型异常

摘要：存储模型始终无法形成单个文件，最初以为是机器中间断电\休眠引起的，重复了3次之后，发现这个问题一直存在。（每一次都要跑8~9个小时啊，摔...）解决办法：tensorflow的版本回退到0.11版 https://github.com/tflearn/tflearn/issues/480 最后是酱阅读全文

posted @ 2017-01-14 16:30 _Deron_ 阅读(1301) 评论(2) 推荐(0)

布隆过滤器（Bloom Filter）

摘要：在大数据的实时处理系统中，累加型的计算（PV统计）可以使用累加器解决；非累加型的计算（UV统计），需要损失一定准确率来保证执行效率，对最终值进行估算。其中一种估算方法便是布隆过滤器。 BF是一种二进制向量数据结构，拥有很高的空间和时间效率。其基本原理是使用长度为m的位数组M存储集合信息，同时使用k个阅读全文

posted @ 2016-04-10 20:34 _Deron_ 阅读(836) 评论(0) 推荐(0)

初识Spark（Spark系列）

摘要： 1.SparkSpark是继Hadoop之后，另外一种开源的高效大数据处理引擎，目前已提交为apach顶级项目。效率：据官方网站介绍，Spark是Hadoop运行效率的10-100倍（随内存计算、磁盘计算的不同而不同）。语言：支持的语言包括java、scala、python等，此外还支持SQL查询。... 阅读全文

posted @ 2014-11-13 20:07 _Deron_ 阅读(356) 评论(0) 推荐(0)

摘要： 1.将HDFS中的文本文件读取并以JSON格式转存到MongoDB时，报磁盘不足的异常。实验室的5台计算机的存储空间都在500G以上，就目前存储的数据量来看，完全达不到磁盘接近饱和的状态。通过查看HDFS的web客户端，显示如下：看了一下remaining，发现差别很大，首先想到的balance；其次看出dm5的总存储空间只有0.03TB，完全不正常，再看一下Linux的磁盘使用情况，让我大跌眼镜：根目录的挂载只有9.4G，而HDFS存储数据的文件夹就放在本地磁盘的根目录下，如下图：看到以上内容，应该修改本地存储目录才能解决问题。于是就有了下面的操作，将本地存储文件夹放在大一点的“房子”里：当阅读全文

posted @ 2013-11-19 20:04 _Deron_ 阅读(350) 评论(0) 推荐(0)

install postgis（2.0） on ubuntu（12.04）

摘要： 1. 安装postgissudo apt-add-repository ppa:sharpie/for-science # To get GEOS 3.3.2 sudo apt-add-repository ppa:sharpie/postgis-nightlysudo apt-get updatesudo apt-get install postgresql-9.1-postgis2. 创建数据库模版 sudo su postgres createdb postgis_template psql -d postgis_template -f /usr/share/po... 阅读全文

posted @ 2013-09-22 09:33 _Deron_ 阅读(323) 评论(0) 推荐(0)

MapReduce库类

摘要： Hadoop除了可以让开发人员自行编写map函数和reduce函数，还提供一些常用函数（mapper、reducer和partitioner）的类库，这些类位于org.apache.hadoop.mapred.lib包内，在1.2.1版，该包包含一个接口和若干类。在org.apache.hadoop.mapreduce.lib 包内也存在相关类库，且有部分重复。mapred包内部是旧API，mapreduce包是重构之后的新API，但两者都可以使用。接口如下：InputSampler.SamplerInterface to sample using anInputFormat.类如下：Bina 阅读全文

posted @ 2013-08-07 15:36 _Deron_ 阅读(502) 评论(0) 推荐(0)

Mongo组合索引优化

摘要：包含了等值测试、排序及范围过滤查询的索引建立方法：1. 等值测试在索引中加入所有需要做等值测试的字段，任意顺序。2. 排序字段（多排序字段的升/降序问题）根据查询的顺序有序的向索引中添加字段。3. 范围过滤以字段的基数（Collection中字段的不同值的数量）从低到高的向索引中添加范围过滤字段。当然这里还有一个规则：如果索引中的等值或者范围查询字段不能过滤出Collection中90%以上的文档，那么把它移除索引估计会更好一些。并且如果你在一个Collection上有多个索引，那么必须hint Mongos。详细内容可以查阅参考资料1.参考资料：1. http://www.csdn. 阅读全文

posted @ 2013-07-02 16:21 _Deron_ 阅读(490) 评论(0) 推荐(0)

Hama——BSP、Graph教程

摘要： 1. BSPHama提供纯BSP模型，支持消息传递与全局通信。BSP模型由一系列超步组成，每一个超步包括3个部分： 1）本地计算 2）进程通信 3）障栅同步针对大量的科学计算问题，使用BSP模型可以编写高性能的并行计算算法。通过继承org.apache.hama.bsp.BSP类，创建自己的BSP类。继承类必须实现如下方法： public abstract void bsp(BSPPeer<K1, V1, K2, V2, M extends Writable> peer) throws IOException, SyncException, InterruptedException 阅读全文

posted @ 2013-06-09 15:25 _Deron_ 阅读(1102) 评论(0) 推荐(0)

oozie：hadoop中的工作流引擎

摘要：一、maven安装1)从网站上下载Linux版本的Maven安装包；apache-maven-3.0.5-bin.tar.gz下载具体解压目录在 /home/maven/========================================2)解压apache-maven-3.0.5-bin.tar.gz进行安装；tar -xzvf apache-maven-3.0.5-bin.tar.gz3)设置maven环境变量；vim /etc/profile或者vim /etc/environment在末尾处增加如下内容：#maven envirmentexport M2_HOME=/hom 阅读全文

posted @ 2013-06-02 17:54 _Deron_ 阅读(2673) 评论(0) 推荐(0)