2013 年 8月随笔档案 - AI001

datastax的C# Driver for Apache Cassandra

摘要：原版的说明文档：http://www.datastax.com/documentation/developer/csharp-driver/1.0/webhelp/index.html#csharp-driver/quick_start/qsSimpleClientAddSession_t.html先吐槽一下说明文档非人的简单说明的简洁明快，一下子就明白怎么编写代码，但是有些地方确实不该太简洁的。给出的方法名和方法调用太不一致了，Session已经不是静态类了，但是文档里的例子还是静态类的写法。而在调用keyspace里的东西时必须连接上空间的，类似在命令端里的use keyspace，可是这阅读全文

posted @ 2013-08-30 16:07 AI001 阅读(777) 评论(0) 推荐(0)

centos6.4上安装storm0.82

摘要：centos 6.4版本下安装storm0.82需要先安装zookeeper，见上文http://blog.csdn.net/xqj198404/article/details/10433527如果无法联网，使用文件安装请在这里寻找更新源base源文件列表1.首先安装libtool，否则autogen的脚本无法运行yum install libtool2.安装libuuid-devel，否则报错yum install libuuid-devel3.先安装zeromq的2.1.4版本，注意，如果有configure: error: Unable to find a working C++ com 阅读全文

posted @ 2013-08-28 12:21 AI001 阅读(203) 评论(0) 推荐(0)

centos6.4上zookeeper3.4.5安装与基础设置

摘要：1.下载zookeeper的3.4.5版本的tar.gz包zookeeper.apache.org2.解压缩，然后进入conf文件夹，复制zoo_sample.cfg为zoo.cfg。需要修改dataDir=自己定义的路径在文件末尾追加代码server.1=机器名或ip.2888.3888 server.2=机器名或ip.2888.3888 server.3=机器名或ip.2888.3888 server.4=机器名或ip.2888.3888 ...........注意，server后面的1，2，3的数值必须和dataDir指定的路径下的myid的文件中的数值一样。3.在dataDir设置的路阅读全文

posted @ 2013-08-28 11:22 AI001 阅读(246) 评论(0) 推荐(0)

sudo在shell脚本执行的问题

摘要：sudo的执行需要tty。如果将sudo service命令写在shell脚本中，通过程序方式调用，是不会执行的。但是centos6.4中比较坑人的是"sorry, you must have a tty to runsudo"这个错误不知道为什么没有报出来，也没有写到日志中，结果浪费了一天的时间去查找原因。如果修改/etc/sudoers，将Defaults requiretty，修改为 #Defaults requiretty，表示不需要控制终端，也可以在shell的脚本中通过程序直接执行sudo service。由于centos的程序所拥有的权限是和运行的它的用户一样阅读全文

posted @ 2013-08-20 17:33 AI001 阅读(749) 评论(0) 推荐(0)

mahout的数据文件格式

摘要：原文地址：https://cwiki.apache.org/confluence/display/MAHOUT/Data+FormatsMahout支持许多格式的文件以便实现各种工作。文件格式可导入的文件格式1. 文本文件（1）满足以下格式的文本可以转化为流数据文件导入：（行号，行文本）（文件名，文件的全部内容）（行号，行份的用正则表达式模式）（2）可以解析为Lucene索引的文本：精确的索引设计？??(此处不明白为什么会有三个问号，可能有部分文本会失败吧)2. ARFF文件WEKA（来源）项目文本数据格式可以格式生成流文件的数据3. 邮箱文件满足以下格式的邮件可以转化为流数据文.. 阅读全文

posted @ 2013-08-15 15:45 AI001 阅读(1166) 评论(0) 推荐(0)

mahout概述

摘要：原文地址：https://cwiki.apache.org/confluence/display/MAHOUT/OverviewMahout的目标是建立可扩展的机器学习库。可扩展的的意味着如下：可扩展到相当大的数据集。核心算法，聚类，分类和批量基于协同过滤并以Apache Hadoop的map / reduce范式实现。但是，使用并不仅限于hadoop，单个的hadoop节点或在非Hadoop集群上都可以运行。核心库的高度优化，以获得较好的性能，即使是非分布式的情况下。灵活的支持您的业务情况。Mahout是在一个商业友好的Apache软件许可下分发的。快速扩张的社区。 Mahout的目标阅读全文

posted @ 2013-08-15 11:31 AI001 阅读(185) 评论(0) 推荐(0)

基于keepalived的redis系统master双机热备，读数据负载均衡设置方案

摘要：硬件：机器 ip 作用master 192.168.0.2 redis系统的master主机slave1 192.168.0.3 redis系统的slave机器，和master组成双机热备slave2 192.168.0.4 redis系统的slave机器，和slave1构成读数据的负载均衡系统软件：keepalived，下载地址：www.keepalived.orglvs，下载地址：http://www.linuxvirtualserver.orgredis，下载地址：www.redis.iocentos 6.4版本安装：不采用编译安装的方式，使用yum安装1.安装kernel-devel：阅读全文

posted @ 2013-08-15 09:56 AI001 阅读(588) 评论(0) 推荐(0)

hadoop日志【5】----存储迁移之后

摘要：集群使用的是一台实体加5台虚拟（分布在两台实体机上）后来实体机的存储不够用了，就把虚拟机转移到了网络存储上然后就悲剧了性能急剧下降是实体机网卡的瓶颈造成的原来在实体机的时候，虚拟机在进行hadoop运算时只需要走一个相互间的通信然而，在迁移到网络存储以后，则多了一个过程，既要进行相互间的通信，还多了一个网络存储的过程，编程了如下虚拟机A==》A的网络存储==》虚拟机A==》虚拟机B==》B的网络存储==》虚拟机B..........................理解hadoop计算过程的话就会明白这回增加多少的网卡负荷，结果瓶颈在了网卡上这就使得以内存作为缓存的量急剧增加，机器在监控软件上一阅读全文

posted @ 2013-08-08 10:05 AI001 阅读(175) 评论(0) 推荐(0)

AI001

08 2013 档案