巫峡专栏

life is a huge undertaking

生活也是大事业

God helps those who help themselves

爱生活

爱技术

导航

2014年9月9日 #

hadoop2.4 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

摘要: 在Ubuntu上安装完hadoop2.4以后,使用以下命令:hadoop fs -ls14/09/09 11:33:51 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... usi... 阅读全文

posted @ 2014-09-09 13:41 巫峡 阅读(25611) 评论(3) 推荐(0) 编辑

2014年5月23日 #

pyinstaller打包python源程序访问hive

摘要: 1.需求 使用hvie server一段时间后,业务部门需要自己不定时的查询业务数据,之前这一块都是他们提需求我们来做,后来发现这样重复一样的工作放在我们这边做是在没有效率,遂提出给他们工具或者web UI自助查询,当然hive有自己的hwi可以通过网页UI进行自助查询,但是这对不懂sql的业务人... 阅读全文

posted @ 2014-05-23 16:01 巫峡 阅读(1412) 评论(0) 推荐(0) 编辑

2014年3月25日 #

hadoop balance均衡datanode存储不起作用问题分析

摘要: 前段时间因为hadoop集群各datanode空间使用率很不均衡,需要重新balance(主要是有后加入集群的2台机器磁盘空间比较大引起的),在执行如下语句:bin/start-balancer.sh -threshold 10 后,日志输出如下:Time Stamp Iteration# Bytes Already Moved Bytes Left To Move Bytes Being MovedMar 10, 2014 11:03:40 AM 0 0 KB 614.5 GB ... 阅读全文

posted @ 2014-03-25 12:19 巫峡 阅读(2694) 评论(0) 推荐(0) 编辑

hive 报错FAILED: Error in metadata: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreClient FAILED: Execu

摘要: 使用hive一段时间以后,今天在使用的时候突然报错,如下:hive> show databases;FAILED: Error in metadata: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreClientFAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTaskhive>exit;退出后使用debug模式,发现有如下错误:Ca 阅读全文

posted @ 2014-03-25 11:31 巫峡 阅读(2058) 评论(0) 推荐(0) 编辑

2013年7月3日 #

[转] python 远程主机强迫关闭了一个现有的连接 socket 超时设置 errno 10054

摘要: python socket.error: [Errno 10054] 远程主机强迫关闭了一个现有的连接。问题解决方案:前几天使用python读取网页。因为对一个网站大量的使用urlopen操作,所以会被那个网站认定为攻击行为。有时就不再允许下载。导致urlopen()后,request.read()一直卡死在那里。最后会抛出errno 10054.这个错误是connection reset by peer.也就是传说的远端主机重置了此连接。原因可能是socket超时时间过长;也可能是request = urllib.request.urlopen(url)之后,没有进行request.clos 阅读全文

posted @ 2013-07-03 14:01 巫峡 阅读(4748) 评论(0) 推荐(0) 编辑

2013年5月22日 #

python生产标签云

摘要: 当列表已经不能满足人们对信息的呈现时,标签云这种展现方式很好地满足了人们关注重点、突出趋势、显示偏好的浏览需求,本文简单介绍下使用python生成标签云。有两种方式: 1. 自己实现 (可以参考http://www.i-alive.com/post/11/) 2.使用现有库,主要是pytagcloud本文主要是利用pytagcloud这个库进行标签云的生成。首先需要安装它,不过在此之前如果你的机器上没有安装pygame和simplejson两个python包,则需要先下载安装他们;这三个包安装完成以后,使用就很简单了,例子代码如下: 1 from pytagcloud ... 阅读全文

posted @ 2013-05-22 00:04 巫峡 阅读(1589) 评论(1) 推荐(0) 编辑

2013年3月27日 #

机器学习之开源库大总结

摘要: 研究数据挖掘和机器学习有一段时间了,对数据挖掘来说,商用软件有SAS、Clementine、Oracle数据挖掘组件等等;由于个人学习和版权、算法定制等问题,开源的数据挖掘与机器学习软件(库)目前也十分必需,现在就跟大家介绍下比较流行和常用的机器学习开源库。 以前在学校用过matlab,说实话真方便,通常一个模型只要几十行甚至十几行代码就能搞定,但是正版matlab较贵,而且不太适合商业开发使用,所以工业界使用它的并不多(通信行业、研究所比较普遍);相应地,在工业界机器学习和数据挖掘的实验语言多为java、python,因为python与C\C++具有先天的血缘,所以python更容易扩... 阅读全文

posted @ 2013-03-27 21:07 巫峡 阅读(5597) 评论(7) 推荐(9) 编辑

2013年2月28日 #

[转] 大数据实时数据分析引擎介绍---Dremel、Tenzing和Imapla

摘要: 对于数据分析师来说,SQL是主要的语言。 Hive为Hadoop提供了支持SQL运行的能力,可是目前Hive运行速度达不到实时要求。这是因为Hive将SQL翻译成一个或多个MapReduce任务,而MapReduce原本是大数据批处理计算框架,并不适应实时数据分析的速度要求。现在有两种思路去提高SQL在大数据平台上的执行速度:1.用一种更快的SQL执行引擎取代MapReduce。2.优化MapReduce,使其更适合OLAP查询。谷歌在这两种思路上都做出了先驱性工作。2010年,谷歌发表了Dremel论文。Dremel是取代MapReduce的SQL执行引擎,其速度要快于MapReduce10 阅读全文

posted @ 2013-02-28 13:24 巫峡 阅读(1869) 评论(0) 推荐(0) 编辑

2013年1月18日 #

警惕python的*重复符

摘要: 在python中有个特殊的符号“*”,可以用做数值运算的乘法算子,也是用作对象的重复算子,但在作为重复算子使用时一定要注意注意的是:*重复出来的各对象具有同一个id,也就是指向在内存中同一块地址,在对各个对象进行操作是一定要注意。举例来说:1 >>> alist = [range(3)]*42 >>> alist3 [[0, 1, 2], [0, 1, 2], [0, 1, 2], [0, 1, 2]]上面初始化一个二层列表用来模拟矩阵,该矩阵式4X3的,为描述方便,这里记矩阵为A。现在我想给A11赋值为1,用下面的代码:alist[0][0]=1那我们想要 阅读全文

posted @ 2013-01-18 17:40 巫峡 阅读(1535) 评论(3) 推荐(2) 编辑

2013年1月16日 #

java实现Google和Baidu的“您是不是要找”功能

摘要: 背景 : 在使用搜索引擎和电商的搜索功能时,大家一定遇到过这样的情景:我想搜索博客园,可不小心输成博客员了,不用担心搜不到你想要的结果,因为建立在大数据上的搜索引擎会帮你自动纠错,就这个例子Google和Baidu返回给我的分别是:显示以下查询字词的结果:博客园和您要找的是不是:博客园,他们都做到了自动纠错,关于自动纠错我之前也写过一篇陋文,当时是自己实现的N-Gram模型,但是效果不是太好,主要是针对不同的语料库算法的精确度是不一样的,我想换个算法试试看,目前主流的计算串间的距离(相反的,你也可以理解为相似度)是Levenshtein,当要实现时,发现lucene已经做了这个事,那咱就站在. 阅读全文

posted @ 2013-01-16 17:31 巫峡 阅读(3338) 评论(4) 推荐(2) 编辑