巫峡 - 博客园

hadoop2.4 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

摘要：在Ubuntu上安装完hadoop2.4以后，使用以下命令：hadoop fs -ls14/09/09 11:33:51 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... usi... 阅读全文

posted @ 2014-09-09 13:41 巫峡阅读(25664) 评论(3) 推荐(0)

pyinstaller打包python源程序访问hive

摘要： 1.需求使用hvie server一段时间后，业务部门需要自己不定时的查询业务数据，之前这一块都是他们提需求我们来做，后来发现这样重复一样的工作放在我们这边做是在没有效率，遂提出给他们工具或者web UI自助查询，当然hive有自己的hwi可以通过网页UI进行自助查询，但是这对不懂sql的业务人... 阅读全文

posted @ 2014-05-23 16:01 巫峡阅读(1441) 评论(0) 推荐(0)

hadoop balance均衡datanode存储不起作用问题分析

摘要：前段时间因为hadoop集群各datanode空间使用率很不均衡，需要重新balance（主要是有后加入集群的2台机器磁盘空间比较大引起的），在执行如下语句：bin/start-balancer.sh -threshold 10 后，日志输出如下：Time Stamp Iteration# Bytes Already Moved Bytes Left To Move Bytes Being MovedMar 10, 2014 11:03:40 AM 0 0 KB 614.5 GB ... 阅读全文

posted @ 2014-03-25 12:19 巫峡阅读(2801) 评论(0) 推荐(0)

hive 报错FAILED: Error in metadata: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreClient FAILED: Execu

摘要：使用hive一段时间以后，今天在使用的时候突然报错，如下：hive> show databases;FAILED: Error in metadata: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreClientFAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTaskhive>exit;退出后使用debug模式，发现有如下错误：Ca 阅读全文

posted @ 2014-03-25 11:31 巫峡阅读(2146) 评论(0) 推荐(0)

[转] python 远程主机强迫关闭了一个现有的连接 socket 超时设置 errno 10054

摘要： python socket.error: [Errno 10054] 远程主机强迫关闭了一个现有的连接。问题解决方案：前几天使用python读取网页。因为对一个网站大量的使用urlopen操作，所以会被那个网站认定为攻击行为。有时就不再允许下载。导致urlopen()后，request.read()一直卡死在那里。最后会抛出errno 10054.这个错误是connection reset by peer.也就是传说的远端主机重置了此连接。原因可能是socket超时时间过长；也可能是request = urllib.request.urlopen(url)之后，没有进行request.clos 阅读全文

posted @ 2013-07-03 14:01 巫峡阅读(5065) 评论(0) 推荐(0)

python生产标签云

摘要：当列表已经不能满足人们对信息的呈现时，标签云这种展现方式很好地满足了人们关注重点、突出趋势、显示偏好的浏览需求，本文简单介绍下使用python生成标签云。有两种方式： 1. 自己实现 (可以参考http://www.i-alive.com/post/11/) 2.使用现有库，主要是pytagcloud本文主要是利用pytagcloud这个库进行标签云的生成。首先需要安装它，不过在此之前如果你的机器上没有安装pygame和simplejson两个python包，则需要先下载安装他们；这三个包安装完成以后，使用就很简单了，例子代码如下： 1 from pytagcloud ... 阅读全文

posted @ 2013-05-22 00:04 巫峡阅读(1617) 评论(1) 推荐(0)

机器学习之开源库大总结

摘要：研究数据挖掘和机器学习有一段时间了，对数据挖掘来说，商用软件有SAS、Clementine、Oracle数据挖掘组件等等；由于个人学习和版权、算法定制等问题，开源的数据挖掘与机器学习软件(库)目前也十分必需，现在就跟大家介绍下比较流行和常用的机器学习开源库。以前在学校用过matlab，说实话真方便，通常一个模型只要几十行甚至十几行代码就能搞定，但是正版matlab较贵，而且不太适合商业开发使用，所以工业界使用它的并不多(通信行业、研究所比较普遍)；相应地，在工业界机器学习和数据挖掘的实验语言多为java、python,因为python与C\C++具有先天的血缘，所以python更容易扩... 阅读全文

posted @ 2013-03-27 21:07 巫峡阅读(5650) 评论(7) 推荐(9)

[转] 大数据实时数据分析引擎介绍---Dremel、Tenzing和Imapla

摘要：对于数据分析师来说，SQL是主要的语言。 Hive为Hadoop提供了支持SQL运行的能力，可是目前Hive运行速度达不到实时要求。这是因为Hive将SQL翻译成一个或多个MapReduce任务，而MapReduce原本是大数据批处理计算框架，并不适应实时数据分析的速度要求。现在有两种思路去提高SQL在大数据平台上的执行速度：1.用一种更快的SQL执行引擎取代MapReduce。2.优化MapReduce，使其更适合OLAP查询。谷歌在这两种思路上都做出了先驱性工作。2010年，谷歌发表了Dremel论文。Dremel是取代MapReduce的SQL执行引擎，其速度要快于MapReduce10 阅读全文

posted @ 2013-02-28 13:24 巫峡阅读(1931) 评论(0) 推荐(0)

警惕python的*重复符

摘要：在python中有个特殊的符号“*”，可以用做数值运算的乘法算子，也是用作对象的重复算子，但在作为重复算子使用时一定要注意注意的是：*重复出来的各对象具有同一个id，也就是指向在内存中同一块地址，在对各个对象进行操作是一定要注意。举例来说：1 >>> alist = [range(3)]*42 >>> alist3 [[0, 1, 2], [0, 1, 2], [0, 1, 2], [0, 1, 2]]上面初始化一个二层列表用来模拟矩阵，该矩阵式4X3的，为描述方便，这里记矩阵为A。现在我想给A11赋值为1，用下面的代码：alist[0][0]=1那我们想要阅读全文

posted @ 2013-01-18 17:40 巫峡阅读(1555) 评论(3) 推荐(2)

java实现Google和Baidu的“您是不是要找”功能

摘要：背景：在使用搜索引擎和电商的搜索功能时，大家一定遇到过这样的情景：我想搜索博客园，可不小心输成博客员了，不用担心搜不到你想要的结果，因为建立在大数据上的搜索引擎会帮你自动纠错，就这个例子Google和Baidu返回给我的分别是：显示以下查询字词的结果：博客园和您要找的是不是:博客园，他们都做到了自动纠错，关于自动纠错我之前也写过一篇陋文，当时是自己实现的N-Gram模型,但是效果不是太好，主要是针对不同的语料库算法的精确度是不一样的，我想换个算法试试看，目前主流的计算串间的距离(相反的，你也可以理解为相似度)是Levenshtein，当要实现时，发现lucene已经做了这个事，那咱就站在. 阅读全文

posted @ 2013-01-16 17:31 巫峡阅读(3420) 评论(4) 推荐(2)

巫峡专栏

导航

公告