随笔分类 -  hadoop

摘要:3.1 相关概念 3.1.1 单机 & 集群 单台 Elasticsearch 服务器提供服务,往往都有最大的负载能力,超过这个阈值,服务器性能就会大大降低甚至不可用,所以生产环境中,一般都是运行在指定服务器集群中。 除了负载能力,单点服务器也存在其他问题: 单台机器存储容量有限 单服务器容易出现单 阅读全文
posted @ 2021-04-18 12:08 searchDM 阅读(66) 评论(0) 推荐(0) 编辑
摘要:6.1 硬件选择 Elasticsearch 的基础是 Lucene,所有的索引和文档数据是存储在本地的磁盘中,具体的路径可在 ES 的配置文件../config/elasticsearch.yml 中配置,如下: # Paths # # Path to directory where to sto 阅读全文
posted @ 2021-04-18 11:10 searchDM 阅读(237) 评论(0) 推荐(0) 编辑
摘要:1.1 Elasticsearch 是什么 The Elastic Stack, 包括 Elasticsearch、Kibana、Beats 和 Logstash(也称为 ELK Stack)。能够安全可靠地获取任何来源、任何格式的数据,然后实时地对数据进行搜索、分析和可视化。Elaticsearc 阅读全文
posted @ 2021-04-17 08:48 searchDM 阅读(81) 评论(0) 推荐(0) 编辑
摘要:Since the emerging of Hadoop implementation, I have been trying to morph existing algorithms from various areas into the map/reduce model. The result is pretty encouraging and I've found Map/Reduce is... 阅读全文
posted @ 2010-09-06 15:13 searchDM 阅读(650) 评论(0) 推荐(0) 编辑
摘要:MonetDB 改变用户默认口令让mserver启动在命令交互模式下,输入 clients.changePassword("old_pass","new_pass"); 应该是MAPI支持的功能 http://homepages.cwi.nl/~mk/MonetDB/MAL-Instructions.htmlhttp://hi.baidu.com/kissdev/blog/item/568f1... 阅读全文
posted @ 2010-04-27 22:14 searchDM 阅读(309) 评论(0) 推荐(0) 编辑
摘要:MapReduce 1. Map: (K, V) -> (K', V') 2. 合并相同K'值的项 (K', V') -> (K', V' *) 3. Reduce (K', V'*) -> 新的(K,V) Hadoop实现自动的 Fail-over, Redistribute M/R tasks Hadoop为Master/Slave结构 1 Master ( ... 阅读全文
posted @ 2010-04-27 22:12 searchDM 阅读(457) 评论(0) 推荐(0) 编辑
摘要:下面是Hadoop使用过程中常见错误及解决方法的汇总 (英文部分会后续转为中文) 1. Too many open files错误 有時候 Map Reduce 的工作跑一跑,會發現 datanode 突然都陣亡,去看 log 會發現很多 Too many open files 的錯誤: 2008-09-11 20:20:22,836 ERROR org.apache.hadoop.dfs.Da... 阅读全文
posted @ 2010-04-27 22:12 searchDM 阅读(1085) 评论(0) 推荐(0) 编辑
摘要:Hadoop脚本:重新初始化所有节点在Hadoop集群调试的初期,经常需要重新初始化HDFS,下面的脚本可以实现此点 #!/usr/bin/php <?php require_once '/home/hadoop/bin/common/hadoop.inc'; $masters = f2a(HADOOP_HOME . '/conf/masters'); $slaves = f2a(HA... 阅读全文
posted @ 2010-04-27 22:11 searchDM 阅读(725) 评论(0) 推荐(0) 编辑
摘要:还是PHP当道,自动从Hadoop集群的所有节点的Log中发现异常(ERROR),并打印出来 其中作法很简单,ssh到每个节点上用grep搜索,使用PHP的SSH2扩展库 #!/usr/bin/php <?php require_once '/home/hadoop/bin/common/hadoop.inc'; function check_log($host, $match, $key... 阅读全文
posted @ 2010-04-27 22:10 searchDM 阅读(288) 评论(0) 推荐(0) 编辑
摘要:为方便用Streaming方式使用Hadoop,使用如下的脚本map_reduce.sh -------------------------------------- #!/bin/bash if [ $# -lt 3 ] then echo "Usage: map_reduce.sh <input> <output> <mapper> [reducer] [... 阅读全文
posted @ 2010-04-27 22:10 searchDM 阅读(326) 评论(0) 推荐(0) 编辑
摘要:Hadoop是一个海量数据处理平台, 以下是非常高质量的学习Hadoop的入门文章 : 1. InfoQ上的分布式计算开源框架Hadoop介绍 分为三章,系统性的介绍了Hadoop , HDFS结构、集群配置方法和编程。 2. IBM DeveloperWorks上的教程:用 Hadoop 进行分布式并行编程 ,也Hadoop Eclipse Plugin.是分为三部分(如果你找不到其他两部分,... 阅读全文
posted @ 2010-04-27 22:09 searchDM 阅读(619) 评论(0) 推荐(0) 编辑
摘要:Hadoop:你所不知道的一些相关项目根据Hadoop Wiki上的说法很多公司都在用Hadoop,但是并没有多少可实质上借鉴的代码 而下面这些开源的基于Hadoop的项目你听说过吗? 0. Hadoop上的机器学习Mahout http://lucene.apache.org/mahout/ 1. Cascading: 类似管道状的工作流包装库,和 Pig 项目类似 http://www... 阅读全文
posted @ 2010-04-27 22:09 searchDM 阅读(353) 评论(0) 推荐(0) 编辑
摘要:有哪些项目能够PK目前最红的Hadoop? 以下是目前同Hadoop一样实现MapReduce分布式处理模式的项目: 1. Sector, 自己实现了类似GFS的文件系统和处理库,被用于处理TB级的天文数据,参见http://sector.sourceforge.net/ 其自称与Hadoop的PK结果如下: Hadoop Sector Storage Unit Blocks. Better... 阅读全文
posted @ 2010-04-27 22:07 searchDM 阅读(529) 评论(0) 推荐(0) 编辑
摘要:1. Enomalism SourceForge上的开源项目,提供类似Amazon EC2的服务,实际上是一个虚拟机的管理平台 2. Euclyptus http://eucalyptus.cs.ucsb.edu/ UCSB ( University of California, Santa Barbara )的研究项目,提供与 Amazon EC2相同的接口 3. AppDrop http:... 阅读全文
posted @ 2010-04-27 22:06 searchDM 阅读(296) 评论(0) 推荐(0) 编辑
摘要:关于SaaS和Salesforce 过去,传统的软件必须有购买、安装、维护、升级软件等一系列自己建造的方式。但“随需应用”在线租用模式,使用户不再需要购买任何软件包和硬件,只需每年 支付一定费用,就可以通过互联网随时使用自己所需要的服务。同时,企业可以随时开通新账户、增加新的功能模块,软件应用更简单、灵活。这被业内称为 SaaS(Software as a Service... 阅读全文
posted @ 2010-04-27 22:06 searchDM 阅读(699) 评论(0) 推荐(0) 编辑
摘要:[ Hadoop 实战:谁是最倒霉的人? ] 这次尝试用 Hadoop 来写一个简单的应用。要解决的问题是这样的:现在我手里有大量的邮件数据,并且我知道每封邮件是正常邮件还是垃圾邮件,现在我想要找出收到的邮件中垃圾邮 件最多的人,亦即找出“谁是最倒霉的人”。 首先是 Map 的过程,输入数据是一封一封的邮件,彼此之间没有任何关联,因此可以很自然地分组处理。Map 将邮件... 阅读全文
posted @ 2010-04-27 22:05 searchDM 阅读(612) 评论(0) 推荐(0) 编辑
摘要:[ 来自谷歌中国Blog ] 和传统的单机或网络应用模式相比,云计算有四个非常显著的特点。 首先,云计算提供了最可靠、最安全的数据存储中心,用户不用再担心数据丢 失、病毒入侵等麻烦。很多人觉得数据只有保存在自己看得见、摸得着的电脑里才最安全,其实不然。你的电脑可能会因为自己不小心而被损坏,或者被病毒攻击, 导致硬盘上的数据无法恢复,而有机会接触你的电脑的不法之徒则可能利用各种机会窃取你的数据。... 阅读全文
posted @ 2010-04-27 22:05 searchDM 阅读(1708) 评论(0) 推荐(0) 编辑
摘要:两个微型的Map/Reduce框架: FileMap(FM)和BashReduce- FileMap ( http://mfisk.github.com/filemap/ ) 用python写成,只有一个文件,实现了基于文件的并行M/R操作 - 与此异曲同工的是,在bashReduce项目中(http://github.com/erikfrey/bashreduce/tree/master )... 阅读全文
posted @ 2010-04-27 22:04 searchDM 阅读(459) 评论(0) 推荐(0) 编辑
摘要:Hadoop中文文档 ( Aliababa团队翻译 ) http://hadoop.apache.org/core/docs/r0.19.0/cn/quickstart.html 阅读全文
posted @ 2010-04-27 22:04 searchDM 阅读(652) 评论(0) 推荐(0) 编辑
摘要:分布式文件系统 MogileFS 安装手册一、【理论知识】 MogileFS 是一个分布式文件存储的 解决方案,它能够做到 不需要特殊的核心组件、无单点失败、自动的文件复制、比RAID好多了、传输中立,无特殊协议(客户端可以通过NFS或HTTP来和MogileFS通 信)、简单的命名空间、不用共享任何东西、不需要RAID、不会碰到文件系统本身的不可知情况 等等优点。 相关知识和安装方面的问题可以... 阅读全文
posted @ 2010-04-27 22:02 searchDM 阅读(283) 评论(0) 推荐(0) 编辑