随笔分类 - 分布式技术
分布式计算,Hadoop, NoSql
摘要:摘要:本文将向您讲述诸多数据处理面试题以及方法的总结。 第一部分、十道海量数据处理面试题 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 此题,在我之前的一篇文章算法里头有所提到,当时给出的方案是:IP的数目还是有限的,最多2^32个,所以可以考虑使用hash将ip直接存入内存,然后进行统计。 再详细介绍下此方案:首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统...
阅读全文
摘要:1.Bloom filter适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集基本原理及要点:对于原理来说很简单,位数组+k个独立hash函数。将hash函数对应的值的位数组置1,查找时如果发现所有hash函数对应位都是1说明存在,很明显这个过程并不保证查找的结果是100%正确的。同时也不支持删除一个已经插入的关键字,因为该关键字对应的位会牵动到其他的关键字。所以一个简单的改进就是 counting Bloom filter,用一个counter数组代替位数组,就可以支持删除了。还有一个比较重要的问题,如何根据输入元素个数n,确定位数组m的大小及hash函数个数。当hash函数个数
阅读全文
摘要:问题:1.在读取配置文件时,无法找到mapreduce.outputformat.class 的对应值12/12/12 17:30:11 ERROR loader.OraLoader: mapreduce.outputformat.class is invalidoracle.hadoop.loader.OraLoaderException: missing or invalid property "mapreduce.outputformat.class" value解决:在执行hadoop ${OLH_JAR}oracle.hadoop.loader.OraLoader
阅读全文
摘要:2013年第一天上班,就是磨刀,检查各种服务器的设置,设备的状态,OK,都挺省心的。没有什么大问题。 但是有一台开发服务器出现单通,该服务器是装在虚拟机上的。 基本情况如下:服务器A (宿主机) 10.12.1.220, 服务器B(虚拟机) 10.12.1.221 服务器A 与B 可以互相ping 通,但是服务器B 可以ping 同一局域网的所有机器。但是局域网内的其他机器都ping 不同服务器B。 初步诊断 1.虚拟机是否设置桥接模式,并复制共享了网卡。 2.宿主机是否打开了防火墙,或者局域网认证是否打开。 3.杀毒软件相关。 奇怪的问题出现前两种原因都排除了,但是杀毒软件也退出了。但是问.
阅读全文
摘要:NameNode '192.168.1.164:9000'Started:Tue Jul 06 14:37:10 CST 2010Version:0.20.2, r911707Compiled:Fri Feb 19 08:07:34 UTC 2010 by chrisdoUpgrades:There are no upgrades in progress.Browse the filesystemNamenode LogsCluster Summary4 files and directories, 1 blocks = 5 total. Heap Size is 16.12
阅读全文
摘要:先说说,场景,在开发环境中,由于意外断电.重新启动HADOOP MASTER 结点.启动HADOOP START-ALL.SHgrid$ start-all.sh查看http:\\hdnode1m:50070\ 无法打开网页, HADOOP 启动失败,回过头去看日志文件。打开 ${hadoop_home}\logs\hadoop-grid-namenode-hdnode1m.log出现如下错误:View Code 2012-10-12 10:06:54,804 INFO org.apache.hadoop.hdfs.server.common.Storage: Storage directo.
阅读全文
摘要:一.安装HIVE 准备1.确定兼容性矩阵,比如JDK1.6,HADOOP0.20.以上等笔者安装使用jdk1.6hadoop0.20.2hive0.8.12.解压,配置环境变量$ tar -xzvf hive-x.y.z.tar.gz$ cd hive-x.y.z$ export HIVE_HOME={HIVE_HOEM}$ export PATH=$HIVE_HOME/bin:$PATH3.在HADOOP中创建权限主要需要在/tmp 和 /user/hive/warehouse 的权限$HADOOP_HOME/bin/hadoop fs -mkdir /tmp$HADOOP_HOME/bin
阅读全文
摘要:1.编辑host文件增加vim /etc/hosts192.168.40.240 master192.168.40.246 slave1192.168.40.247 slave22.添加hadoop帐号useradd -m hadooppasswd hadoop更改bash显示vi /etc/passwdhadoop:x:1002:1002::/home/hadoop:/bin/bash su - hadoop3.安装java环境下载javawget http://download.oracle.com/otn-pub/java/jdk/6u27-b07/jdk-6u27-linux-x...
阅读全文
摘要:#!/bin/bash# BY kerryhu# MAIL:king_819@163.com# BLOG:http://kerry.blog.51cto.com# Please manual operation yum of before Operation.....系统环境`:CentOS 5.5(定制安装)组件:BaseDevelopment LibrariesDevelopment ToolsEditorsText-based Internetlvs-master:192.168.9.201lvs-backup:192.168.9.202vip:192.168.9.200web1:192
阅读全文
摘要:RHEL Fedora CentOS都属于Redhat系Fedoara 版本更新频繁,性能和稳定性得不到保证,因此,一般在服务器上不推荐采用Fedora Core。其实可以这么认为,Fedora就是Red Hat发行Red Hat企业版linux的一个实验版本,拿用户做测试,为Red Hat企业版发布做基础。RHEL 开发周期较长,注重性能、稳定性和服务端软件支持,因此版本更新相对较缓慢。RedHat Enterprise Linux又分为4个版本 Advanced Server(AS)、ES Workstation(WS)、Desktop,它们的差别不太大,只是功能方面的差别。CentOS
阅读全文
摘要:环境:虚拟机VM,Centos5.0说明:我的ip地址为192.168.141.3,为客户机分配的ip地址范围为192.168.141.180-192.168.141.182一:安装DHCP服务器,配置后并设置开机启动(用来分配IP地址)A;安装dhcpB;修改配置文件修改/etc/dhcpd.conf如下:ddns-update-style interim;ignore client-updates;allow booting; #定义可以PXE方式启动allow bootp; #定义支持boottpclass "pxeclients" { match if substr
阅读全文
摘要:环境:虚拟机下,CentOS 5.5,u盘8g一个...说明:在网上看到很多的用u盘自动安装centos的文章都是来自于sery的博客,具体可参考http://sery.blog.51cto.com/10037/214193...我使用他写的方法来安装u盘在VM虚拟机下不一定会被识别为sdb,我的就变成了sda...我想我们大多数人还是在windows下工作的,因此我写的这个在windows下就可以解决自动安装的问题了......u盘默认格式化为FAT32格式(SYSLINUX不支持NTFS文件系统),FAT32支持的最大单一文件为4g,够放镜像文件了....一:把centos镜像中的isol
阅读全文
摘要:这两天要做一个CentOS的u盘安装,所以在这先写一个文本安装的教程...u盘自动安装篇随后就写....环境:虚拟机下,CentOS5.5一:. 开机光盘启动,进入如下启动画面,输入linux text后回车;二:选择Skip,跳过光盘介质的测试;三. 点击OK继续;四. 安装过程中的语言选择画面,这里我们选择English;五. 键盘布局选择us,美式键盘;六. 告警信息提示我们磁盘上之前的数据会被初始化而丢失,选择Yes继续;七. 磁盘分区画面,这里我们选择“Create custom layout”自定义分区大小,选择OK继续;八. 将光标移到“Free space”上,按键盘的F2键,
阅读全文
摘要:会话管理 在安全框架领域,Apache Shiro提供了一些独特的东西:可在任何应用或架构层一致地使用Session API。即,Shiro为任何应用提供了一个会话编程范式 - 从小型后台独立应用到大型集群Web应用。这意味着,那些希望使用会话的应用开发者,不必被迫使用Servlet或EJB容器了。或者,如果正在使用这些容器,开发者现在也可以选择使用在任何层统一一致的会话API,取代Servlet或EJB机制。 但Shiro会话最重要的一个好处或许就是它们是独立于容器的。这具有微妙但非常强大的影响。例如,让我们考虑一下会话集群。对集群会话来讲,支持容错和故障转移有多少种容器特定的方式?To..
阅读全文
摘要:授 权 授权实质上就是访问控制 - 控制用户能够访问应用中的哪些内容,比如资源、Web页面等等。多数用户执行访问控制是通过使用诸如角色和权限这类概念完成的。也就是说,通常用户允许或不允许做的事情是根据分配给他们的角色或权限决定的。那么,通过检查这些角色和权限,你的应用程序就可以控制哪些功能是可以暴露的。如你期望的,Subject API让你可以很容易的执行角色和权限检查。如清单7中的代码片段所示:如何检查Subject被分配了某个角色: 列表7. 角色检查if( subject.hasRole(“administrator”) ) {//显示‘Create User’按钮}else{//按..
阅读全文
摘要:认 证 认证是核实用户身份的过程。也就是说,当用户使用应用进行认证时,他们就在证明他们就是自己所说的那个人。有时这也理解为“登录”。它是一个典型的三步骤过程。 1、收集用户的身份信息,称为当事人(principal),以及身份的支持证明,称为证书(Credential)。 2、将当事人和证书提交给系统。 3、如果提交的证书与系统期望的该用户身份(当事人)匹配,该用户就被认为是经过认证的,反之则被认为未经认证的。 这个过程的常见例子是大家都熟悉的“用户/密码”组合。多数用户在登录软件系统时,通常提供自己的用户名(当事人)和支持他们的密码(证书)。如果存储在系统中的密码(或密码表示)与用...
阅读全文
摘要:谁在用Shiro? Shiro及其前身JSecurity已被各种规模和不同行业的公司项目采用多年。自从成为Apache软件基金会的顶级项目后,站点流量和使用呈持续增长态势。许多开源社区也正在用Shiro,这里有些例子如Spring,Grails,Wicket,Tapestry,Tynamo,Mule和Vaadin。 如Katasoft,Sonatype,MuleSoft这样的商业公司,一家大型社交网络和多家纽约商业银行都在使用Shiro来保护他们的商业软件和站点。 核心概念:Subject,SecurityManager和Realms 既然已经描述了Shiro的好处,那就让我们看看它的...
阅读全文
摘要:非对称加密,在加密和解密的过程中需要不同的密码,即必须具备同时具备两个密码信息才可能获得完整的数据。图 非对称算法在非对称算法中,首先得有一个密钥对,这个密钥对含有两部分内容,分别称作公钥(PK)和私钥(SK),公钥通常用来加密,私钥则用来解密。在对称算法中,也讲到了可以有两个密钥(分为加密和解密密钥)。但是,对称算法中的加解密密钥可以互相转换,而在非对称算法中,则不能从公钥推算出私钥。所以,我们完全可以将公钥公开到任何地方。如上图所以,发送者用接收方公开出来的公钥PK进行加密。接受方在收到密文后,再用与公钥对应的私钥SK进行解密。同样,密文可以被截获,但是由于截获者只有公钥,没有私钥,他..
阅读全文
摘要:对称加密 MD5或者说HASH值是一种不可逆的算法。如果需要从密文还原成明文,那么就需要对称和非对称这两类可逆算法。首先,简单介绍下这两类算法。图9-1是对称算法的示意图:图1-1 对称算法在对称算法中,首先需要发送方和接收方协定一个密钥K。K可以是一个密钥对,但是必须要求加密密钥和解密密钥之间能够互相推算出来。在最简单也是最常用的对称算法中,加密和解密共享一个密钥。上图中,我们为了简单期间,使用的就是一个密钥。密钥K为了防止被第三方获取,可以通过一个秘密通道由发送方传送给接收方。当然,这个秘密通道可以是任何形式,如果觉得可以,你甚至可以寄送一封邮件给对方告诉他密钥。对称加密中明文通过对...
阅读全文
摘要:环境介绍安装cacti的监控机A,ip为 192.168.0.16安装snmp的被监控机B,ip为 192.168.0.17系统为centos 4/5被监控B机安装snmpnet-snmp安装参考修改B机snmp配置,充许外部访问自带的snmp配置文件在/etc/snmp/snmpd.conf;编译安装的snmp配置文件在/usr/local/etc/snmp/snmpd.conf;vi /etc/snmp/snmpd.confcom2sec local localhost privatepass #安装教程中配置的本机访问要权限com2sec mynetwork 192.168.0....
阅读全文

浙公网安备 33010602011771号