07 2014 档案
摘要:凤凰财经讯 北京时间5月7日早间消息,阿里巴巴集团周二向美国证券交易委员会(SEC)提交了IPO招股书,招股书中披露了阿里巴巴的股权结构。以机构持股来看,日本软银集团持股797,742,980股,持股比例为34.4%;雅虎持股523,565,416股,持股比例为22.6%。以个人持股来看,阿里巴巴董...
阅读全文
posted @ 2014-07-31 09:29
jseven
摘要:摘要 : 有人说我太爱玩社交软件了,而我则认为社交软件把你玩翻了,你已经成了社交的奴隶,做了太多的无用社交。CNNIC 发布第34次互联网调查报告显示,我国手机网民规模达5.27亿,已经超于PC网民数。而手机作为上网设备的占比高达83.4%,即时通信占比为 89.3%。这个数据的确预示着中国移动互联...
阅读全文
posted @ 2014-07-31 09:19
jseven
摘要:前一天学习了at命令是针对仅运行一次的任务,循环运行的例行性计划任务,linux系统则是由cron(crond)这个系统服务来控制的。Linux系统上面原本就有非常多的计划性工作,因此这个系统服务是默认启动的。另外,由于使用者自己也可以设置计划任务,所以,Linux系统也提供了使用者控制计划任务的命...
阅读全文
posted @ 2014-07-30 18:18
jseven
摘要:在windows系统中,windows提供了计划任务这一功能,在控制面板->性能与维护->任务计划,它的功能就是安排自动运行的任务。通过'添加任务计划'的一步步引导,则可建立一个定时执行的任务。在linux系统中你可能已经发现了为什么系统常常会自动的进行一些任务?这些任务到底是谁在支配他们工作的?在...
阅读全文
posted @ 2014-07-30 18:17
jseven
摘要:watch是一个非常实用的命令,基本所有的Linux发行版都带有这个小工具,如同名字一样,watch可以帮你监测一个命令的运行结果,省得你一遍遍的手动运行。在Linux下,watch是周期性的执行下个程序,并全屏显示执行结果。你可以拿他来监测你想要的一切命令的结果变化,比如tail一个log文件,l...
阅读全文
posted @ 2014-07-30 18:16
jseven
摘要:http://www.cnblogs.com/peida/archive/2012/12/13/2815687.html在linux环境中,不管是编程还是其他维护,时间是必不可少的,也经常会用到时间的运算,熟练运用date命令来表示自己想要表示的时间,肯定可以给自己的工作带来诸多方便。1.命令格式:...
阅读全文
posted @ 2014-07-30 18:12
jseven
摘要:1.作用Linux系统中grep命令是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹 配的行打印出来。grep全称是Global Regular Expression Print,表示全局正则表达式版本,它的使用权限是所有用户。2.格式grep [options]3.主要参数[optio...
阅读全文
posted @ 2014-07-30 17:51
jseven
摘要:http://www.cnblogs.com/51linux/archive/2012/05/23/2515299.html真详细啊sort是在Linux里非常常用的一个命令,管排序的,集中精力,五分钟搞定sort,现在开始!1 sort的工作原理sort将文件的每一行作为一个单位,相互比较,比较原...
阅读全文
posted @ 2014-07-30 17:36
jseven
摘要:join命令 功能:“将两个文件中指定栏位相同的行连接起来”,即按照两个文件中共同拥有的某一列,将对应的行拼接成一行。join [options] file1 file2 注:这两个文件必须在已经在此列上是按照相同的规则进行了排序。join选项 -a FILENUM:除了显示匹配好的行另外将指定序号...
阅读全文
posted @ 2014-07-30 17:28
jseven
摘要:写之前我们先来搞清楚为什么要学shell,学习要有目的性shell简单、灵活、高效,特别适合处理一些系统管理方面的小问题shell可以实现自动化管理,让系统管理员的工作变得容易、简单、高效shell脚本可移植性好,在unix/linux系统中可灵活移植,几乎不用任何设置就能正常运行shell脚本可轻...
阅读全文
posted @ 2014-07-30 17:08
jseven
摘要:大数据最关键的不是技术,是对数据的认知和跨领域的经验http://yangyang.baijia.baidu.com/article/17872摘要 : 李 彦宏“自黑”大数据 百度向熊孩子众筹创意 杨姐费脑子分析了一下,发现,嘿嘿,百度现在八成是面临了一个如何利用大数据的困惑。 嗯,确切说,不止一...
阅读全文
posted @ 2014-07-29 11:56
jseven
摘要:摘要 : 百度将用互联网的方式来做开放的大数据引擎。它不可能采取与软件方案公司一样的“一竿子买卖”方式进行合作。而是将大数据引擎做成一个开放平台,形成标准的接口,让每个行业不同企业可以根据自身需求各取所需。而它的首要目的是获取数据,然后是考虑变现。百度在大数据领域迈出一大步。在昨天的百度技术开放日上...
阅读全文
posted @ 2014-07-29 11:45
jseven
摘要:摘要 : CPU的计算能力永远达不到这些最顶级的科研人员想要的高度,而计算机科学家们永远只能在现有的条件下做困兽斗,做出在这个时代所能赋予的条件下最漂亮的成绩,而这就是他们一生所追求的使命。在 百度大数据开放大会上,搞计算机学术理论的怀进鹏校长的演讲犹如给所有听众的一记闷棍,怀校长的学术演讲把大家弄...
阅读全文
posted @ 2014-07-29 11:42
jseven
摘要:摘要 : 随着信息革命的深入,大数据时代的预测更加容易,人类的生活正在被大数据预测深刻改变。附言:广告行业应归于人体行为。世 界杯期间各家科技巨头利用大数据预测比赛结果,再现“章鱼保罗”雄风。世界杯结束了但大数据预测还会继续。从夜观天象到气象预报,从童话里的水晶球到今日 的科技预言家,从地震云的传说...
阅读全文
posted @ 2014-07-29 11:36
jseven
摘要:摘要 : 聚美报收于31.60美元。今早收盘价为30.28美元,下跌4.18%。京东不受影响。看来国内媒体即使是门户对资本市场的影响力还是有限。腾讯科技“电商假货链”的暗访报道引起轩然大波,不可否认,该报道将对国内电商行业产生较深远的影响,毕竟这是为数不多的科技媒体的卧底报道。我们都知道某某电商售假...
阅读全文
posted @ 2014-07-29 11:32
jseven
摘要:有个寺庙,因藏有一串佛祖戴过的念珠而闻名。念珠的供奉之地只有庙里的老住持和7个弟子知道。7个弟子都很有悟性,老住持觉得将来把衣钵传给他们中的任何一个,都可以光大佛法。不想那串念珠突然不见了。老住持问7个弟子:“你们谁拿了念珠,只要放回原处,我不追究,佛祖也不会怪罪。”弟子们都摇头。7天过去了,念珠依...
阅读全文
摘要:摘要 : 为什么Zara毛利率比LV高?当百度“大数据引擎”等互联网巨头向社会开放大数据基础设施,敢用、会用,就能创造更多商业奇迹和民生福利。大数据,是不是“大忽悠”?当Zara这家零售企业将大数据运用于创新经营时,它创造了比奢侈品巨头LV税前毛利率更高的奇迹!要知道,Zara平均服饰价格只有LV的...
阅读全文
posted @ 2014-07-29 11:09
jseven
摘要:摘要 : 雷军正在为小米布一个很大的局。随着新手机的发布,小米的整体业务策略必将会有所调整。我们也许会看到小米的“逆袭”,反之也许将是沉没的开始。一 部Iphone5s让“土豪金”大行其道,一时之间,金属冰冷高贵的质感被认为是提升逼格的有力伪装,曾经智能手机厂商在硬件升级和价格大战中“杀得你死 我活...
阅读全文
posted @ 2014-07-29 10:50
jseven
摘要:1、下载 http://www.apache.org/dist/flume/stable/下载最新的tar.gz包即可2、解压tar -zxvf ....3、配置环境变量FLUME_HOME和PATH记得执行source /etc/profile4、添加一个简单的测试案例a、在conf目录下新建一个...
阅读全文
摘要:1、mysql-- 创建数据库create database logs;-- 使用use logs;-- 创建表create table weblogs(md5varchar(32),urlvarchar(64),request_datedate,request_timetime,ipvarchar...
阅读全文
摘要:create database logs;use logscreate table weblogs_from_hdfs(md5varchar(32),urlvarchar(64),request_datedate,request_timetime,ipvarchar(15));sqoop expor...
阅读全文
摘要:hadoop fs列出所有的命令hadoop fs -help ls列出某个命令的详细信息hadoop dfs -mkdir /data/weblogshadoop dfs -mkdir /data/dir1 /data/dir2 ...创建文件夹,可以递归创建,可同时创建多个目录echo "Hel...
阅读全文
摘要:distcp启动MR实现复制1、关闭源集群map任务的推测执行,mapred-site.xml mapred.map.tasks.specutive.execution false,避免map任务失败时产生不可知的行为2、版本hadoop必须一致前提:B上已建立对应文件夹接收数据1、复制A->Bha...
阅读全文
摘要:1、列裁剪select a,b from t where e < 10;设置参数:hive.optimize.cp = true2、分区裁剪select * from (select c1,count(1) from t group by c1) subqwhere subq.prtn = 100;...
阅读全文
摘要:直接代码吧:记得要开启hive jdbc服务hive --service hiveserverpackage hive;import java.sql.Connection;import java.sql.DriverManager;import java.sql.ResultSet;import ...
阅读全文
摘要:-- 向数据表中加载文件,不会对数据进行任何转换,load操作只是复制(本地到hdfs)、移动(hdfs上的文件)-- 如果表包含分区,则必须指定每个分区的分区名,filepath可以引用一个文件或一个目录-- 如果数据在hdfs上,且filepath不是绝对的,则hive会相对于/user/进行解...
阅读全文
摘要:作为参考即可。在cmd下使用$hive -f 指定hive脚本文件$hive -e 'select * from test_change' 在cmd里执行hive语句在hive里面hive>source file_name 执行hive脚本文件-- 删除表drop table if exists t...
阅读全文
摘要:一个练习:1、student表1:zhangsan:boy:12:compute3:lisi:boy:32:math2:xiaoli:girl:23:meish模式:A = load 'student' using PigStorage(':') as (sno:chararray,sname:ch...
阅读全文
摘要:可以作为一个随身参考1、更简单的挖掘大规模数据集而发明。可使用用户定义语言UDF进行修改运行pig脚本 pig script.piggrunt自动补全机制 tab键 创建autocomplete文件,常用单词或文件路径 quit退出2、示例 计算年度最高气温 --表示注释1)records = LO...
阅读全文
摘要:一位盲人老者打车,至下车计价器显示11.4元,帅哥司机把他扶至小区保安处。只说,我不收你钱,因为我比你挣钱容易。 小区内走出一斯文大叔,上车,一路畅谈。至下车计价器显示14.5,下车时掏出30元,说:这钱还有刚才那位的,我也不伟大但挣钱比你也容易点,就希望你能继续做好事! 有个故事很有启发,与大...
阅读全文
摘要:Mahout是Hadoop的一种高级应用。运行Mahout需要提前安装好Hadoop。1、下载解压安装。http://labs.renren.com/apache-mirror/mahout/下载,直接解压及可。hadoop@ubuntu:~$ tar -zxvf mahout-distributi...
阅读全文
摘要:1、主要是设置Reduce端输出的value类型直接上代码吧:注释就免了吧,大家应该很熟悉了。package hbase;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf...
阅读全文
摘要:http://blog.csdn.net/scutshuxue/article/details/6988348
阅读全文
摘要:1、搭建环境 复制linux下已配置搭建好的hbase目录进入windows里面,当然使用linux开发的可以不用。 新建java工程,将hbase目录下的jar和lib下的jar包添加到类路径下。 同时增加外部Class Folder将hbase的conf目录增加进来 多数连接操作就是因为没...
阅读全文
摘要:mysql、启动与停止 1、启动 MySQL安装完成后启动文件mysql在/etc/init.d目录下, 在需要启动时运行下面命令即可。 [root@test1init.d]#/etc/init.d/mysqlstart 2、停止 /usr/bin/mysqladmin-uroot...
阅读全文
摘要:最近发现查找信息越来越慢。1、本以为发现了,结果点进去是广告,浪费30S1.5、再次认为找到了,结果又是广告。2、右侧弹窗,莫名其妙的弹出来,污染眼球,浪费30S3、想一下子寻找到目标,结果曲折曲折不知被带到哪里去了,眼睛里看到的都是不中用的东西。4、百度,搜索能够出来多多0000000000000...
阅读全文
摘要:hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据...
阅读全文
摘要:烟草工作人员爆出惊天秘密,大家都戒烟吧(这篇为我在抽烟的朋友转、希望你们爱惜自己)来源:邓超的日志烟草企业员工爆出惊天秘密,我再也不敢抽烟了。谁都知道香烟是有害的,可是大多数人只是知道烟的危害只是烟草的尼古丁,其实,真正的香烟的剧毒,藏在“过滤嘴材料”上。以下我所说的,绝对是真实的:一个在烟草生产行...
阅读全文
摘要:HDFS设计之处并不支持给文件追加内容,这样的设计是有其背景的(如果想了解更多关于HDFS的append的曲折实现,可以参考《File Appends in HDFS》:http://blog.cloudera.com/blog/2009/07/file-appends-in-hdfs/),但从HD...
阅读全文
摘要:http://www.tuicool.com/articles/mAZJfm后期参考最近安装Ganglia,由于之前Linux基础基本为0,因此费了很大的周折。最后在失败了好多次之后终于看到了梦寐以求的web界面。下面总结下这几天来的工作。ganglia是一个监控软件,他包含三部分:Gmond,Gm...
阅读全文
摘要:http://www.2cto.com/os/201405/299949.html以后使用。一、ganglia基本介绍ganglia是分布式的监控系统,有两个Daemon,分别是:客户端GangliaMonitoring Daemon (gmond)和服务端GangliaMeta Daemon (g...
阅读全文
摘要:不管是找工作还是考公务员,常见的一种面试或者笔试题目就是智力题,这种题目有的比较简单,有的难度很大,有的是一种技巧,有的需要数学知识推导,不管怎样,绝对对于一个人锻炼自己的思维能力非常有益。本文整理了当前比较常见的智力题目,供大家一块研究与学习。【绳子类】1、 一条绳子(粗细不均,长短不一),从一头...
阅读全文
摘要:【IT思想类】1、 有1000瓶水,其中有一瓶有毒,小白鼠只要尝一点带毒的水24小时后就会死亡,至少要多少只小白鼠才能在24小时时鉴别出那瓶水有毒?(中级)2、 共有三类药,分别重1g,2g,3g,放到若干个瓶子中,现在能确定每个瓶子中只有其中一种药,且每瓶中的药片足够多,能只称一次就知道各个瓶子中...
阅读全文
摘要:难度系数:★★题目:每个飞机只有一个油箱,飞机之间可以相互加油(注意是相互,没有加油机)一箱油可供一架飞机绕地球飞半圈。为使至少一架飞机绕地球一圈回到起飞时的飞机场,至少需要出动几架飞机?(所有飞机从同一机场起飞,而且必须安全返回机场,不允许中途降落,中间没有飞机场)分析:至少需要出动5 架飞机。思...
阅读全文
摘要:DistributedCache是Hadoop提供的文件缓存工具,它能够自动将指定的文件分发到各个节点上,缓存到本地,供用户程序读取使用。它具有以下几个特点:缓存的文件是只读的,修改这些文件内容没有意义;用户可以调整文件可见范围(比如只能用户自己使用,所有用户都可以使用等),进而防止重复拷贝现象;按...
阅读全文
摘要:2014年2月20日,Hadoop 2.3.0版本发布,这是apache 在2014年发布的第一个Hadoop版本,揭开了Hadoop 2014发展的序幕。该版本引入了很多大家期待已久的特性,包括HDFS 的异构层次化存储架构、DataNode Cache,YARN的单点故障解决方案,以及MapRe...
阅读全文
摘要:本文介绍Hadoop YARN最近版本中增加的几个非常有用的特性,包括:(1)ResourceManager HA在apache hadoop 2.4或者CDH5.0.0版本之后,增加了ResourceManger HA特性,支持基于Zookeeper的热主备切换,具体配置参数可以参考Clouder...
阅读全文
摘要:http://developer.51cto.com/art/201006/204137.htm本节向大家介绍一下Hadoop分布式文件系统中架构和设计的要点,本节主要从六个方面来介绍,欢迎大家一起来学习,希望通过本节的介绍大家对Hadoop分布式文件系统有更加深刻的认识。Hadoop分布式文件系统...
阅读全文
摘要:http://developer.51cto.com/art/201006/204140.htm本节继续向大家介绍一下Hadoop分布式文件系统中架构和设计的要点,本节主要包括四个部分,相信通过本节的介绍你对Hadoop分布式文件系统中架构和设计的要点应该有深刻的认识。下面是具体介绍。一、健壮性Ha...
阅读全文
摘要:http://developer.51cto.com/art/201012/236249.htm【51CTO译文】Apache Hadoop是一个用于构建大规模,共享存储和计算基础设施的软件框架,Hadoop集群经常用于各种研究和开发项目,如Yahoo!,eBay,Facebook,Twitter等...
阅读全文
摘要:LZO压缩,可分块并行处理,解压缩的效率也是可以的。为了配合部门hadoop平台测试,作者详细的介绍了如何在Hadoop平台下安装lzo所需要软件包:gcc、ant、lzo、lzo编码/解码器并配置lzo的文件:core-site.xml、mapred-site.xml。希望对大家有所帮助。以下是正...
阅读全文
摘要:http://cache.baiducontent.com/c?m=9f65cb4a8c8507ed4fece763105392230e54f7327d818c027fa3cf1fd5790801013db2e5703f1006d0c46b6777ac494bea8635782a032ab49ec2...
阅读全文
摘要:http://cache.baiducontent.com/c?m=9d78d513d99b05f04fede52a56488071182497634bc0d1652888c215c53f07145321a3e52878564291d27d141cb20c19afe736056e507ceec894...
阅读全文
摘要:转自:http://cache.baiducontent.com/c?m=9f65cb4a8c8507ed4fece763105392230e54f7257b8c8148228a8448e435061e5a35a3fd7c734e5392d8781b51d83904feb56b32610c66e4c...
阅读全文
摘要:http://liqita.iteye.com/blog/1676664参考地址,原始的代码复制有点不人情哎。第一步:下载lucene的核心包lucene-core-3.6.1-javadoc.jar (3.5 MB)lucene-core-3.6.1.jar (1.5 MB)拷贝到项目的lib 文...
阅读全文
摘要:1、YARN或将成为Hadoop新发力点http://www.csdn.net/article/2013-06-27/2816031-hadoop-yarn2、更快、更强——解析Hadoop新一代MapReduce框架Yarnhttp://www.csdn.net/article/2014-02-1...
阅读全文
摘要:轻松为应用程序构建搜索和索引功能
本文将探讨 Apache Lucene —— 性能卓越、功能全面的文本搜索引擎库。我们将学习 Lucene 架构及其核心 API。学习如何使用 Lucene 进行跨平台全文本搜索、建立索引、显示结果,以及如何扩展搜索。
阅读全文
摘要:本文介绍了 Hadoop 自 0.23.0 版本后新的 map-reduce 框架(Yarn) 原理,优势,运作机制和配置方法等;着重介绍新的 yarn 框架相对于原框架的差异及改进;并通过 Demo 示例详细描述了在新的 yarn 框架下搭建和开发 hadoop 程序的方法。读者通过本文中新旧 hadoop map-reduce 框架的对比,更能深刻理解新的 yarn 框架的技术原理和设计思想,文中的 Demo 代码经过微小修改即可用于用户基于 hadoop 新框架的实际生产环境。
阅读全文
摘要:Hdfs文件系统,提供了一套基于hadoop的抽象文件系统的API,支持以流的方式访问文件系统中的数据。特性:1、 支持超大文件2、 检测和快速应对硬件故障(故障检测和自动恢复)3、 流式数据访问,注重的是数据的吞吐量,而不是数据的响应速度4、 简化的一致性模型,一次写入,多次读取。不适合:5、 低...
阅读全文
摘要:1.1.1. hadoop IO 对比Java IO即可 FSDataInputStream,FSDataOutputStream 为抽象类, FSInputStream抽象类 1.1.2. hadoop文件系统中的权限 枚举类FsAction定义了rwx权限,常量 ...
阅读全文
摘要:1.1. hadoop抽象文件系统 因java.io.FileSystem为私有抽象包,不可被外界包引用,因此hadoop特别提供了一个抽象的文件系统, HDFS只是一个具体实现,org.apache.hadoop.fs.FileSystem hadoop通过getFi...
阅读全文
摘要:1.1. java文件系统 1.1.1. URI和URL 1.1.2. java IO(自行研究)
阅读全文
摘要:文件系统,对文件和目录的管理1.1. linux本地文件系统1.1.1. 虚拟文件系统1.1.1. linux文件保护机制 1.2. 分布式文件系统NFS
阅读全文
浙公网安备 33010602011771号