摘要:Ubuntu Server安装R和Rstudio发表于 技术天堂 2014-03-15 21:03 字数: 534 阅读量: 205R是一个在科研领域很常用的工具,经常用R的年轻人或者经常上统计之都的肯定知道Rstudio的存在。然而对于R和Rstudio来讲,还是有很多问题存在的,今天我就...
阅读全文
随笔分类 - hadoop和大数据
摘要:Pig Latin:数据流编程语言一个Pig Latin程序是相对于输入的一步步操作。其中每一步都是对数据的一个简单的变换。用Pig Latin编程更像在RDBMS中“查询规划器”(query planner)这一层对数据进行操作,查询规划器决定了如何将描述型语句转化为一系列系统化执行的步骤。Pig对它所处理的数据要求则宽松得多;可以在运行时定义模式,而且这是可选的。本质上,Pig可以在任何来源的元组上进行操作。(当然数据源必须支持并行的读操作,例如存放在多个文件中)。它使用UDF(User define feature)从原始格式中读取元组。最常用的输入格式使用制表符分隔的字段组成的文本文件
阅读全文
摘要:DOM、JDOM、DOM4J的区别分类:XML2012-06-11 20:475576人阅读评论(6)收藏举报文档xmlcollectionsjavaapi工作dom是解析xml的底层接口之一(另一种是sax)而jdom和dom4j则是基于底层api的更高级封装dom是通用的,而jdom和dom4j则是面向java语言的DOM 是用与平台和语言无关的方式表示 XML 文档的官方 W3C 标准。DOM 是以层次结构组织的节点或信息片断的集合。这个层次结构允许开发人员在树中寻找特定信息。分析该结构通常需要加载整个文档和构造层次结构,然后才能做任何工作。由于它是基于信息层次的,因而 DOM 被认为是
阅读全文
摘要:Hadoop在处理海量数据分析方面具有独天优势。今天花了在自己的Linux上搭建了伪分布模式,期间经历很多曲折,现在将经验总结如下。首先,了解Hadoop的三种安装模式:1. 单机模式. 单机模式是Hadoop的默认模。当配置文件为空时,Hadoop完全运行在本地。因为不需要与其他节点交互,单机模式就不使用HDFS,也不加载任何Hadoop的守护进程。该模式主要用于开发调试MapReduce程序的应用逻辑。2. 伪分布模式. Hadoop守护进程运行在本地机器上,模拟一个小规模的的集群。该模式在单机模式之上增加了代码调试功能,允许你检查内存使用情况,HDFS输入输出,以及其他的守护进程交互。
阅读全文
摘要:2014年八大最热门的大数据工作作者:张霖星期四, 一月 16, 2014动态,大数据暂无评论大数据时代,数据过剩,人才短缺,越来越多的IT专业人士希望能够进入充满机遇的大数据领域,但是,到底哪些具体的大数据专业岗位和人才最为吃香呢?人力资源公司Kforce近日发布了一份报告根据IT职业薪酬水平给出了2014年最热门的十大大数据工作职位(年薪):一、ETL开发者(11-13万美元)随着数据种类的不断增加,企业对数据整合专业人才的需求越来越旺盛。ETL开发者与不同的数据来源和组织打交道,从不同的源头抽取数据,转换并导入数据仓库以满足企业的需要。ETL软件行业相对成熟,相关岗位的工作生命周期比较长
阅读全文