随笔档案「2016年5月」 - yuerspring

eror---at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.init

摘要：2016-05-29 23:00:09,532 WARN [Thread-12] mapred.LocalJobRunner (LocalJobRunner.java:run(560)) - job_local1841304029_0001java.lang.Exc... 阅读全文

posted @ 2016-05-29 23:06 yuerspring 阅读(676) 评论(0) 推荐(0)

hadoop jar wc.jar com.map.red.job.WordCountJob

摘要：[root@bigdataspark ~]# hadoop jar wc.jar com.map.red.job.WordCountJob16/05/22 19:20:24 WARN mapreduce.JobSubmitter: Hadoop command-lin... 阅读全文

posted @ 2016-05-28 13:16 yuerspring 阅读(419) 评论(0) 推荐(0)

mapreduce运行机制

摘要：mapreduce运行机制，这些按照时间顺序包括：输入分片（input split）、map阶段、combiner阶段、shuffle阶段和reduce阶段。partition 是一定有的，只是个数从1 到 ncombiner 是可以定义的1. 输入分片（input ... 阅读全文

posted @ 2016-05-27 18:01 yuerspring 阅读(287) 评论(0) 推荐(0)

通过http 协议可以访问 Hadoop 50070 端口，hadoop 里面配置的servlet 是什么容器呢？

摘要：Jetty 是一个开源的servlet容器，它为基于Java的web容器，例如JSP和servlet提供运行环境。Jetty是使用Java语言编写的，它的API以一组JAR包的形式发布。开发人员可以将Jetty容器实例化成一个对象，可以迅速为一些独立运行（stand-... 阅读全文

posted @ 2016-05-27 15:50 yuerspring 阅读(236) 评论(0) 推荐(0)

HDFS 高可用，hdfs-site.xml 配置及说明，更详细参考官网

摘要：dfs.replication 3 dfs.nameservices mycluster dfs.ha.namenodes.mycluster nn1,nn2 dfs.namenode.rpc-addres... 阅读全文

posted @ 2016-05-23 17:03 yuerspring 阅读(833) 评论(0) 推荐(0)

yarn-site.xml and mapred-site.xml 配置以及属性说明

摘要：//启用yarn 作为资源管理框架 mapreduce.framework.name yarn //启用高可用 yarn.resourcemanager.ha.enabled true // 定义集群的名称 ya... 阅读全文

posted @ 2016-05-23 15:45 yuerspring 阅读(601) 评论(0) 推荐(0)

Spark 源码剖析

摘要：Spark 源码剖析阅读全文

posted @ 2016-05-20 16:15 yuerspring 阅读(77) 评论(0) 推荐(0)

window eclipse 访问远程虚拟机 Hdfs

摘要：package com.ibm.w3;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;impor... 阅读全文

posted @ 2016-05-20 09:08 yuerspring 阅读(367) 评论(0) 推荐(0)

hadoop的伪分布环境配置（2.5.2）

摘要：/hadoop/etc/hadoop/Eclipse :: http://my.oschina.net/lanzp/blog/309078?fromerr=blt5oYkFcore-site.xmlhadoop.tmp.dir/usr/local/hadoop/... 阅读全文

posted @ 2016-05-20 07:18 yuerspring 阅读(245) 评论(0) 推荐(0)

hadoop的伪分布安装（低版本）

摘要：1.hadoop的伪分布安装1.1.使用root用户，密码是hadoop登录的。1.2.修改linux的ip地址操作：(1)在linux桌面的右上角图标，右击，选择Edit Connections... 选择ipv4的手工方式设置ip为192... 阅读全文

posted @ 2016-05-19 21:48 yuerspring 阅读(195) 评论(0) 推荐(0)

星型模型&& 雪花模型

摘要：星形模式是一种多维的数据关系，它由一个事实表（Fact Table）和一组维表（Dimension Table）组成。每个维表都有一个维作为主键，所有这些维的主键组合成事实表的主键。事实表的非主键属性称为事实（Fact），它们一般都是数值或其他可以进行计算的数据；而维... 阅读全文

posted @ 2016-05-18 16:00 yuerspring 阅读(355) 评论(0) 推荐(0)

数据仓库维度建模

摘要：维度建模法维度建模将信息组织到结构中，这些结构通常对应于分析者希望对数据仓库数据使用的查询方法。1999 年第三季度西北地区的食品销售额是多少？表示使用三个维度（产品、地理、时间）指定要汇总的信息。星型模式之所以广泛被使用，在于针对各个维作了大量的预处理，如按照维进行... 阅读全文

posted @ 2016-05-18 15:50 yuerspring 阅读(346) 评论(0) 推荐(0)

云计算之Docker

摘要：Docker建立在LXC的基础上。与任何容器技术一样，就该程序而言，它有自己的文件系统、存储系统、处理器和内存等部件。容器与虚拟机之间的区别主要在于，虚拟机管理程序对整个设备进行抽象处理，而容器只是对操作系统内核进行抽象处理。这反过来意味着：虚拟机管理程序能做容器做不... 阅读全文

posted @ 2016-05-18 08:50 yuerspring 阅读(156) 评论(0) 推荐(0)

sed of shell

摘要：sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾。文件内容并没有 ... 阅读全文

posted @ 2016-05-18 07:58 yuerspring 阅读(141) 评论(0) 推荐(0)

awk of shell

摘要：awk非常的优秀，运行效率高，而且代码简单，对格式化的文本处理能力超强。基本上grep和sed能干的活awk全部都能干，而且干得更好。awk '{pattern + action}' {filenames}尽管操作可能会很复杂，但语法总是这样，其中 pattern 表... 阅读全文

posted @ 2016-05-18 07:24 yuerspring 阅读(159) 评论(0) 推荐(0)

fastdfs 简介

摘要：fastdfs 简介 http://ylw6006.blog.51cto.com/470441/948729/ 阅读全文

posted @ 2016-05-17 16:56 yuerspring 阅读(117) 评论(0) 推荐(0)

怎么学好，使用好shell

摘要：shell 在大数据领域是必不可少的重要工具，那怎么学好，使用好shell ，先从简单的命令开始 if [ -z "$DIRNAME" ]这里的-z是什么意思啊？类似这样的文件操作在shell编程中用处很大：我总结有一些一些经常使用－d ：判断制定的是否为目录－z... 阅读全文

posted @ 2016-05-17 09:44 yuerspring 阅读(148) 评论(0) 推荐(0)

内存数据库 memcached

摘要：内存数据库 memcached 阅读全文

posted @ 2016-05-17 09:15 yuerspring 阅读(117) 评论(0) 推荐(0)

LVS & Nginx 的区别与优缺

摘要：最近在学习并发，发现这两个概念在高可用，高并发中起的作用有点模糊LVS ：单向的End user ------>LVS --------> tomcat .......> end user Ngnix 有个来回End user ------>Ngnix-------... 阅读全文

posted @ 2016-05-16 08:07 yuerspring 阅读(315) 评论(0) 推荐(0)

keepalived ,lvs，tomcat 高可用，高并发，高性能应用架构的搭建

摘要：keepalived ,lvs，tomcat 高可用，高并发，高性能应用架构的搭建 keepalived ,lvs 搭建在同一台服务器上，两个tomcat 分别在一个tomcat上四台服务器版本： centos 6.5 yum install ipvsad... 阅读全文

posted @ 2016-05-15 16:36 yuerspring 阅读(191) 评论(0) 推荐(0)

keepalived ,egnix ，tomcat 高可用，高并发应用架构的搭建

摘要：keepalived ,egnix ，tomcat 高可用，高并发应用架构的搭建keepalived 中需要构建Virtual IP 地址，并创建一个nginx check 文件检测 nginx Server 运行状态 ,如果ngnix 进程不可访问，则k... 阅读全文

posted @ 2016-05-15 16:35 yuerspring 阅读(148) 评论(0) 推荐(0)

tengine 淘宝 nginx

摘要：NginxNginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源的消耗而闻名。2011年6月1... 阅读全文

posted @ 2016-05-14 13:53 yuerspring 阅读(252) 评论(0) 推荐(0)

Java 读取网页简易程序

摘要：package com.ibm.downloadtool;import java.io.BufferedInputStream;import java.net.HttpURLConnection;import java.net.URL;import java.util... 阅读全文

posted @ 2016-05-12 09:18 yuerspring 阅读(395) 评论(0) 推荐(0)

Spark 读取DB2 数据表

摘要：Spark 读取DB2 数据表阅读全文

posted @ 2016-05-12 08:45 yuerspring 阅读(324) 评论(0) 推荐(0)

How to Learn R

摘要：The R programming language was designed for doing statistics. In my view, its great popularity among statisticians, people learning st... 阅读全文

posted @ 2016-05-09 13:35 yuerspring 阅读(217) 评论(0) 推荐(0)

数据挖掘与R语言，数据分析，机器学习

摘要：数据挖掘与R语言阅读全文

posted @ 2016-05-09 13:20 yuerspring 阅读(149) 评论(0) 推荐(0)

Linux下bash中关于日期函数date的格式及各种用法

摘要：源地址： https://fukun.org/archives/06112057.htmlExample如果想获取相对日期（不是现在）就要用到-d选项（--date），-d的参数必须是一个整体，可以写成next-day或者“next day”123456789101... 阅读全文

posted @ 2016-05-08 12:39 yuerspring 阅读(449) 评论(0) 推荐(0)

大数据之机器学习（11）

摘要：K近邻算法朴素贝叶斯决策树线性回归逻辑回归集成算法聚类算法特征降维EM算法协同过滤推荐算法关联规则推荐算法阅读全文

posted @ 2016-05-05 16:27 yuerspring 阅读(163) 评论(0) 推荐(0)

unsolved 2 db2 issues

摘要：An error occurred while processing the results. - [jcc][t4][2030][11211][3.68.61]A communication error occurred during operations on t... 阅读全文

posted @ 2016-05-05 15:14 yuerspring 阅读(523) 评论(0) 推荐(0)

Pig

摘要：Pig 阅读全文

posted @ 2016-05-05 14:04 yuerspring 阅读(115) 评论(0) 推荐(0)

大数据技术可视化之Hue

摘要：大数据技术可视化之Hue 阅读全文

posted @ 2016-05-05 14:01 yuerspring 阅读(251) 评论(0) 推荐(0)

大数据技术之kylin & tableau

摘要：kylin & tableauhive 就是字面意思，大型数据仓库，这边用了一个叫kylin 的东西从hive 取数据生成cube 以key value 的方式存在hbase 里面。hbase 对接tableau 等报表工具 Hbase 中 Cube 存的是... 阅读全文

posted @ 2016-05-05 10:33 yuerspring 阅读(700) 评论(0) 推荐(0)

大数据技术之R

摘要：大数据技术之R 阅读全文

posted @ 2016-05-05 10:31 yuerspring 阅读(95) 评论(0) 推荐(0)

DB2 数据库清表语句

摘要：truncate table DWDM2.tablename IMMEDIATE;alter table DWDM1.tablename activate not logged initially with empty table；but which one is... 阅读全文

posted @ 2016-05-04 20:16 yuerspring 阅读(763) 评论(0) 推荐(0)

DB2 数据库之数据打平函数

摘要：select num, listagg(DSCR, ',') WITHIN GROUP(ORDER BY DSCR) as DSCRfrom DWDM2.QUOTE_TEMP where DSCR != 'E0003' group by num with ... 阅读全文

posted @ 2016-05-04 08:16 yuerspring 阅读(507) 评论(0) 推荐(0)

大数据技术之Hive

摘要：大数据技术Hive 调用的常用方式 Hive -e ‘sql’Hive -f 'file.name'Java jdbc Hive 是目前hadoop 系统中最重要的工具，请参考stuq 的IT 图谱：https://github.com/TeamStuQ/ski... 阅读全文

posted @ 2016-05-03 22:59 yuerspring 阅读(150) 评论(0) 推荐(0)

大数据技术之Hbase

摘要：大数据技术 Hbase 在大数据领域能够扮演什么角色？在数据仓库中？日常工作中？ have no idea 阅读全文

posted @ 2016-05-03 22:58 yuerspring 阅读(99) 评论(0) 推荐(0)

大数据技术之Stome 概念

摘要：Storm 是一个分布式的，容错的实时计算系统Storm 实时低延迟，主要有两个原因：1 storm 进程是常驻内存的，没有hadoop 里面的不断的起停2 storm 的数据是不经过磁盘的，都是在内存里面的，处理完成就没有了，数据的交换经过网络，没有磁盘IO... 阅读全文

posted @ 2016-05-03 22:58 yuerspring 阅读(865) 评论(0) 推荐(0)

大数据技术之Scala

摘要：大数据技术阅读全文

posted @ 2016-05-03 22:55 yuerspring 阅读(134) 评论(0) 推荐(0)

大数据技术之Java

摘要：大数据技术阅读全文

posted @ 2016-05-03 22:54 yuerspring 阅读(110) 评论(0) 推荐(0)

大数据技术之Flume 配置示例

摘要：大数据技术之Flume 配置示例 1 & 3 [root@bigdatacloud conf]# cat test1a1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure the sourc... 阅读全文

posted @ 2016-05-03 22:54 yuerspring 阅读(197) 评论(0) 推荐(0)

大数据技术之Spark

摘要：大数据技术之阅读全文

posted @ 2016-05-03 22:53 yuerspring 阅读(140) 评论(0) 推荐(0)

大数据技术之Kafka是什么

摘要：Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop的... 阅读全文

posted @ 2016-05-03 22:53 yuerspring 阅读(288) 评论(0) 推荐(0)

大数据技术之Hadoop 基础认识

摘要：大数据技术之Hadoop-----> 未完，待续到官网下载 hadoop-2.5.2.tar.gz ，解压到没有中文的路径下配置环境变量 HADOOP_HOME 配置Path 路径 %HADOOP_HOME%/bin ；%HADOOP_HOME%/sbin... 阅读全文

posted @ 2016-05-03 22:52 yuerspring 阅读(277) 评论(0) 推荐(0)

在eclipse中运行Mapreduce & spark

摘要：ing 阅读全文

posted @ 2016-05-03 22:47 yuerspring 阅读(87) 评论(0) 推荐(0)

datatstage 中一直处于Ready 状态

摘要：datatstage 中的一个db source stage一直处于Ready 状态，很奇怪，请赐教阅读全文

posted @ 2016-05-03 17:28 yuerspring 阅读(124) 评论(0) 推荐(0)

Datastage run 有时候太慢有时候performance 还Okay

摘要：US team 同事开发了一个prod_dimnsn 的job ，job 之大让人很是无语，一个job 里面大概用到了不下 50 个stage ，虽然只有简单的60W 数据，但是真个job 里面用了太多来的 lookup change capture... 阅读全文

posted @ 2016-05-03 13:23 yuerspring 阅读(197) 评论(0) 推荐(0)

yuerspring

05 2016 档案

公告