02 2015 档案

Reducejoin sample
摘要:示例文件同sample join analysis 之前的示例是使用map端的join.这次使用reduce端的join. 根据源的类别写不同的mapper,处理不同的文件,输出的key都是studentno.value是其他的信息同时加上类别信息。 然后使用multipleinputs不同的路径注册不同的mapper. reduce端相同的studentno的学生信息和考试成绩分配给同... 阅读全文

posted @ 2015-02-28 17:15 tneduts 阅读(181) 评论(0) 推荐(0)

java Memorymapfile demo
摘要:String lineseperator = java.security.AccessController .doPrivileged(new sun.security.action.GetPropertyAction( "line.separator")); Access restriction: The constructor 'GetPropertyAction(String)'... 阅读全文

posted @ 2015-02-28 11:14 tneduts 阅读(694) 评论(0) 推荐(0)

java :hello world
摘要:练习java的基本语法。 output hellow world. 需求:打包自身项目的bin目录文件为一个临时可运行的jar文件,执行完后删除。 使用process执行jar文件,返回输入流和错误流的信息。 熟悉了java –cp jarname.jar , java –jar jarname 等命令的使用。 生成可执行jar包和非可执行jar包的区别就在于是否在manifest中... 阅读全文

posted @ 2015-02-28 06:52 tneduts 阅读(268) 评论(1) 推荐(0)

Java dynamical proxy demo
摘要:今天练习了一下动态代理的一个方面,假设使用它来完成自动设置默认不提交,启动事务,获取到异常则回滚,正常执行则提交。 如果不使用动态代理,则需要在每个方法本身里面设置Connection,写try,catch语句,重复的工作。 为什么要使用动态代理? 我们的业务层可以更加专注于业务本身,把其他相关的活抽象出来共同处理,如日志处理和异常处理等。这样的代码更干净。 代码示例如下: imp... 阅读全文

posted @ 2015-02-28 06:43 tneduts 阅读(158) 评论(0) 推荐(0)

Sample SecondarySort 浅析
摘要:示例文件:100 99 100 98 100 56 100 78 20 100 30 100 20 50 30 50 30 60 20 80 需求:首先按第一个数字分组,组成按第二个数字排序。解决方案: ... 阅读全文

posted @ 2015-02-26 21:23 tneduts 阅读(362) 评论(0) 推荐(0)

Java zip and unzip demo
摘要:目录结构如下:import java.io.File;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.IOException;import java.nio.file.Path;import ... 阅读全文

posted @ 2015-02-26 08:05 tneduts 阅读(1736) 评论(0) 推荐(0)

Oracle Jdbc demo
摘要:两种方式:thin是一种瘦客户端的连接方式,即采用这种连接方式不需要安装oracle客户端,只要求classpath中包含jdbc驱动的jar包就行。thin就是纯粹用Java写的ORACLE数据库访问接口。 oci 是一种胖客户端的连接方式,即采用这种连接方式需要安装oracle客户端。oci是O... 阅读全文

posted @ 2015-02-25 08:26 tneduts 阅读(571) 评论(1) 推荐(0)

Sample Join Analysis
摘要:Sample data: student.txt 1,yaoshuya,25 2,yaoxiaohua,29 3,yaoyuanyie,15 4,yaoshupei,26 Sample data:score.txt 1,yuwen,100 1,shuxue,99 2,yuwen,99 2,shuxue,88 ... 阅读全文

posted @ 2015-02-23 16:36 tneduts 阅读(360) 评论(0) 推荐(0)

Sample MultipleFileWordcount CombineFileInputFormat
摘要:在旧版本的samples中,使用的是旧的api,mapred下面的MultiFileInputFormat,现在已经过时。现在推荐使用mapreduce下面的CombineInputFormat来处理。应用场景: 如果文件数量大,而且单个文件又比较小,若是使用FileInputFormat进行分片... 阅读全文

posted @ 2015-02-23 09:25 tneduts 阅读(405) 评论(0) 推荐(0)

FileOutputFormat
摘要:TextOutputFormat 默认输出字符串输出格式;SequenceFileOutputFormat 序列化文件输出;MultipleOutputs 可以把输出数据输送到不同的目录;下面我们以分析FileOutputFormat为例,得到一些启迪,来满足我们的某些需要,如修改keyvalue的... 阅读全文

posted @ 2015-02-22 21:30 tneduts 阅读(509) 评论(0) 推荐(0)

Combine small files to Sequence file
摘要:Combine small files to sequence file or avro files are a good method to feed hadoop. Small files in hadoop will take more namenode memory resource. SequenceFileInputFormat 是一种Key value 格式的文件格式。 Key... 阅读全文

posted @ 2015-02-22 11:05 tneduts 阅读(384) 评论(0) 推荐(0)

FileInputFormat
摘要:MapReduce框架要处理数据的文件类型 FileInputFormat这个类决定。 TextInputFormat是框架默认的文件类型,可以处理Text文件类型,如果你要处理的文件类型不是Text, 譬如说是Xml或DB,你就需要自己实现或用库中已有的类型。 FileInputFormat的主要方法之一getSplits完成的功能是获取job要处理的路径文件所在的block信息。 数据... 阅读全文

posted @ 2015-02-21 20:59 tneduts 阅读(375) 评论(0) 推荐(0)

Sample: Write And Read data from HDFS with java API
摘要:HDFS: hadoop distributed file system 它抽象了整个集群的存储资源,可以存放大文件。 文件采用分块存储复制的设计。块的默认大小是64M。 流式数据访问,一次写入(现支持append),多次读取。 不适合的方面: 低延迟的数据访问 解决方案:HBASE 大量的小文件 解决方案:combinefileinputformat... 阅读全文

posted @ 2015-02-21 14:10 tneduts 阅读(549) 评论(0) 推荐(0)

Oracle 性能维护一点
摘要:大数据量表的维护原则 1.如果此表经常CRUD,最好的办法是定期收集统计信息传递给oracle优化器,提高性能。例如dbms_stats.gather_table_stats命令。 可以做在ETL中,定期执行。 2.考虑使用业务常用字段来进行分区,例如时间或地域等。以提高表查询的效率。 视图创建原则 1.绝对禁止在视图的基础上再创建视图,为什么这样会影响性能? ... 阅读全文

posted @ 2015-02-19 10:11 tneduts 阅读(140) 评论(0) 推荐(0)

DW与DM
摘要:DW组成部分简介 DW的组成部分有:针对数据源的分析、数据的ETL、数据的存储结构,元数据管理等。 数据源分析 主要是分析要抽取哪些数据,如何抽取(全量还是增量)?它的更新周期是怎么样的?它的数据质量如何? 确定数据的格式,数据的域。 ETL ETL之前需要知道以下内容,数据源有哪些系统,各个业务系统的RDBMS是什么?是否存在手工维护的数据? 数据抽取... 阅读全文

posted @ 2015-02-19 09:57 tneduts 阅读(1282) 评论(0) 推荐(0)

WordCount Analysis
摘要:1.Create a new java project, then copy examples folder from /home/hadoop/hadoop-1.0.4/src; Create a new folder named src, then Paste to the project to this folder. Error: Could not find or load main... 阅读全文

posted @ 2015-02-19 00:30 tneduts 阅读(370) 评论(0) 推荐(0)

Oracle Stored Procedure demo
摘要:1.how to find invalid status stored procedure and recompile them?SELECT OBJECT_NAME , status FROM user_objects WHERE OBJECT_TYPE = 'PROCEDURE';Alter p... 阅读全文

posted @ 2015-02-17 12:37 tneduts 阅读(426) 评论(0) 推荐(0)

Linux shell basic3 dd wc comm chmod ls
摘要:Generating files of any size /dev/zerois a character special device, which infinitely returns the zero byte (\0).The above command will create a file ... 阅读全文

posted @ 2015-02-16 12:39 tneduts 阅读(471) 评论(1) 推荐(0)

Linux shell basic2 cat find tr
摘要:Cat stands for concatenate.Case 1.When the text files have more blank lines, we want to remove them.We can use regex \s+ '\n'.cat file.txt | tr \s '\n... 阅读全文

posted @ 2015-02-15 21:34 tneduts 阅读(220) 评论(1) 推荐(0)

Shell basic1
摘要:A shell script is a text file that typically begins with a shebang, as follows: #!/bin/bash /bin/bash is the interpreter command path for Bash. $ sh /home/path/script.sh # Using full path of scri... 阅读全文

posted @ 2015-02-14 11:30 tneduts 阅读(194) 评论(1) 推荐(0)

Storm wordcount Read from file
摘要:source code:package stormdemo;import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.FileNotFoundException;import java.io.FileRead... 阅读全文

posted @ 2015-02-13 09:00 tneduts 阅读(531) 评论(0) 推荐(0)

Java Consumer and Producer demo
摘要:import java.util.Random; import java.util.concurrent.LinkedBlockingQueue; class producer { Random rdm = new Random(); void produce( Lin... 阅读全文

posted @ 2015-02-12 19:01 tneduts 阅读(370) 评论(0) 推荐(0)

Regarding learning
摘要:when you learn something, just like learn computer language.if you just learn some basic usage, not master the nature. you will be restricted by the l... 阅读全文

posted @ 2015-02-12 07:38 tneduts 阅读(209) 评论(0) 推荐(0)

Design Pattern :Factory and Reflect in java
摘要:interface page { void Render(); } class pageA implements page { @Override public void Render() { System.out.println("I am " + this.getClass().getName()); ... 阅读全文

posted @ 2015-02-11 21:55 tneduts 阅读(140) 评论(0) 推荐(0)

java server programing
该文被密码保护。

posted @ 2015-02-11 07:56 tneduts 阅读(7) 评论(5) 推荐(0)

Storm calculate pv
摘要:本题其实就是storm的wordcout,需要把一个gz压缩的文件读取,并使用storm计算其pv. 样本 数据: 存储为accesslog.gz 我把它加载到我的虚拟机中/mnt/下。 没有使用trident,刚学习最基本的。 所以把spout的数目设定为1. 把文件路径存储在config 的map中了,其实是想使用参数进行传递,这样更友好。 读取完之后把它存储到一个文件当中。... 阅读全文

posted @ 2015-02-07 13:36 tneduts 阅读(341) 评论(0) 推荐(0)

导航