wanghongjun - 博客园

2014年4月6日

摘要：本文kafka内容来源于kafka 的apache document.一、结构与概念解释1.基础概念topics: kafka通过topics维护各类信息。producer:发布消息到Kafka topic的进程。consumer:订阅kafka topic进程和处理订阅的消息的进程。broker:kafka集群的每个server叫broker.提供了语言无关、高性能、简单的client-server的链接方式。2.Topics and Logs(1)topic是发送消息的类别名称。每个partition是持续添加的有序的不可变的消息序列-commit log. partition内部的消息分阅读全文

posted @ 2014-04-06 03:12 wanghongjun 阅读(8372) 评论(0) 推荐(0)

2014年4月3日

深入Java虚拟机

摘要：一、走进Java未来：模块化、混合语言、多核并行、进一步丰富语法lamda-函数式编程、64位虚机。二、自动内存管理机制（一）.Java内存区域与内存溢出异常1.区域：程序计数器/java虚拟机栈/本地方法栈/java堆/方法区(运行时常量池)还有直接内存（不在区域里但是能访问，通过nio,可用native函数库直接分配堆外内存)，通过DirectByteBuffer访问。2.对象访问。一般一条语句至少涉及方法区/栈/堆，如String a =new String("abc"); 引用的定位方式：句柄访问方式和直接指针访问方式。（java的hotspot用的直接指针方式）3 阅读全文

posted @ 2014-04-03 17:27 wanghongjun 阅读(1533) 评论(0) 推荐(0)

2014年3月27日

文本分类入门

摘要：转的一篇文本分类的文章，非常不错，推荐阅读。文本分类入门(一)文本分类问题的定义文本分类系列文章，从文本分类问题的定义开始，主要讲解文本分类系统的构成，主流的统计学习方法以及较为优秀的SVM算法及其改进。一个文本（以下基本不区分“文本”和“文档”两个词的含义）分类问题就是将一篇文档归入预先定义的几个类别中的一个或几个，而文本的自动分类则是使用计算机程序来实现这样的分类。通俗点说，就好比你拿一篇文章，问计算机这文章要说的究竟是体育，经济还是教育，计算机答不上就打它的屁屁（……）。注意这个定义当中着重强调的两个事实。第一，用于分类所需要的类别体系是预先确定的。例如新浪新闻的分类体系，Yahoo 阅读全文

posted @ 2014-03-27 10:34 wanghongjun 阅读(395) 评论(0) 推荐(0)

2014年3月24日

java并发实践笔记

摘要：底层的并发功能与并发语义不存在一一对应的关系。同步和条件等底层机制在实现应用层协议与策略须始终保持一致。（需要设计级别策略。----底层机制与设计级策略不一致问题）。简介1.并发简史。（资源利用率/公平性/便利性),进程通信通过粗粒度通信机制：文件/套接字/信号量/信号处理器/共享内存。高效做事----串行和异步好的平衡。线程共享文件句柄和内存句柄，都有自己的程序计数器、栈、局部变量；都访问堆中内存，需要更细粒度的内存共享机制。2.线程优势降低程序开发维护成本，提升性能（将异步工作流转为串行工作流，模拟人类交互；降低代码复杂度）(1)发挥多处理器计算能力(2)建模的简单性（多项任务，串行编写- 阅读全文

posted @ 2014-03-24 22:18 wanghongjun 阅读(820) 评论(0) 推荐(0)

2014年3月6日

MapReduce (hive表SequenceFile的结果做输入)、MultipleOutputs和Reduce端迭代iterable的一些说明

摘要： MultipleOutputs,hive SeqenceFile,Reduce对象指向变化阅读全文

posted @ 2014-03-06 23:39 wanghongjun 阅读(852) 评论(0) 推荐(0)

公告