摘要: 本文kafka内容来源于kafka 的apache document.一、结构与概念解释1.基础概念topics: kafka通过topics维护各类信息。producer:发布消息到Kafka topic的进程。consumer:订阅kafka topic进程和处理订阅的消息的进程。broker:kafka集群的每个server叫broker.提供了语言无关、高性能、简单的client-server的链接方式。2.Topics and Logs(1)topic是发送消息的类别名称。每个partition是持续添加的有序的不可变的消息序列-commit log. partition内部的消息分 阅读全文
posted @ 2014-04-06 03:12 wanghongjun 阅读(8339) 评论(0) 推荐(0) 编辑
摘要: 一、走进Java未来:模块化、混合语言、多核并行、进一步丰富语法lamda-函数式编程、64位虚机。二、自动内存管理机制(一).Java内存区域与内存溢出异常1.区域:程序计数器/java虚拟机栈/本地方法栈/java堆/方法区(运行时常量池)还有直接内存(不在区域里但是能访问,通过nio,可用native函数库直接分配堆外内存),通过DirectByteBuffer访问。2.对象访问。一般一条语句至少涉及方法区/栈/堆,如String a =new String("abc"); 引用的定位方式:句柄访问方式和直接指针访问方式。(java的hotspot用的直接指针方式)3 阅读全文
posted @ 2014-04-03 17:27 wanghongjun 阅读(1501) 评论(0) 推荐(0) 编辑
摘要: 转的一篇文本分类的文章,非常不错,推荐阅读。文本分类入 门(一)文本分类问题的定义文本分类系列文章,从文本分类问题的定义开始,主要讲解文本分类系统的构成,主流的统计学习方法以及较为优秀的SVM算法及其改进。 一个文本(以下基本不区分“文本”和“文档”两个词的含义)分类问题就是将一篇文档归入预先定义的几个类别中的一个或几个,而文本的自动分类则是使用计算机程序来实现这样的分类。通俗点说,就好比你拿一篇文章,问计算机这文章要说的究竟是体育,经济还是教育,计算机答不上就打它的屁屁(……)。注意这个定义当中着重强调的两个事实。第一,用于分类所需要的类别体系是预先确定的。例如新浪新闻的分类体系,Yahoo 阅读全文
posted @ 2014-03-27 10:34 wanghongjun 阅读(361) 评论(0) 推荐(0) 编辑
摘要: 底层的并发功能与并发语义不存在一一对应的关系。同步和条件等底层机制在实现应用层协议与策略须始终保持一致。(需要设计级别策略。----底层机制与设计级策略不一致问题)。简介1.并发简史。(资源利用率/公平性/便利性),进程通信通过粗粒度通信机制:文件/套接字/信号量/信号处理器/共享内存。高效做事----串行和异步好的平衡。线程共享文件句柄和内存句柄,都有自己的程序计数器、栈、局部变量;都访问堆中内存,需要更细粒度的内存共享机制。2.线程优势降低程序开发维护成本,提升性能(将异步工作流转为串行工作流,模拟人类交互;降低代码复杂度)(1)发挥多处理器计算能力(2)建模的简单性(多项任务,串行编写- 阅读全文
posted @ 2014-03-24 22:18 wanghongjun 阅读(793) 评论(0) 推荐(0) 编辑
摘要: MultipleOutputs,hive SeqenceFile,Reduce对象指向变化 阅读全文
posted @ 2014-03-06 23:39 wanghongjun 阅读(828) 评论(0) 推荐(0) 编辑