kafka - 随笔分类 - yuerspring

摘要：先上图运行界面运行了三个任务第一个是word count第二三个是数据 producer and consumer ----> 更多代码可以参考上一篇blog 里面有很详细的介绍在数据从idea 导出jar 包已经运行的过程中遇到两个问题 1，导出时候 ... 阅读全文

posted @ 2019-01-23 20:19 yuerspring 阅读(266) 评论(0) 推荐(0)

摘要：想在windows 下，搭建一个spark kafka 的最简单的实时流计算：python 随机生成0-100 的随机数据，发送给spark 进行统计scala 2.11python 3.5java 1.8kafka_2.11-0.11.0.0.tgzzooke... 阅读全文

posted @ 2017-08-19 13:54 yuerspring 阅读(237) 评论(0) 推荐(0)

摘要：package com.xing.streamimport kafka.serializer.StringDecoderimport org.apache.spark.SparkConfimport org.apache.spark.streaming.kafka.K... 阅读全文

posted @ 2016-12-16 21:59 yuerspring 阅读(204) 评论(0) 推荐(0)

摘要：启动powershell PS > cd 'C:\Program Files\Metricbeat'PS C:\Program Files\Metricbeat> .\install-service-metricbeat.ps1C:\Program Files\Met... 阅读全文

posted @ 2016-12-14 22:20 yuerspring 阅读(471) 评论(0) 推荐(0)

摘要：原文 http://www.aboutyun.com/thread-9341-1-1.html问题导读：1.zookeeper在kafka的作用是什么？2.kafka中几乎不允许对消息进行“随机读写”的原因是什么？3.kafka集群consumer和producer状... 阅读全文

posted @ 2016-11-24 12:55 yuerspring 阅读(189) 评论(0) 推荐(0)

大数据面试题

摘要：1.列举spark 比hadoop 快的原因，以及现在存在的主要问题2.描述下使用spark streaming 和 GraphX实现实时计算的可行性，以及可能会遇到的问题3.GraphX的Pregel API 只支持有向图遍历，如何实现无xiang 遍历，描... 阅读全文

posted @ 2016-10-15 13:37 yuerspring 阅读(137) 评论(0) 推荐(0)

摘要：案例介绍与编程实现1. 案例介绍该案例中，我们假设某论坛需要根据用户对站内网页的点击量，停留时间，以及是否点赞，来近实时的计算网页热度，进而动态的更新网站的今日热点模块，把最热话题的链接显示其中。2. 案例分析对于某一个访问论坛的用户，我们需要对他的行为数据做一个抽象... 阅读全文

posted @ 2016-10-10 13:45 yuerspring 阅读(235) 评论(0) 推荐(0)

Kafka 集群搭建步骤

摘要：Kafka 集群搭建步骤1. 机器准备本文中，我们将准备三台机器搭建 Kafka 集群，IP 地址分别是 192.168.1.1，192.168.1.2，192.168.1.3，并且三台机器网络互通。2. 下载并安装 kafka_2.10-0.8.2.1下载地址: h... 阅读全文

posted @ 2016-10-10 12:58 yuerspring 阅读(286) 评论(0) 推荐(0)

Kafka 点滴

摘要：Kafka 是一个分布式的，高吞吐量，易于扩展地基于主题发布/订阅的消息系统，最早是由 Linkedin 开发，并于 2011 年开源并贡献给 Apache 软件基金会。一般来说，Kafka 有以下几个典型的应用场景: 作为消息队列。由于 Kafka 拥有高吞吐... 阅读全文

posted @ 2016-10-10 12:49 yuerspring 阅读(137) 评论(0) 推荐(0)

KafKa常用命令

摘要：kafka-0.9.0.1/bin/kafka-server-start.sh ../config/server.properties &bin/kafka-console-producer.sh --broker-list hadoop1:9092,hadoop2:... 阅读全文

posted @ 2016-09-17 14:45 yuerspring 阅读(102) 评论(0) 推荐(0)

摘要：Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。这种动作（网页浏览，搜索和其他用户的行动）是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop的... 阅读全文

posted @ 2016-05-03 22:53 yuerspring 阅读(292) 评论(0) 推荐(0)

yuerspring