随笔分类 - 大数据
摘要:1. 背景 一大早起来信息,kafka消息积压了五十亿,赶紧打开电脑处理。 这段程序是kafka实时消息经java代码处理后写入hbase,java代码大半年一直没出问题,推测是下游hbase异常。 2. 处理方式 查看日志 22/02/22 10:06:42 WARN internals.Cons
        阅读全文
                
摘要:异常1 23/03/29 09:51:17 INFO client.AsyncProcess: #8, table=bbb:sigimsi, attempt=10/35 failed=163ops, last exception: org.apache.hadoop.hbase.NotServing
        阅读全文
                
摘要:// fetch到哪 就算偏移量消费到哪,但是实际应该是处理到哪儿才算消费到哪。 // 设置自动提交偏移量为false ; 注意手动提交偏移量的时候,提交的是 poll拉取的那批消息中最后的那条offset,而不是消费到哪条提交哪条; configs.put(ConsumerConfig.ENABL
        阅读全文
                
摘要:使用pyspark提交spark任务时,为提高单个任务使用的CPU核数(默认是1),需对参数进行设置。spark-submit --help中可以指定的参数有限,需要在代码中指定参数值。如下: conf = SparkConf() conf.setAppName('test_mean_shift')
        阅读全文
                
摘要:大表 180亿 小表 3000 采用map join hive中in (select ) 与 inner join的区别
        阅读全文
                
摘要:kafka eagle gihub 官方文档 0. eagle简介 是一个监控系统,监控kafka 集群,可视化地展示消费者线程、偏移量、所有者等信息。 监控了当前的消费者组、每个组正在消费的主题以及该组在每个主题中的偏移、滞后量、日志大小位置。有助于把握 消息队列中消费的速度以及消息队列生产的速度
        阅读全文
                
摘要:flink基本原理 stratosphere架构 dataflow模型 无界,有界 窗口:固定窗口,滑动窗口,会话窗口 时间域和水位线 分布式异步快照 chandy-lamport ABS 异步屏障快照 flink基本设计思想 stratosphere系统架构 dataflow模型 分布式异步快照算
        阅读全文
                
摘要:# 直接连接IP beeline !connect jdbc:hive2://1.1.6.1:10000 # 通过zookeeper服务发现 beeline -u 'jdbc:hive2://1.1.6.2:2181,1.1.6.6:2181,1.1.6.14:2181/;serviceDiscov
        阅读全文
                
摘要:对于聚类算法,计算密集型的任务,如何调优 # 以下各角色的作用? MemoryStore BlockManager BlockManagerMaster spark-submit调优并行度的关键点: 并行运行的task数量 = min(partitions, executors x executor
        阅读全文
                
摘要:Spark Thrift Servers 提供JDBC/ODBC连接的服务 服务运行方式是一个Spark的应用程序,只是这个应用程序支持JDBC/ODBC的连接, 所以:可以通过应用的4040页面来进行查看操作 beeline连接 !connect jdbc:hive2://ser-01:10015
        阅读全文
                
摘要:1. 整体架构 hdfs架构 zk monode高可用。HA的工作原理?是否需要每个datanode监听zk? namenode NameNode(nn):Hdfs集群的管理者,Master 管理Hdfs的名称空间(NameSpace) 维护副本策略 记录文件块(Block)的映射信息 负责处理客户
        阅读全文
                
摘要:hbase集群和hdfs需要共享机器吗? 不需要,但是本地的话会提高效率。hdfs如何把(节点上的)本地文件上传到HDFS region不能跨服务器? hbase根据rowkey来确定region位置 当列族多的时候,会怎样?region中的列族仍然在同一机器吗? 客户端建表的时候是直接从zk获取m
        阅读全文
                
摘要:1. 数仓研发流程 1.1 六个阶段 需求阶段:数据产品经理应如何应对不断变化的业务需求。 设计阶段:数据产品经理、数据开发者应如何综合性能、成本、效率、质量等因素,更好地组织与存储数据。 开发阶段:数据研发者如何高效、规范地进行编码工作。 测试阶段:测试人员应如何准确地暴露代码问题与项目风险,提升
        阅读全文
                
摘要:SASL/PLAIN 一、服务端配置 配置 config/server.properties # 配置ACL入口类 authorizer.class.name=kafka.security.auth.SimpleAclAuthorizer # SASL_PLAINTEXT # 在三台机器上换成每台机
        阅读全文
                
摘要:Client查询zk,找到hbase:meta表所在的regionserver Client请求hbase:meta表,查询Row所在的Region以及所在的regionserver 直连region,进行操作 缓存hbase:meta
        阅读全文
                
摘要:1. 依赖部署 # zookeeper # kafka server.1=c5:2881:3881 server.2=c6:2881:3881 server.3=c7:2881:3881 kafka-server-stop.sh bin/kafka-server-start.sh --daemon 
        阅读全文
                
摘要:生成broker ID The broker id for this server. If unset, a unique broker id will be generated.To avoid conflicts between zookeeper generated broker id's a
        阅读全文
                
摘要:1. 心跳机制 Kafka 的心跳是 Kafka Consumer 和 Broker 之间的健康检查,只有当 Broker Coordinator 正常时,Consumer 才会发送心跳。 Consumer 和 Rebalance 相关的 2 个配置参数: 参数 字段 session.timeout
        阅读全文
                
摘要:0. 背景 上游厂家生产信令数据,我方消费kafka数据,过滤后插入HBase。 上游生产的信令数据分了4个主题,每个主题有若干分区,这4个主题的数据消费后都插入同一张HBase表。 问题:kafka消息积压达到百亿。 以下以topic1为例,有6个分区。 1. 查看消费滞后情况 kafka-con
        阅读全文
                
摘要:事件 1. 计算机术语 事件是可以被控件识别的操作,如按下确定按钮,选择某个单选按钮或者复选框。每一种控件有自己可以识别的事件,如窗体的加载、单击、双击等事件,编辑框(文本框)的文本改变事件,等等。 事件有系统事件和用户事件。系统事件由系统激发,如时间每隔24小时,银行储户的存款日期增加一天。用户事
        阅读全文
                
                    
                
浙公网安备 33010602011771号