状态+checkpoint(重点)

状态+checkpoint(重点)

状态

  1. flink用于保存之前计算结果的机制

  2. flink会为每一个key保存一个状态

  3. 常用的sum(需要保存之前的计算结果) window(需要保存一段时间内的数据)内部都是有状态的

  4. flink也提供了几种查用的状态类

    1. valueState: 单值状态,为每一个key保存一个值,可以是任何类型,必须可以序列化
    2. mapState: kv格式的状态,为每一个key保存一个kv格式的状态
    3. listState: 集合状态,为每一个key保存一个集合状态,集合中可以保存多个元素
    4. reducingState/AggregatingState:聚合状态,为每一个key保存一个值,再定义状态时需要一个聚合函数
  5. flink的状态和普通变量的区别

    1. 普通变量是保存再flink的内存中的,如果flink任务执行失败,变量的数据会丢失
    2. flink的状态是一个特殊的变量,状态中的数据会被checkpoint持久化到hdfs中, 如果任务执行失败,重启任务,可以恢复状态
  6. 状态后端,用于保存状态的位置

    1. HashMapStateBackend:

      1. 将flink的状态先保存TaskManager的内存中,在触发checkpoint的时候将taskmanager中的状态再持久化到hdfs中

      2. 可以直接使用

        env.setStateBackend(new HashMapStateBackend())
        
    2. EmbeddedRocksDBStateBackend:

      1. RocksDS是一个本地的轻量级的数据库,数据在磁盘上

      2. 再启动lfink任务的时候会在每一个taskManager所在的节点启动一个rocksDB进程

      3. flink的状态会先保存在rocksDb数据库中,当触发checkpoint的时候将数据库中的状态持久化到hdfs中

      4. 可以支持增量快照

      5. 使用rocksDb状态后端需要带入依赖

        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-statebackend-rocksdb</artifactId>
            <version>1.15.0</version>
        </dependency>
        
      6. 使用方式

        env.setStateBackend(new EmbeddedRocksDBStateBackend(true))
        

checkpoint

  1. checkpoint是flink用于持久化flink状态的机制

  2. flink会定时将flink计算的状态持久化到hdfs中

  3. 开启checkpint的方法

    1. 在代码中开启- 每一个代码单独开启,优先级最高

      // 每 1000ms 开始一次 checkpoint
      env.enableCheckpointing(1000)
      // 高级选项:
      // 设置模式为精确一次 (这是默认值)
      env.getCheckpointConfig.setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE)
      // 确认 checkpoints 之间的时间会进行 500 ms
      env.getCheckpointConfig.setMinPauseBetweenCheckpoints(500)
      // Checkpoint 必须在一分钟内完成,否则就会被抛弃
      env.getCheckpointConfig.setCheckpointTimeout(60000)
      // 允许两个连续的 checkpoint 错误
      env.getCheckpointConfig.setTolerableCheckpointFailureNumber(2)
      // 同一时间只允许一个 checkpoint 进行
      env.getCheckpointConfig.setMaxConcurrentCheckpoints(1)
      // 使用 externalized checkpoints,这样 checkpoint 在作业取消后仍就会被保留
      //RETAIN_ON_CANCELLATION: 当任务取消时保留checkpoint
      env.getCheckpointConfig.setExternalizedCheckpointCleanup(
      ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION)
      //指定状态后端
      //EmbeddedRocksDBStateBackend eocksDb状态后端
      env.setStateBackend(new EmbeddedRocksDBStateBackend(true))
      //将状态保存到hdfs中,在触发checkpoint的时候将状态持久化到hdfs中
      env.getCheckpointConfig.setCheckpointStorage("hdfs://master:9000/flink/checkpoint")
      
      
    2. 在flink的集群的配置文件中同意开启-- flink新版才有

      vim flink-conf.yaml

      execution.checkpointing.interval: 3min
      execution.checkpointing.externalized-checkpoint-retention: RETAIN_ON_CANCELLATION
      execution.checkpointing.max-concurrent-checkpoints: 1
      execution.checkpointing.min-pause: 0
      execution.checkpointing.mode: EXACTLY_ONCE
      execution.checkpointing.timeout: 10min
      execution.checkpointing.tolerable-failed-checkpoints: 0
      state.backend: rocksdb
      state.checkpoints.dir: hdfs://master:9000/flink/checkpoint
      
  4. 从checkpoint恢复任务

    1. 可以在网页中指定checkpint的路径恢复,路径需要带上前缀hdfs://master:9000

      hdfs://master:9000/flink/checkpoint/11edbec21742ceddebbb90f3e49f24b4/chk-35
      
    2. 也可以在命令行中重新提交任务,指定恢复任务的位置, 需要先上传jarr包

      # -s 恢复任务的位置
      flink run -t yarn-session -Dyarn.application.id=application_1658546198162_0005  -c com.shujia.flink.core.Demo15RocksDB -s hdfs://master:9000/flink/checkpoint/11edbec21742ceddebbb90f3e49f24b4/chk-35 flink-1.0.jar
      

    如下代码,数据存储在hashmap中即内存中,当关闭任务后,数据就会消失

    package com.wt.flink.core
    
    import org.apache.flink.api.common.functions.MapFunction
    import org.apache.flink.runtime.state.hashmap.HashMapStateBackend
    import org.apache.flink.streaming.api.CheckpointingMode
    import org.apache.flink.streaming.api.environment.CheckpointConfig.ExternalizedCheckpointCleanup
    import org.apache.flink.streaming.api.scala._
    
    import scala.collection.mutable
    
    object Demo11HashMap {
      def main(args: Array[String]): Unit = {
        val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
    
        /**
         * 打开flink的checkpoint
         *
         */
        // 每 1000ms 开始一次 checkpoint
        env.enableCheckpointing(1000)
        // 高级选项:
        // 设置模式为精确一次 (这是默认值)
        env.getCheckpointConfig.setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE)
    
        // 确认 checkpoints 之间的时间会进行 500 ms
        env.getCheckpointConfig.setMinPauseBetweenCheckpoints(500)
    
        // Checkpoint 必须在一分钟内完成,否则就会被抛弃
        env.getCheckpointConfig.setCheckpointTimeout(60000)
    
        // 允许两个连续的 checkpoint 错误
        env.getCheckpointConfig.setTolerableCheckpointFailureNumber(2)
    
        // 同一时间只允许一个 checkpoint 进行
        env.getCheckpointConfig.setMaxConcurrentCheckpoints(1)
    
        // 使用 externalized checkpoints,这样 checkpoint 在作业取消后仍就会被保留
        //RETAIN_ON_CANCELLATION: 当任务取消时保留checkpoint
        env.getCheckpointConfig.setExternalizedCheckpointCleanup(
          ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION)
    
        /**
         * 需要设置flink checkpoint保存状态的位置
         *
         */
        env.setStateBackend(new HashMapStateBackend())
    
        //将状态保存到hdfs中
        env.getCheckpointConfig.setCheckpointStorage("hdfs://master:9000/flink/checkpoint")
    
        val linesDS: DataStream[String] = env.socketTextStream("master", 8888)
    
        val wordsDS: DataStream[String] = linesDS.flatMap(_.split('<'))
    
        val keyByDS: KeyedStream[String, String] = wordsDS.keyBy(wrod => wrod)
    
        val countDS: DataStream[(String, Int)] = keyByDS.map(
          new MapFunction[String, (String, Int)] {
    
            /**
             * 同于保存单词的数量(状态)
             *
             * 使用一个普通的结果保存之前的计算结果,如果任务执行失败,集合中保存的结果会丢失
             *
             */
            private val wordCount = new mutable.HashMap[String, Int]()
    
            override def map(word: String): (String, Int) = {
              //如果map集合中有就获取让后累加,再更新,
              var count: Int = wordCount.getOrElse(word, 0)
              //累加
              count += 1
              //更新
              wordCount.put(word, count)
    
              //返回新的单词的数量
              (word, count)
            }
          })
        countDS.print()
        env.execute()
      }
    }
    

    checkpoint 代码

    package com.wt.flink.core
    
    import org.apache.flink.runtime.state.hashmap.HashMapStateBackend
    import org.apache.flink.streaming.api.CheckpointingMode
    import org.apache.flink.streaming.api.environment.CheckpointConfig.ExternalizedCheckpointCleanup
    import org.apache.flink.streaming.api.scala._
    
    object Demo12Checkpoint {
      def main(args: Array[String]): Unit = {
        val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
    
        /**
         * 打开flink的checkpoint
         *
         */
    
        // 每 1000ms 开始一次 checkpoint
        env.enableCheckpointing(1000)
        // 高级选项:
        // 设置模式为精确一次 (这是默认值)
        env.getCheckpointConfig.setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE)
    
        // 确认 checkpoints 之间的时间会进行 500 ms
        env.getCheckpointConfig.setMinPauseBetweenCheckpoints(500)
    
        // Checkpoint 必须在一分钟内完成,否则就会被抛弃
        env.getCheckpointConfig.setCheckpointTimeout(60000)
    
        // 允许两个连续的 checkpoint 错误
        env.getCheckpointConfig.setTolerableCheckpointFailureNumber(2)
    
        // 同一时间只允许一个 checkpoint 进行
        env.getCheckpointConfig.setMaxConcurrentCheckpoints(1)
    
        // 使用 externalized checkpoints,这样 checkpoint 在作业取消后仍就会被保留
        //RETAIN_ON_CANCELLATION: 当任务取消时保留checkpoint
        env.getCheckpointConfig.setExternalizedCheckpointCleanup(
          ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION)
    
        /**
         * 需要设置flink checkpoint保存状态的位置
         *
         */
    
        env.setStateBackend(new HashMapStateBackend())
        //将状态保存到hdfs中
        env.getCheckpointConfig.setCheckpointStorage("hdfs://master:9000/flink/checkpoint")
    
    
        val linesDS: DataStream[String] = env.socketTextStream("master", 8888)
    
        val wordsDS: DataStream[String] = linesDS.flatMap(_.split(','))
    
        val kvDS: DataStream[(String, Int)] = wordsDS.map((_, 1))
    
        val keyByDS: KeyedStream[(String, Int), String] = kvDS.keyBy(_._1)
    
        /**
         * sum: 底层使用了flink的状态保存之前的计算结果
         * flink的状态会被checkpoint持久化到hdfs中,任务被取消或者执行失败可以恢复之前的计算结果
         */
        val countDS: DataStream[(String, Int)] = keyByDS.sum(1)
    
        countDS.print()
    
        env.execute()
      }
    }
    

    ​ 1.第一次提交上面的任务到集群中时,只需要指定类名即可

    ​ 2.我们向其中打入数据

    ​ 3.然后 kill 掉任务

    1. 再次提交任务,指定类名,还有快照在hdfs中存放的位置,如下:

打入的数据如下:

第二次查看结果:

valueState

package com.wt.flink.core

import org.apache.flink.api.common.functions.{RichMapFunction, RuntimeContext}
import org.apache.flink.api.common.state.{ValueState, ValueStateDescriptor}
import org.apache.flink.configuration.Configuration
import org.apache.flink.runtime.state.hashmap.HashMapStateBackend
import org.apache.flink.streaming.api.CheckpointingMode
import org.apache.flink.streaming.api.environment.CheckpointConfig.ExternalizedCheckpointCleanup
import org.apache.flink.streaming.api.scala._

object Demo13ValueState {
  def main(args: Array[String]): Unit = {
    val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment

    /**
     * 打开flink的checkpoint
     *
     */

    // 每 1000ms 开始一次 checkpoint
    env.enableCheckpointing(5000)
    // 高级选项:
    // 设置模式为精确一次 (这是默认值)
    //EXACTLY_ONCE: 唯一一次
    env.getCheckpointConfig.setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE)

    // 确认 checkpoints 之间的时间会进行 500 ms
    env.getCheckpointConfig.setMinPauseBetweenCheckpoints(500)

    // Checkpoint 必须在一分钟内完成,否则就会被抛弃
    env.getCheckpointConfig.setCheckpointTimeout(60000)

    // 允许两个连续的 checkpoint 错误
    env.getCheckpointConfig.setTolerableCheckpointFailureNumber(2)

    // 同一时间只允许一个 checkpoint 进行
    env.getCheckpointConfig.setMaxConcurrentCheckpoints(1)

    // 使用 externalized checkpoints,这样 checkpoint 在作业取消后仍就会被保留
    //RETAIN_ON_CANCELLATION: 当任务取消时保留checkpoint
    env.getCheckpointConfig.setExternalizedCheckpointCleanup(
      ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION)

    /**
     * 需要设置flink checkpoint保存状态的位置
     *
     */

    env.setStateBackend(new HashMapStateBackend())
    //将状态保存到hdfs中
    env.getCheckpointConfig.setCheckpointStorage("hdfs://master:9000/flink/checkpoint")


    val linesDS: DataStream[String] = env.socketTextStream("master", 8888)

    val wordsDS: DataStream[String] = linesDS.flatMap(_.split('<'))

    val keyByDS: KeyedStream[String, String] = wordsDS.keyBy(wrod => wrod)

    val countDS: DataStream[(String, Int)] = keyByDS.map(new RichMapFunction[String, (String, Int)]() {

      /**
       * ValueState: 单值状态,为每一个key再状态中保存一个值
       * 状态:是flink中特殊的变量,会被checkpoint保存到hdfs中,如果任务执行失败可以恢复之前的计算结果
       */
      var valueState: ValueState[Int] = _

      /**
       * open:再map之前执行,每一个task中只执行一次
       * flink的状态需要先再open中定义
       * 态需:用于保存之前结果的变量,和普通变量的区别,状态会被checkpoint持久化到到hdfs中
       *
       */
      override def open(parameters: Configuration): Unit = {
        //获取flink的上下文对象
        //getRuntimeContext: 是AbstractRichFunction中的一个方法
        val context: RuntimeContext = getRuntimeContext

        //创建状态的描述对象
        //状态描述对象:对状态中保存的数据做一个设置,指定保存数据的类型,初始值
        val valueStateDesc = new ValueStateDescriptor[Int]("count", classOf[Int])

        //通过状态的描述对象获取一个状态
        valueState = context.getState(valueStateDesc)
      }


      override def map(word: String): (String, Int) = {

        //1、获取状态中保存的数据
        var count: Int = valueState.value()

        //2、累加统计
        count += 1

        //3、更新状态
        valueState.update(count)
        //返回单词的数量
        (word, count)
      }
    })
    countDS.print()
    env.execute()
  }
}

求动态的求出每个班级的平均年龄

package com.wt.flink.core

import org.apache.flink.api.common.functions.RuntimeContext
import org.apache.flink.api.common.state.{ValueState, ValueStateDescriptor}
import org.apache.flink.configuration.Configuration
import org.apache.flink.streaming.api.functions.KeyedProcessFunction
import org.apache.flink.streaming.api.scala._
import org.apache.flink.util.Collector

object Demo14AvgAge {
  def main(args: Array[String]): Unit = {
    val env: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment

    /**
     * 实时计算每一个班级的平均年龄
     *
     */
    val studentDS: DataStream[String] = env.socketTextStream("master", 8888)


    //取出班级和学生的年龄
    val clazzAndAge: DataStream[(String, Int)] = studentDS.map(line => {
      val split: Array[String] = line.split(",")
      val clazz: String = split(4)
      val age: Int = split(2).toInt
      (clazz, age)
    })
    //按照班级分组
    val keyByDS: KeyedStream[(String, Int), String] = clazzAndAge.keyBy(_._1)

    //计算平均年龄
    //flink的状态可以在任务算子中使用,map.flatMap,fliter process都可以

    val avgAgeDS: DataStream[(String, Double)] = keyByDS
      .process(new KeyedProcessFunction[String, (String, Int), (String, Double)] {


        override def open(parameters: Configuration): Unit = {

          /**
           * 定义两个状态来保存总人数和总的年龄
           *
           */
          val context: RuntimeContext = getRuntimeContext

          //总人数状态的描述对象
          val sumNumDesc = new ValueStateDescriptor[Int]("sumNum", classOf[Int])

          //总的年龄的描述对象
          val sumAgeDesc = new ValueStateDescriptor[Int]("sumAge", classOf[Int])

          sumNumState = context.getState(sumNumDesc)
          sumAgeState = context.getState(sumAgeDesc)

        }

        //保存总的人数的状态
        var sumNumState: ValueState[Int] = _
        //保存总的年龄的状态
        var sumAgeState: ValueState[Int] = _

        override def processElement(kv: (String, Int),
                                    ctx: KeyedProcessFunction[String, (String, Int), (String, Double)]#Context,
                                    out: Collector[(String, Double)]): Unit = {

          val clazz: String = kv._1
          val age: Int = kv._2

          //获取之前的总的人数和总的年龄
          var sumNum: Int = sumNumState.value()

          //人数累加
          sumNum += 1

          //更新状态
          sumNumState.update(sumNum)

          var sumAge: Int = sumAgeState.value()
          //累加
          sumAge += age

          //更新状态
          sumAgeState.update(sumAge)

          //季孙平均年龄
          val avgAge: Double = sumAge.toDouble / sumNum

          //将数据发送到下游
          out.collect((clazz, avgAge))
        }
      })

    avgAgeDS.print()

    env.execute()
  }
}
posted @ 2022-07-27 16:02  a-tao必须奥利给  阅读(455)  评论(0)    收藏  举报